Java爬虫框架:jsoup

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

package lcy;



import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;


public class Lcy {
	public static void main(String[] args) {
		String html = "<a href=\"http://phpinfo.me\">Lcy博客</a>";
		Document doc = Jsoup.parse(html);
		Elements link = doc.getElementsByTag("a");
		Element a = link.get(0);
		System.out.println(a.attr("href"));
	}
}

123

 

使用文档:http://www.open-open.com/jsoup/

文 / admin
LEAVE A REPLY

loading