Java解析HTML之NekoHTML
NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer),使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档过程中常犯的错误。NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。NekoHTML的开发使用了Xerces Native Interface (XNI),后者是Xerces2的实现基础。http://nekohtml.sourceforge.net/
http://xerces.apache.org/xerces2-j/
版本:nekohtml_1.9.15.jar xerces-2.9.1
1、获取元素内容
//创建一个解析器DOMParser parser = new DOMParser();//解析HTML文件parser.parse("html/test1.html");//获取解析后的DOM树Document document = parser.getDocument();//通过getElementsByTagName获取NodeNodeList nodeList = document.getElementsByTagName("a");for (int i = 0; i < nodeList.getLength(); i++) {Element e = (Element)nodeList.item(i);System.out.print(e.getAttribute("href") + "\t");System.out.println(e.getTextContent());}
<html><head><title>test1</title></head><body><a href="http://www.sina.com.cn">www.sina.com.cn</a><br><a href="http://www.sohu.com">www.sohu.com</a><br><a href="http://www.163.com" name="test">www.163.com</a><br><a href="http://www.qq.com">www.qq.com</a><br></body></html>
<div class="quote_title">引用
页:
[1]