抓取网页中的源代码.
首先在获取html页面的源代码之前..要准备Apache里面的两个包:
htmllexer.jar
htmlparser.jar
有了这两个包方便,抓取网页中的源代码,抓取之后,生成一个txt文档..如果要获取里面的内容..就自己处理下就好了..
具体代码如下:
package pack.java.url;import java.io.File;import java.io.FileOutputStream;import org.htmlparser.Parser; import org.htmlparser.util.NodeList;public class Test { /** * 测试方法; * @param args * @throws Exception */ public static void main(String[] args) throws Exception{ // TODO Auto-generated method stub String url="http://www.baidu.com/"; //创建一个parser对象; Parser parser=new Parser(url); //设置字符编码格式; parser.setEncoding("gb2312"); NodeList list=parser.parse(null); //输出; FileOutputStream outputStream = new FileOutputStream(new File("C:/pageData.txt")); outputStream.write(list.toHtml().getBytes()); } }
页:
[1]