zhou363667565 发表于 2013-2-1 12:52:32

抓取网页中的源代码.

   首先在获取html页面的源代码之前..
   要准备Apache里面的两个包:
   htmllexer.jar
   htmlparser.jar
   有了这两个包方便,抓取网页中的源代码,抓取之后,生成一个txt文档..如果要获取里面的内容..就自己处理下就好了..
 
   具体代码如下:
 
package pack.java.url;import java.io.File;import java.io.FileOutputStream;import org.htmlparser.Parser;   import org.htmlparser.util.NodeList;public class Test {       /**   * 测试方法;   * @param args   * @throws Exception   */    public static void main(String[] args) throws Exception{         // TODO Auto-generated method stub         String url="http://www.baidu.com/";          //创建一个parser对象;      Parser parser=new Parser(url);      //设置字符编码格式;      parser.setEncoding("gb2312");         NodeList list=parser.parse(null);         //输出;      FileOutputStream outputStream = new FileOutputStream(new File("C:/pageData.txt"));      outputStream.write(list.toHtml().getBytes());    }   } 
 
 
 
 
 
页: [1]
查看完整版本: 抓取网页中的源代码.