cdwzwd 发表于 2013-1-28 18:21:16

Heritrix-1.14.4爬取数乱编码问题解决方法

最近在使用HeriTrix爬去数据,发现爬取的结果有的是乱码。自己知道是编码问题。就读源码以解决问题。

解决方法
找到heritrix-1.14.4-src\src\java\org\archive\io\ReplayInputStream.java文件

    public void readFullyTo(OutputStream os) throws IOException {      byte[] buf = new byte;      int c = read(buf);      while (c != -1) {            os.write(buf,0,c);            c = read(buf);      }    }
改为
    public void readFullyTo(OutputStream os) throws IOException {      byte[] buf = new byte;      int c = read(buf);         while (c != -1) {            //在这里可以将"UTF-8"替换成自己需要的编码方式            String str_changed_by_cdw = new String(buf,0,c,"UTF-8");      os.write(str_changed_by_cdw.getBytes());            c = read(buf);      }    }
这样更改之后,爬取的数据就不会出现乱码了!
页: [1]
查看完整版本: Heritrix-1.14.4爬取数乱编码问题解决方法