六狼论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博账号登陆

只需一步,快速开始

搜索
查看: 1527|回复: 0

Larbin网络爬虫在Linux下的配置 ——终于搞定了

[复制链接]
 楼主| 发表于 2014-9-3 16:33:22 | 显示全部楼层 |阅读模式
我主机是Windows XP系统,又装了ReaHat虚拟机在上边(Labin目前好像还不支持Windows,不得已而为之)

1. labin-2.6.2解压缩 (on Windows XP)

2. options.h 注释掉options.h中的这行:#define DEFAULT_OUTPUT // do nothing... 让SIMPLE_SAVE :生效 (on Windows XP using VC6.0)

3. ./adns/internal.h 568-571行注释掉;
   #include <sys/poll.h>//added by chuyanli for struct pollfd on line 303
   注释掉PRINTFFORMAT(4,5) on line 323 325 327
4. larbin.conf 在这个文件中可以修改starturl Proxy 连接数等等(on Windows XP using VC6.0)
5. VM->settings->share->add this file "larbin" in
6. on RedHat VM terminal
->cd /
->cd mnt
->cd hgfs
->cd larbin
->./configure (编译会有2个左右的error,没关系,继续往下进行)
->make (如果成功,则生成larbin文件)
->./larbin ()
中止 ->ctrl + c
重起 ->./larbin -scratch
我当时是第3条的最后一步没做好,导致编译了半天,也郁闷个半死。。。还好还好,爬虫开始爬了!
爬到的网页放在larbin->save文件夹中,每1000个网页为一个子文件夹,里边有index索引文件,记录了爬过的url序列,正好为我所用哈哈!

摘自:http://blog.csdn.net/ijuliet/article/details/3560879

该会员没有填写今日想说内容.
您需要登录后才可以回帖 登录 | 立即注册 新浪微博账号登陆

本版积分规则

快速回复 返回顶部 返回列表