利用Webkit抓取动态网页和链接
<div id="cnblogs_post_body">做爬虫的时候最头疼的就是遇到一些动态加载的页面或者是一些动态生成的链接。比如我们的博客园就是个例子:
http://pic002.cnblogs.com/images/2012/416103/2012121123054126.png
凤凰网的评论链接也是一样:
http://pic002.cnblogs.com/images/2012/416103/2012121123062697.png
今天我们就用Webkit来解决这个问题。
预备知识可以看一下我前面几篇文章,准备工作参照利用InjectedBundle定制自己的Webkit(二)中的客户端程序。
一切就绪之后我们开始!
首先介绍一些重要的函数和回调
在创建一个Page之后我们可以设置一些回调函数,其中有一个是:
<div class="myCodeClass">WKPageLoaderClient::didFinishDocumentLoadForFrame
页:
[1]