用百度蜘蛛模拟抓取项目网站发现返回403,如何排查
今天检查网站(http://www.agoit.com)SEO情况,很郁闷。 近期对google做过xml发送。对百度也做过多次submit_url。 site命令返回的结果是百度为0,google收录了bbs页面。这让我很不可理解。。 乘着事情做完,研究了一下。使用chinaz的站长工具,用百度模拟蜘蛛访问首页。返回远程服务器返回错误: (403) 已禁止。。查询收录,说网站存在异常。 原以为是IIS配置的Rewrite问题,停用之。依然报远程服务器返回错误: (403) 已禁止。 再以为index.html位置不对,放第一位,还是报远程服务器返回错误: (403) 已禁止。 有以为顶级域名tyxcn.com没解析。加上后还是不行。 于是乎,用百度蜘蛛模拟器访问bbs首页,没问题,访问www的静态文件1.html没问题。 初步断定问题可能出在www上和php上。 访问index.php返回403 查询一下网上的场外援助,说index.html里写入dir即可。写入后,依然没用。 于是,用die("test");函数写入index.php首行。。显示了。。 好吧,最后查出来居然是因为include了discuz bbs的common.inc.php文件。并且index.php文件中加入了defined('NOROBOT'),悲剧啊,原来是程序员开发的时候为了不让蜘蛛抓走没完善的页面,屏蔽了蜘蛛。。 去掉这个该死的defined。没问题了。 这个错误导致网站上线两周www主域名无收录。蛋疼中ing..
出处:http://blog.duteba.com/technology/article/21.htm
用百度蜘蛛模拟抓取项目网站发现返回403,如何排查
|