六狼论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博账号登陆

只需一步,快速开始

搜索
查看: 719|回复: 0

用百度蜘蛛模拟抓取项目网站发现返回403,如何排查

[复制链接]

升级  39.67%

64

主题

64

主题

64

主题

举人

Rank: 3Rank: 3

积分
319
 楼主| 发表于 2015-7-6 13:44:13 | 显示全部楼层 |阅读模式
用百度蜘蛛模拟抓取项目网站发现返回403,如何排查

今天检查网站(http://www.agoit.com)SEO情况,很郁闷。

近期对google做过xml发送。对百度也做过多次submit_url。

site命令返回的结果是百度为0,google收录了bbs页面。这让我很不可理解。。

乘着事情做完,研究了一下。使用chinaz的站长工具,用百度模拟蜘蛛访问首页。返回远程服务器返回错误: (403) 已禁止。。查询收录,说网站存在异常。

原以为是IIS配置的Rewrite问题,停用之。依然报远程服务器返回错误: (403) 已禁止。

再以为index.html位置不对,放第一位,还是报远程服务器返回错误: (403) 已禁止。

有以为顶级域名tyxcn.com没解析。加上后还是不行。

于是乎,用百度蜘蛛模拟器访问bbs首页,没问题,访问www的静态文件1.html没问题。

初步断定问题可能出在www上和php上。

访问index.php返回403

查询一下网上的场外援助,说index.html里写入dir即可。写入后,依然没用。

于是,用die("test");函数写入index.php首行。。显示了。。

好吧,最后查出来居然是因为include了discuz bbs的common.inc.php文件。并且index.php文件中加入了defined('NOROBOT'),悲剧啊,原来是程序员开发的时候为了不让蜘蛛抓走没完善的页面,屏蔽了蜘蛛。。

去掉这个该死的defined。没问题了。

这个错误导致网站上线两周www主域名无收录。蛋疼中ing..


出处:http://blog.duteba.com/technology/article/21.htm
用百度蜘蛛模拟抓取项目网站发现返回403,如何排查

您需要登录后才可以回帖 登录 | 立即注册 新浪微博账号登陆

本版积分规则

快速回复 返回顶部 返回列表