对抓取回来的海量原始网页存储结构设计

升级 60%

6 主题	6 主题	6 主题

Rank: 1

楼主| 发表于 2013-1-30 01:57:00 | 显示全部楼层 |阅读模式

最近一直在搞爬虫相关的工作，现在在考虑抓取回来的原始网页存储问题
找了一些资料，也参考了天网的存储格式，现在头绪没有理清楚，该以怎样的结构存储对后期的再加工和查询等提高效率，希望做搜索的朋友一起讨论，哪里不对请指教

		自动登录	找回密码
密码			立即注册