六狼论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博账号登陆

只需一步,快速开始

搜索
查看: 1153|回复: 0

对抓取回来的海量原始网页存储结构设计

[复制链接]

升级  60%

6

主题

6

主题

6

主题

童生

Rank: 1

积分
30
 楼主| 发表于 2013-1-30 01:57:00 | 显示全部楼层 |阅读模式
最近一直在搞爬虫相关的工作,现在在考虑抓取回来的原始网页存储问题
找了一些资料,也参考了天网的存储格式,现在头绪没有理清楚,该以怎样的结构存储对后期的再加工和查询等提高效率,希望做搜索的朋友一起讨论,哪里不对请指教
您需要登录后才可以回帖 登录 | 立即注册 新浪微博账号登陆

本版积分规则

快速回复 返回顶部 返回列表