网页切片算法的若干问题

winzenghua · 发表于 2013-1-29 09:35:12

这是我研究网页切片算法的一个汇总想法。
  之前我写过：一种面向搜索引擎的网页分块、切片的原理，实现和演示，随着工作的深入，逐渐碰到以下问题：

网页切片的粒度问题：
网页切片算法的目的不是精确找到所需要的内容，而是识别划分网页的各种功能区域，导航区，链接区，内容，页脚区和广告区等。

网页切片的网页对象：
互连网纱功能的网页大概有2种类型，目录型和内容型；随着搜索引擎的发展，网站结构逐渐向扁平化的方向发展，车东  对此也做出了数据验证，而且随着显示器分辨率的不断提高，内容和目录结合型的网页呈增加趋势，天极的网页涉及，可以说是其中的典范。
  网页切片算法的对象应该是针对：内容型和内容目录混合型。对不同网页，应该有个识别算法，应该包括哪些标准？

  网页内容区最大范围识别：
从切片的粒度可以看出，应该把内容区作为一个部分单独切出来。根据一般的网页设计规律，一般有2种容纳内容区的方式：1、包含型(如blog ) 2、并列型(如bbs帖子)。

  如果处理分页的内容型网页：
现在大多数网站为了改善用户体验和增加页面展示次数的需要，对网页做了分页处理，这部分需要设别出来。

无意间看到了：VIPS:基于视觉的Web页面分页算法，从理论上证明了这种方法的可行性。可是实现起来有很多障碍，正如这位所说的：
<div class="post"> <blockquote><div class="postTitle">蜗牛发表于2006-02-21 12:40 AMIP: 220.184.129.*

		自动登录	找回密码
密码			立即注册