pqcc 发表于 2013-1-25 03:22:48

PHP 抽取网页标题并剔除不相关的seo关键字

场景描述:

过往我们在抽取网页标题的时候,都会直接抽取 之间的内容. 但实际情况是这样,例如javaeye 的一篇文章 http://www.iteye.com/news/21643 ,的内容为 "10年软件开发教会我最重要的10件事 - 非技术 - ITeye资讯", 但实际引用中我们期望的标题应该为 "10年软件开发教会我最重要的10件事". 所以标题后面堆砌了很多不相关的关键字(应该是为了seo 吧). 所以我们希望过滤掉这些关键字. 有下面的方法可以参考:


1. 查找 h1 等标签.(分析sina news 一些网站之后, 觉得不可行,会有很多干扰)

2. 从全文去标题后,将 之间的内容切割(按 _ | -)为 a1,a2,a3,a4,然后从最长的词组a3开始从全文查找. 如果查找成功,那么开始向左边迭代查询 a2,a1,直到查询失败为止 。左侧失败后,再继续向右迭代,同理. (这里我采用的是这种方法)


<?php/** * @author pqcc <struts.ec@mgail.com> * @date: 2011-06-18 * Description: 给定一个网页内容,提取网页的标题. 提取的标题不包括 seo 关键字. * e.g: 一篇新闻标题的从<title>直接抽取结果为 "大学英语四六级本周六开考 909万人参考_新浪教育_新浪网", *       但我们希望的结果是:"大学英语四六级本周六开考 909万人参考". * 适用范围:文章最终页标题的提取, 不包括专题页等. */class TitlePurify{    private $matches_preg = '[-_\s|—]';    function getTitle($contents){/*{{{*/      $preg = "/<title[^>]*>([\w|\t|\r|\W]*?)<\/title>/i";      preg_match($preg, $contents, $matches);      if(count($matches)<=1){            return "标题抽取失败";      }      $title = $matches;      return $this->trimTitle($title, $contents);    }/*}}}*/    function trimMeta($contents){/*{{{*/      // 首先去除 <title> 内容, <meta> 内容.      $preg       = "/<title[^>]*>([\w|\t|\r|\W]*?)<\/title>/i";      $contents   = preg_replace($preg, '', $contents);      $preg       = "/<meta[^>]*>/i";      $contents   = preg_replace($preg, '', $contents);      return $contents;    }/*}}}*/    // 获取长度最长的 item 所处的index.    function getMaxIndex($titles){/*{{{*/      $maxItemIndex   = 0;      $maxLength      = 0;      $loop         = 0;      foreach($titles as $item){            if(strlen($item)>$maxLength){                $maxLength      = strlen($item);                $maxItemIndex   = $loop;            }                  $loop++;      }      return $maxItemIndex;    }/*}}}*/    function trim($title, $titles, $contents, $maxItemIndex){/*{{{*/      //@todo : 此处可优化contents      // 如果查找成功. result = tempTitle.         $tempTitle= $titles[$maxItemIndex];      $result   = $tempTitle;      $count      = count($titles);      // while 从当前index 向左进行迭代(直到到达第一个或者匹配失败才中止).      $leftIndex= $maxItemIndex-1;      while(true && $leftIndex>=0){            // tempTitle+左一个.            preg_match("/({$this->matches_preg}+{$tempTitle})/i", $title, $matches);            if(count($matches)>1){                // temp 用于匹配失败后,进行回滚.                $temp       = $titles[$leftIndex] . $matches;                $tempTitle= $titles[$leftIndex] . $matches;                // 继续拿着 tempTitle 去匹配.                preg_match("/$tempTitle/i", $contents, $matches);                // 如果查找失败....                if(count($matches)<1){                  $tempTitle = $temp;                  break;                }else{                  $result = $tempTitle;                }            }else{ // 正常情况下, 不会出现该情况.                break;            }            $leftIndex--;      }      // match(current.[|-].tempTitle), 如果成功, tempTitle = match 成功的值,继续.      // while 左边失败后, 从右边开始.      $rightIndex = $maxItemIndex+1;      while(true && ($rightIndex<=$count)){            preg_match("/({$tempTitle}{$this->matches_preg}+)/i", $title, $matches);            if(count($matches)>1){                // temp 用于匹配失败后,进行回滚.                $temp       =$matches . $titles[$rightIndex];                $tempTitle=$matches . $titles[$rightIndex];                // 继续拿着 tempTitle 去匹配.                preg_match("/$tempTitle/i", $contents, $matches);                // 如果查找失败....                if(count($matches)<1){                  $tempTitle = $temp;                  break;                }else{                  $result = $tempTitle;                }            }else{ // 正常情况下, 不会出现该情况.                break;            }            $rightIndex++;      }      return $result;    }/*}}}*/    function trimTitle($title, $contents){/*{{{*/                $contents = $this->trimMeta($contents);            // 配置切割标题的规则.      $titles = preg_split("/$this->matches_preg/i", $title);      $count          = count($titles);      //var_dump($titles);exit;      // 将当前最长的 item 从全文查找.      $maxItemIndex = $this->getMaxIndex($titles);      $tempTitle   = $titles[$maxItemIndex];      preg_match("/$tempTitle/i", $contents, $matches);      // 如果查找失败....      if(count($matches)<1){            return $title;      }      return $this->trim($title, $titles, $contents, $maxItemIndex);    }/*}}}*/}// -------------   test code ------------------------------function convertEncoding($contents){    preg_match("/charset=([\w|\-]+);?/i", $contents, $match);    $charset = isset($match)? $match : 'UTF-8';    $contents = mb_convert_encoding($contents, 'UTF-8', $charset);    return $contents;}$url = 'http://china.nba.com/news/4/2011/0617/61383331/10451.html';$contents = file_get_contents($url);$contents = convertEncoding($contents);$startTime= microtime();$purify   = new TitlePurify();$title      = $purify->getTitle($contents);$endTime    = microtime();echo "标题:      $title ";echo "cost: " . ($endTime-$startTime);?>
页: [1]
查看完整版本: PHP 抽取网页标题并剔除不相关的seo关键字