采集侠正文提取原理观察

作者:enenba | 发表于:2012-04-07 19:24 | 分类:php采集

这几天看到了采集侠的正文提取,精确度还是挺高的。经我几天的观察它有以下的几个特点:

1、去除所有标签 除了<p> <br> <b> <strong> <img> <h1>~<h6> <i> <em> <span>

2、去除标签属性, 如class="xx" 

3、保留图片属性 如<img src="123.jpg" width="12" />


4、查找p标签比较多的地方。 排除列表 如  li uli标签

5、查找中文长度最长的部分。

………………

上一篇: 正则表达式href\s*=\s*(?:\"(?<1>[^\"]*)\"|(?<1>\\S+))什么意思   |   下一篇:将[code]标签内的所有<br/>替换成#号» 标签: 正则匹配 php采集 数据采集

评论: