php正文提取原理演示——提取篇

作者:enenba | 发表于:2012-05-02 22:38 | 分类:php采集

看了《基于行块分布函数的网页正文抽取算法》是觉得是个好东西, 可以利用。先简单介绍

基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关

简述:

对于Web信息检索来说,网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来,并做到在大规模网页范围内通用,这是一个直接关系上层应用的难题。

作者提出了《基于行块分布函数的通用网页正文抽取算法》,首次将网页正文抽取问题转化为求页面的行块分布函数,这种方法不用建立Dom树,不被病态HTML所累(事实上与HTML标签完全无关)。通过在线性时间内建立的行块分布函数图,直接准确定位网页正文。同时采用了统计与规则相结合的方法来处理通用性问题。作者相信简单的事情总应该用最简单的办法来解决这一亘古不变的道理。整个算法实现不足百行代码。但量不在多,在法。

项目网址:http://code.google.com/p/cx-extractor/

      以上是介绍了,具体可以去下那个pdf和源码下来看,我就不陈述,接下来上我的修改代码

 也就接上一次发的那篇代码。《php正文提取原理演示——过滤篇》继续补充。

 

源代码就不上了,大家看附件吧,

直接上演示: 猛击这里去测试吧

      正文部分使用的 cx-extractor的提取算法,因为cx-extractor滤过太多的东西了,影响阅读,所以过滤部分是自己写的。以后再进行完善

 

enenba原创,转载请保留出处:http://enenba.com/?post=152

end

 

附件下载/演示源码:
cx-extractor.rar3.28KB

上一篇: 又换了空间,这次应该给力了吧   |   下一篇:php正文提取原理演示——过滤篇» 标签: php采集 php过滤 数据采集

评论:

2012-08-27 20:35

这个算法其实很差劲。测试效果证明了我的想法。

2012-08-27 22:38

目前还是测试阶段,想不到效率这么差劲,还要多多改进。