正文提取算法初解——网站内容特征

作者:enenba | 发表于:2012-01-15 01:17 | 分类:php采集

    网站内容都有一定的信息块特征,以下有一些供采集的HTML内容特征。是网上记下来的,觉得有用就转来了。不记得是在哪里转的了。

阅读全文>>

0人成功匹配 1774人撸过

使用php正则获取网页的img部分

作者:enenba | 发表于:2012-01-13 16:02 | 分类:php采集

使用此正则可以采集网页中的img标签中的src部分。此PHP正则表达式算是我找到比较完美的正则匹配了。

它可以很好的避免样式的影响,如<img class="b12" src…………/>也能采到src部分。

阅读全文>>

0人成功匹配 4305人撸过

php正则得到网页的keywords和description部分

作者:enenba | 发表于:2012-01-13 00:07 | 分类:php采集

     正则匹配网页的keywords部分,主要的方法也是获取页面的源代码,然后再从中使用正则匹配出来。但是PHP就有一个自带的函数get_meta_tags()。这个函数可以逐行解析文件中的 <meta> 标签解析工作将在 </head> 处停止。

可以想到,他的效率应该比采集源码再分析的快。

阅读全文>>

8人成功匹配 4502人撸过

使用php正则获取网页的titile部分

作者:enenba | 发表于:2012-01-12 22:49 | 分类:php采集

很多的采集程序都用到采集网页的title部分,主要的方法也是获取页面的源代码,然后再从中使用正则匹配出来。

以下使用PHP正则采集页面的title部分

阅读全文>>

0人成功匹配 4087人撸过