php采集链接优秀正则

作者:enenba | 发表于:2015-09-17 22:30 | 分类:php采集

这两天在用PHP写个采集程序,采集程序采集链接是最开始也是最基础的部分。在链接这个正则上还真是花的时间长。主要是花在一些网站的代码不规范,但是这些不规范的代码偏偏浏览器又能同样解析,好了,不啰嗦了,直接说主题。

浏览器能解析成功的链接代码有:

  1.  <a href= http://www.huoyue.org  target=_blank >一</a>...

阅读全文>>

0人成功匹配 2239人撸过

如何用php正则去掉得到img标签中的 border属性

作者:enenba | 发表于:2012-05-13 00:07 | 分类:php采集

    请问php正则如何去掉得到img标签中的 border属性,例如:<img src="test.gif" border="0" alt="test1" />   替换后的  <img src="test.gif" alt="test1" />

 

一开始我就想到要 只去掉border="" 很简单的写出

$search = '/(<img.*?)(border=".*?")([^>]+\/?>)/is';

它只能去掉形如<img src="囧1" border="囧2" />这样的border,一般的 <img>标签会有这样几种含有boder的情况

阅读全文>>

9人成功匹配 4751人撸过

php正文提取原理演示——提取篇

作者:enenba | 发表于:2012-05-02 22:38 | 分类:php采集

看了《基于行块分布函数的网页正文抽取算法》是觉得是个好东西, 可以利用。先简单介绍

基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关

简述:

对于Web信息检索来说,网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来,并做到在大规模网页范围内通用,这是一个直接关系上层应用的难题。

作者提出了《基于行块分布函数的通用网页正文抽取算法》,首次将网页正文抽取问题转化为求页面的行块分布函数,这种方法不用建立Dom树,不被病态HTML所累(事实上与HTML标签完全无关)。通过在线性时间内建立的行块分布函数图,直接准确定位网页正文。同时采用了统计与规则相结合的方法来处理通用性问题。作者相信简单的事情总应该用最简单的办法来解决这一亘古不变的道理。整个算法实现不足百行代码。但量不在多,在法。

项目网址:http://code.google.com/p/cx-extractor/

 以上是介绍了,具体可以去下那个pdf和源码下来看,我就不陈述,接下来上我的修改代码

直接上演示: 猛击这里去测试吧

阅读全文>>

2人成功匹配 5233人撸过

正则表达式href\s*=\s*(?:\"(?<1>[^\"]*)\"|(?<1>\\S+))什么意思

作者:enenba | 发表于:2012-04-08 23:56 | 分类:正则表达式

问:详细解释href\s*=\s*(?:\"(?<1>[^\"]*)\"|(?<1>\\S+)) 正则

阅读全文>>

0人成功匹配 4326人撸过

采集侠正文提取原理观察

作者:enenba | 发表于:2012-04-07 19:24 | 分类:php采集

这几天看到了采集侠的正文提取,精确度还是挺高的。经我几天的观察它有以下的几个特点:

1、去除所有标签 除了<p> <br> <b> <strong> <img> <h1>~<h6> <i> <em> <span>

2、去除标签属性, 如class="xx" 

3、保留图片属性 如<img src="123.jpg" width="12" />

阅读全文>>

0人成功匹配 2225人撸过

将HTML表格的每行每列转为数组,PHP采集表格数据

作者:enenba | 发表于:2012-03-15 13:29 | 分类:php采集

PHP试过采集表格这种可恶的数据格式吗?才浏览器下面看很好看的很整齐的样子,在源码下一团糟,采集也麻烦。

于是还是找了个,PHP采集表格数据,返回数组。

阅读全文>>

0人成功匹配 3698人撸过
1 2 3