php正则匹配图片路径

作者:enenba | 发表于:2012-05-12 00:10 | 分类:正则表达式

给你个我写的,并在项目中使用了很长时间的正则吧.

/<img.*src\s*=\s*[\"|\']?\s*([^>\"\'\s]*)/i

,我使用kindeditor保存文章,但是需要取出第N个图片的地址作为文章的标志图片,文章代码(内容的html)保存到数据库一个字段,然后图片地址保存到另外一个字段.我就是使用上面的正则解决的.

阅读全文>>

0人成功匹配 2590人撸过

【转】PHP实现简单爬虫

作者:enenba | 发表于:2012-05-06 13:20 | 分类:php采集
这是网上找到的一个php小爬虫程序,PHP实现最简单爬虫原型。上源码就OK了说明:此爬虫会生成一个url.txt文件,里面记录有爬过的URL。是一个非常简单的爬虫。

阅读全文>>

0人成功匹配 2367人撸过

php正文提取原理演示——提取篇

作者:enenba | 发表于:2012-05-02 22:38 | 分类:php采集

看了《基于行块分布函数的网页正文抽取算法》是觉得是个好东西, 可以利用。先简单介绍

基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关

简述:

对于Web信息检索来说,网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来,并做到在大规模网页范围内通用,这是一个直接关系上层应用的难题。

作者提出了《基于行块分布函数的通用网页正文抽取算法》,首次将网页正文抽取问题转化为求页面的行块分布函数,这种方法不用建立Dom树,不被病态HTML所累(事实上与HTML标签完全无关)。通过在线性时间内建立的行块分布函数图,直接准确定位网页正文。同时采用了统计与规则相结合的方法来处理通用性问题。作者相信简单的事情总应该用最简单的办法来解决这一亘古不变的道理。整个算法实现不足百行代码。但量不在多,在法。

项目网址:http://code.google.com/p/cx-extractor/

 以上是介绍了,具体可以去下那个pdf和源码下来看,我就不陈述,接下来上我的修改代码

直接上演示: 猛击这里去测试吧

阅读全文>>

2人成功匹配 5250人撸过

php正文提取原理演示——过滤篇

作者:enenba | 发表于:2012-05-02 21:07 | 分类:php采集

以下是php正文提取原理的简单演示,看了分析了下采集侠的结果。我得出其过滤规则,以下先写出采集的部分代码,当然来点演示。

演示请看《php正文提取原理演示——提取篇

上PHP代码:

阅读全文>>

0人成功匹配 3773人撸过

采集侠正文提取原理观察

作者:enenba | 发表于:2012-04-07 19:24 | 分类:php采集

这几天看到了采集侠的正文提取,精确度还是挺高的。经我几天的观察它有以下的几个特点:

1、去除所有标签 除了<p> <br> <b> <strong> <img> <h1>~<h6> <i> <em> <span>

2、去除标签属性, 如class="xx" 

3、保留图片属性 如<img src="123.jpg" width="12" />

阅读全文>>

0人成功匹配 2240人撸过

正则表达式定义

作者:enenba | 发表于:2012-03-27 20:47 | 分类:正则表达式

   正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。

   列目录时, dir *.txt或ls *.txt中的*.txt就不是一个正则表达式,因为这里*与正则式的*的含义是不同的。

   正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为元字符)组成的文字模

阅读全文>>

0人成功匹配 1514人撸过
1 2 3 4 5 6 7 8 9