php正则得到网页的keywords和description部分

作者:enenba | 发表于:2012-01-13 00:07 | 分类:php采集

     正则匹配网页的keywords部分,主要的方法也是获取页面的源代码,然后再从中使用正则匹配出来。但是PHP就有一个自带的函数get_meta_tags()。这个函数可以逐行解析文件中的 <meta> 标签解析工作将在 </head> 处停止。

可以想到,他的效率应该比采集源码再分析的快。

阅读全文>>

8人成功匹配 4923人撸过

使用php正则获取网页的titile部分

作者:enenba | 发表于:2012-01-12 22:49 | 分类:php采集

很多的采集程序都用到采集网页的title部分,主要的方法也是获取页面的源代码,然后再从中使用正则匹配出来。

以下使用PHP正则采集页面的title部分

阅读全文>>

0人成功匹配 4431人撸过

RegexBuddy是个非常好的正则工具

作者:enenba | 发表于:2012-01-11 11:45 | 分类:正则表达式

RegexBuddy是个好工具,enenba决定使用RegexBuddy来演示正则代码

 

阅读全文>>

0人成功匹配 1543人撸过

求正则表达式。匹配小数可有可无,最多两位小数,必须大于零

作者:enenba | 发表于:2012-01-10 23:44 | 分类:正则表达式

问:求一个正则表达式。要求:小数可有可无,最多两位小数,必须大于零,急,在线等
答:^(?!0+(?:\.0+)?$)(?:[1-9]\d*|0)(?:\.\d{1,2})?$
 
采用否定式向前查看后
(?!……)  是否定式向前看
(?:……)  后向引用内容
 0+(?:\.0+)?就是说当以0开头时后面要接上“.”并且要有一个以上的0接在“...

阅读全文>>

0人成功匹配 4978人撸过

php正则替换回调函数preg_replace_callback()初解

作者:enenba | 发表于:2012-01-10 22:45 | 分类:php源码

php正则中有一个回调函数,本函数的行为几乎和 preg_replace() 一样,除了不是提供一个 replacement 参数,而是指定一个 callback 函数。该函数将以目标字符串中的匹配数组作为输入参数,并返回用于替换的字符串。

也就是说mixed preg_replace_callback ( mixed pattern, callback callback, mixed subje...

阅读全文>>

1人成功匹配 3146人撸过

get_headers对PHP采集的作用

作者:enenba | 发表于:2012-01-09 17:09 | 分类:php采集

php中的get_headers()  函数可以响应消息头部信息,可以用于采集时对页面状态的判断。

阅读全文>>

0人成功匹配 2773人撸过
«... 38 39 40 41 42 43 44 45 46 47 48 ... »