使用php正则获取网页的img部分

作者:enenba | 发表于:2012-01-13 16:02 | 分类:php采集

使用此正则可以采集网页中的img标签中的src部分。此PHP正则表达式算是我找到比较完美的正则匹配了。

它可以很好的避免样式的影响,如<img class="b12" src…………/>也能采到src部分。

阅读全文>>

0人成功匹配 4335人撸过

php正则得到网页的keywords和description部分

作者:enenba | 发表于:2012-01-13 00:07 | 分类:php采集

     正则匹配网页的keywords部分,主要的方法也是获取页面的源代码,然后再从中使用正则匹配出来。但是PHP就有一个自带的函数get_meta_tags()。这个函数可以逐行解析文件中的 <meta> 标签解析工作将在 </head> 处停止。

可以想到,他的效率应该比采集源码再分析的快。

阅读全文>>

8人成功匹配 4548人撸过

使用php正则获取网页的titile部分

作者:enenba | 发表于:2012-01-12 22:49 | 分类:php采集

很多的采集程序都用到采集网页的title部分,主要的方法也是获取页面的源代码,然后再从中使用正则匹配出来。

以下使用PHP正则采集页面的title部分

阅读全文>>

0人成功匹配 4112人撸过

get_headers对PHP采集的作用

作者:enenba | 发表于:2012-01-09 17:09 | 分类:php采集

php中的get_headers()  函数可以响应消息头部信息,可以用于采集时对页面状态的判断。

阅读全文>>

0人成功匹配 2438人撸过

蚁群算法的基本原理

作者:enenba | 发表于:2012-01-03 11:06 | 分类:php采集

以下是蚁群算法的研究,当年是曾是我们毕业设计时导师的待选课题,当初我是没有选了,现在却回来看了这个东西,先不说它怎么难,以个文字还是通俗易懂的,可以用于数据采集,更适合的是泛采集、采集终点的解决。(也只是理论上想法,可行性请看下文再后研究)

 

阅读全文>>

0人成功匹配 1691人撸过

PHP匹配图片的路径部分

作者:enenba | 发表于:2011-12-14 18:43 | 分类:php采集

抓取网页图片的url 部分,也就是<img>标签中的src部分
如:<img src="test.jpg" /> 或<img src="test.jpg" …………………… > 或<img src=test.jpg ………… >
要排除 class ID alt 等样式和标签
抓到 test.jpg

阅读全文>>

1人成功匹配 2468人撸过
1 2 3