get_headers对PHP采集的作用

作者:enenba | 发表于:2012-01-09 17:09 | 分类:php采集

php中的get_headers()  函数可以响应消息头部信息,可以用于采集时对页面状态的判断。

阅读全文>>

0人成功匹配 2455人撸过

蚁群算法的基本原理

作者:enenba | 发表于:2012-01-03 11:06 | 分类:php采集

以下是蚁群算法的研究,当年是曾是我们毕业设计时导师的待选课题,当初我是没有选了,现在却回来看了这个东西,先不说它怎么难,以个文字还是通俗易懂的,可以用于数据采集,更适合的是泛采集、采集终点的解决。(也只是理论上想法,可行性请看下文再后研究)

 

阅读全文>>

0人成功匹配 1710人撸过

php采集CSS文件名

作者:enenba | 发表于:2012-01-01 23:33 | 分类:php采集

很多时候要采集网站数据,如果你想要采到一些与样式有关的东西也可以采集一些文件如CSS 文件这样的东东。

以下只是简单地写出如何采集一个页面下的CSS文件名,记住只是CSS文件名。想要更深入采集,比如采集CSS文件内容,还有图片,那就等以后再分析,不多说上简单代码:

阅读全文>>

0人成功匹配 2196人撸过

PHP匹配图片的路径部分

作者:enenba | 发表于:2011-12-14 18:43 | 分类:php采集

抓取网页图片的url 部分,也就是<img>标签中的src部分
如:<img src="test.jpg" /> 或<img src="test.jpg" …………………… > 或<img src=test.jpg ………… >
要排除 class ID alt 等样式和标签
抓到 test.jpg

阅读全文>>

1人成功匹配 2483人撸过

如何用php正则表达式得到网页上所有的链接

作者:enenba | 发表于:2011-12-12 00:31 | 分类:php采集

如何用php正则表达式得到网页上所有的链接,获得一个页面上的所有a标签链接

此正则只可以匹配a标签中的href=“”部分,

阅读全文>>

0人成功匹配 4362人撸过
«... 5 6 7 8 9 10