PHP采集类Snoopy伪造来源,IP

作者:enenba | 发表于:2013-06-07 10:48 | 分类:php采集

在采集的时候经常会遇到被封IP,禁止采集。

这时候可以利用伪造搜索引擎蜘蛛UserAgent来突破限制实现采集。

一般情况下,枫子都是用Curl,并且已经习惯使用Curl了,还有一个专门用来采集的Curl函数,目前除了不能采集Google,其它的网站还没有发现不能采集的,不封是前提!

后来发现curl也有curl的缺点,于是开始研究php的采集类,著名的snoopy类。

下面是使用snoopy来突破限制的常用方法

1.使用Snoopy或curl传搜索引擎爬虫的USERAGENT值。
查看搜索引擎爬虫的USERAGENT值:http://www.imfeng.com/spdier-useragent/

2.使用Snoopy或curl传referer值。
如:$snoopy->referer = ‘http://www.imfeng.com/‘;
$header[] = “Referer: http://www.imfeng.com/“;

3.使用Snoopy或curl代理。
如:$snoopy->proxy_host = “99.99.99.99″;
$snoopy->proxy_port = “3128″;

4.使用Snoopy或curl防造IP。
如:$snoopy->rawheaders['X_FORWARDED_FOR'] = ’127.0.0.1′;

 

本文转自:http://www.imfeng.com/php-collection-class-snoopy-ip/

上一篇: 标题重复判断 emlog插件 低调发布   |   下一篇:PHP实现多线程抓取网页» 标签: php采集 伪造来源

评论:

2013-06-08 21:13

http://199508.com/post/122抢主机求评论数万分感谢。