在采集的时候经常会遇到被封IP,禁止采集。
这时候可以利用伪造搜索引擎蜘蛛UserAgent来突破限制实现采集。
一般情况下,枫子都是用Curl,并且已经习惯使用Curl了,还有一个专门用来采集的Curl函数,目前除了不能采集Google,其它的网站还没有发现不能采集的,不封是前提!
后来发现curl也有curl的缺点,于是开始研究php的采集类,著名的snoopy类。
下面是使用snoopy来突破限制的常用方法
1.使用Snoopy或curl传搜索引擎爬虫的USERAGENT值。
查看搜索引擎爬虫的USERAGENT值:http://www.imfeng.com/spdier-useragent/
2.使用Snoopy或curl传referer值。
如:$snoopy->referer = ‘http://www.imfeng.com/‘;
$header[] = “Referer: http://www.imfeng.com/“;
3.使用Snoopy或curl代理。
如:$snoopy->proxy_host = “99.99.99.99″;
$snoopy->proxy_port = “3128″;
4.使用Snoopy或curl防造IP。
如:$snoopy->rawheaders['X_FORWARDED_FOR'] = ’127.0.0.1′;
评论:
http://199508.com/post/122抢主机求评论数万分感谢。