关于file_get_contents有时不能抓取到数据的问题

作者:enenba | 发表于:2012-01-15 01:14 | 分类:php源码

    在使用file_get_contents抓取网站时,可能会出现file_get_contents(): failed to open stream: HTTP request failed!这个警告信息,这里有两种方法

1.修改php.ini文件,把allow_url_fopen给启用,改成 allow_url_fopen = On,这样做可以解决某些人的问题,有人说在php.ini中,有这样两个选项:allow_url_fopen =on(表示可以通过url打开远程文件),user_agent="PHP"(表示通过哪种脚本访问网络,默认前面有个 " ; " 去掉即可。)重启服务器。但是有些还是会有这个警告信息,想用完美的解决还差一步,还得设置php.ini里面的user_agent,php默认的user_agent是PHP,我们把它改成Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)来模拟浏览器就可以了

user_agent=”Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)”


2.直接用CURL来获取网站内容

上一篇: 正文提取算法初解——网站内容特征   |   下一篇:用正则怎样获得目标字符串中不在超链接中的所需字符串» 标签: php函数 php采集

评论: