这两天在用PHP写个采集程序,采集程序采集链接是最开始也是最基础的部分。在链接这个正则上还真是花的时间长。主要是花在一些网站的代码不规范,但是这些不规范的代码偏偏浏览器又能同样解析,好了,不啰嗦了,直接说主题。
浏览器能解析成功的链接代码有:
- <a href= http://www.huoyue.org target=_blank >一</a>...
这两天在用PHP写个采集程序,采集程序采集链接是最开始也是最基础的部分。在链接这个正则上还真是花的时间长。主要是花在一些网站的代码不规范,但是这些不规范的代码偏偏浏览器又能同样解析,好了,不啰嗦了,直接说主题。
浏览器能解析成功的链接代码有:
今天接到的功课是从一个网站获取商品库存,但是这个网站需要登录,我用fsockopen传递了整个header头都没用,只能求助于curl了。
附带说一下curl模块的开启办法:
(1)从php目录下拷贝:libeay32.dll,ssleay32.dll 到windows目录下。
(2)打开php.ini,查找“extension_dir = xxxxx”,确认后面的文件目录内有p...
CURL参数详解:
bool curl_setopt (int ch, string option, mixed value)
curl_setopt()函数将为一个CURL会话设置选项。option参数是你想要的设置,value是这个选项给定的值。
下列选项的值将被作为长整形使用(在option参数中指定):
*CURLOPT_INFILESIZE: 当你上传一个文件到远程站点,这个选项告诉PHP你上...
在采集的时候经常会遇到被封IP,禁止采集。
这时候可以利用伪造搜索引擎蜘蛛UserAgent来突破限制实现采集。
一般情况下,枫子都是用Curl,并且已经习惯使用Curl了,还有一个专门用来采集的Curl函数,目前除了不能采集Google,其它的网站还没有发现不能采集的,不封是前提!
后来发现curl也有curl的缺点,于是开始研究php的采集类,著名的snoopy类。
下面是使用snoopy来突破限制的...
本来想12点之前发的。。但小看一下都3点半了。。。 就算昨天的吧 本来获取文章内容时用正则是最好的,速度也是最快的, 奈何正则是好,但正则表达式是真难!于是乎小查了一下, 网上也有很多人也在用PHP Simple Dom 虽然效率慢了点,但效果还是不错的 从包含类库文件到写入txt文件 大概是7/8就秒 还有带于进一步优化,特别是那获取文章内容时的正则,那个太恶心了 大家可以小研究一下
<?p...