php采集链接优秀正则

作者:enenba | 发表于:2015-09-17 22:30 | 分类:php采集

这两天在用PHP写个采集程序,采集程序采集链接是最开始也是最基础的部分。在链接这个正则上还真是花的时间长。主要是花在一些网站的代码不规范,但是这些不规范的代码偏偏浏览器又能同样解析,好了,不啰嗦了,直接说主题。

浏览器能解析成功的链接代码有:

  1.  <a href= http://www.huoyue.org  target=_blank >一</a>...

阅读全文>>

0人成功匹配 2239人撸过

curl模块模拟登录后采集页面【详解】

作者:enenba | 发表于:2013-10-10 12:01 | 分类:php采集

今天接到的功课是从一个网站获取商品库存,但是这个网站需要登录,我用fsockopen传递了整个header头都没用,只能求助于curl了。
  附带说一下curl模块的开启办法:
  (1)从php目录下拷贝:libeay32.dll,ssleay32.dll 到windows目录下。
  (2)打开php.ini,查找“extension_dir = xxxxx”,确认后面的文件目录内有p...

阅读全文>>

6人成功匹配 1968人撸过

【转】php CURL模拟访问网页

作者:enenba | 发表于:2013-10-10 11:56 | 分类:php采集

CURL参数详解:

bool curl_setopt (int ch, string option, mixed value)

curl_setopt()函数将为一个CURL会话设置选项。option参数是你想要的设置,value是这个选项给定的值。

下列选项的值将被作为长整形使用(在option参数中指定): 

*CURLOPT_INFILESIZE: 当你上传一个文件到远程站点,这个选项告诉PHP你上...

阅读全文>>

4人成功匹配 1609人撸过

PHP采集类Snoopy伪造来源,IP

作者:enenba | 发表于:2013-06-07 10:48 | 分类:php采集

在采集的时候经常会遇到被封IP,禁止采集。

这时候可以利用伪造搜索引擎蜘蛛UserAgent来突破限制实现采集。

一般情况下,枫子都是用Curl,并且已经习惯使用Curl了,还有一个专门用来采集的Curl函数,目前除了不能采集Google,其它的网站还没有发现不能采集的,不封是前提!

后来发现curl也有curl的缺点,于是开始研究php的采集类,著名的snoopy类。

下面是使用snoopy来突破限制的...

阅读全文>>

2人成功匹配 2796人撸过

【转】PHP simple_html_dom.php+正则 采集文章代码

作者:enenba | 发表于:2013-04-25 14:02 | 分类:php源码

本来想12点之前发的。。但小看一下都3点半了。。。 就算昨天的吧 本来获取文章内容时用正则是最好的,速度也是最快的, 奈何正则是好,但正则表达式是真难!于是乎小查了一下, 网上也有很多人也在用PHP Simple Dom 虽然效率慢了点,但效果还是不错的 从包含类库文件到写入txt文件 大概是7/8就秒 还有带于进一步优化,特别是那获取文章内容时的正则,那个太恶心了 大家可以小研究一下

<?p...

阅读全文>>

0人成功匹配 2497人撸过

从《网页降噪助你提升搜索引擎表现》来做php正文提取算法

作者:enenba | 发表于:2012-11-10 12:06 | 分类:php采集
从这个文章上看“网页降噪”其实就是要取消、消除这些多余、不和谐,从而突出更重要的主体内容的工作。 噪点在原文宏观上看:即页面的内容、模版布局、样式,此类较为常见的有:内容版权声明、公共导航、公共底部声明(公司介绍、招聘、备案信息等)这些大都可以看作是网页中的噪点! 噪点在原文微观上看:即文章内容中的文字、符号,此类较为常见的是一些助词(的、地、得、着、了、之、乎、者、也、矣......)、特殊符号(星星啊、月亮啊、太阳啊)、无效代码等; 以上是从《网页降噪助你提升搜索引擎表现》摘出的精华内容,刚好我想做泛采集,还是很有用的,因为文中的噪点在正文提取来说就是过滤非正文内容。

阅读全文>>

12人成功匹配 4213人撸过
1 2 3 4 5 6 ... »