PHP采集链接,相对链接转为绝对链接

作者:enenba | 发表于:2012-02-28 22:08 | 分类:php采集

这个采集链接是从Snoopy中提取出来的,也是一个很好的函数,可以根据URL是相对链接还是绝对链接采集到链接,如果是相对链接会根据相对链接和主域名,返回绝对链接,也支持不同端口

阅读全文>>

8人成功匹配 3083人撸过

使用DOM Document对象匹配所有的<a>标签

作者:enenba | 发表于:2012-02-21 16:41 | 分类:php源码

以下是一个小函数,它可以获取html中的所有的链接,希望对大家有用。内容是转自PHP的官网,想看详细内容去php.net。查询DOMDocument

阅读全文>>

0人成功匹配 2967人撸过

采集论坛的小程序(已过期)

作者:enenba | 发表于:2012-02-19 22:19 | 分类:php采集

写了个采集论坛的小程序。里面包括了模拟登陆,获取页面源代码,正则匹配结果等部分,希望对大家有用。

这个是09年的东西了,例子中的论坛已经不存在,是不是discuz我也不知道。不过还是可以学到一些东西。

阅读全文>>

0人成功匹配 1820人撸过

php采集网站的title部分

作者:enenba | 发表于:2012-02-15 00:05 | 分类:php采集
采集网站数据最多的就是采集title部分,因为<title>标签内容是一个网页的主题的标志,以下是采集<title>部分的PHP正则,可以针对不同的网站结构进行分析。

阅读全文>>

0人成功匹配 5766人撸过

php正则,匹配.php和.html和.asp结尾的文件

作者:enenba | 发表于:2012-01-19 23:59 | 分类:php采集
问:
我的写法不行,正确的要怎样?
"/.*?[\.php|\.htm|\.html|\.asp]/"
 

阅读全文>>

0人成功匹配 1611人撸过

正文提取算法初解——网站内容特征

作者:enenba | 发表于:2012-01-15 01:17 | 分类:php采集

    网站内容都有一定的信息块特征,以下有一些供采集的HTML内容特征。是网上记下来的,觉得有用就转来了。不记得是在哪里转的了。

阅读全文>>

0人成功匹配 1798人撸过
1 2 3