将HTML表格的每行每列转为数组,PHP采集表格数据

作者:enenba | 发表于:2012-03-15 13:29 | 分类:php采集

PHP试过采集表格这种可恶的数据格式吗?才浏览器下面看很好看的很整齐的样子,在源码下一团糟,采集也麻烦。

于是还是找了个,PHP采集表格数据,返回数组。

阅读全文>>

0人成功匹配 3718人撸过

php获取指定标记中的内容

作者:enenba | 发表于:2012-03-14 17:12 | 分类:php采集
 php获取指定标记中的内容,网上看到的代码,我又撸过,发现还行,分享下并加上例子。这样可以做采集器了,一般都说采集标签头和标签尾内容,简单就好。

阅读全文>>

2人成功匹配 2685人撸过

根据URL状态获取302、301重定向后的URL网址

作者:enenba | 发表于:2012-03-04 00:11 | 分类:php源码

很多的网站都使用了URL重定向,这就导致了采集到URL时HTML状态位为302、301的错误。为了避免这个错误,需要判断html头(header) 的信息,当html状态是301或302时,url就不是原来的那个。使用以下的函数可以根据你查询的UR得到真实的URL。

再从真实的URL进行采集。

阅读全文>>

0人成功匹配 3667人撸过

PHP采集链接,相对链接转为绝对链接

作者:enenba | 发表于:2012-02-28 22:08 | 分类:php采集

这个采集链接是从Snoopy中提取出来的,也是一个很好的函数,可以根据URL是相对链接还是绝对链接采集到链接,如果是相对链接会根据相对链接和主域名,返回绝对链接,也支持不同端口

阅读全文>>

8人成功匹配 3117人撸过

获取<a>链接标签。从Snoopy类中提取函数

作者:enenba | 发表于:2012-02-26 23:59 | 分类:php采集

这次分析过了Snoopy类,他里面有比较完善的匹配源码,我看到有function fetchlinks($URI)。也就是获取<a>中链接的函数,可以很简单的提取出,此外我还发现,他的正则还支持高级语言中的三目运算,

阅读全文>>

1人成功匹配 3710人撸过

使用DOM Document对象匹配所有的<a>标签

作者:enenba | 发表于:2012-02-21 16:41 | 分类:php源码

以下是一个小函数,它可以获取html中的所有的链接,希望对大家有用。内容是转自PHP的官网,想看详细内容去php.net。查询DOMDocument

阅读全文>>

0人成功匹配 3000人撸过
1 2 3 4 5 6 7 8 9