织梦采集侠获取文章标题原理,附上php源码

作者:enenba | 发表于:2012-08-02 17:28 | 分类:php采集
我这几天看了下织梦采集侠的源码,发现有很多成熟的技术,比如这个采集网站文章的题目,源码一会再上,先做简单解释:
首先,很多人会一直会认为这不是很简单,就是<title>标签中的内容嘛,不是很容易获取吗?其实不然,很多的title部分不一定放文章的题目,很多的网站还加入了关键字,而且一定加入网站名。

阅读全文>>

2人成功匹配 4800人撸过

php获取某网站的百度快照日期

作者:enenba | 发表于:2012-06-18 22:00 | 分类:php采集

php获取某网站的百度快照日期,这是百度快照是使用“site:域名的快照”呢,还是直接搜“域名的快照”。我查了站长工具和爱站,是直接搜域名的结果。

点击查看原图

阅读全文>>

0人成功匹配 3168人撸过

查询qq状态php函数

作者:enenba | 发表于:2012-06-15 11:15 | 分类:php源码

上一个查询QQ状态的php函数,这个php源码可以根据输入的qq号,查询QQ的在线状态平台输出图片。如下图:(我不会告诉你图片中的QQ是我的)

点击查看原图

阅读全文>>

2人成功匹配 3108人撸过

phpQuery—基于jQuery的PHP实现

作者:enenba | 发表于:2012-05-25 13:59 | 分类:php源码

phpQuery—基于jQuery的PHP实现

Query的选择器之强大是有目共睹的,phpQuery 让php也拥有了这样的能力,它就相当于服务端的jQuery。

先来看看官方简介: 

phpQuery is a server-side, chainable, CSS3 selector driven Document Object Model (DOM) API based on jQuery JavaScript Library.
Library is written in PHP5 and provides additional Command Line Interface (CLI). 

阅读全文>>

2人成功匹配 2251人撸过

php使用strip_tags的完整去除所有html标签

作者:enenba | 发表于:2012-05-12 00:17 | 分类:php采集

     PHP中的strip_tags函数是PHP自带的函数,在采集中可以效率地处理采集到的数据,当然使用正则也可以达到一样的效果,在使用strip_tags后发现其过滤有遗漏。如:<style>中的样式内容<script>JS 中的代码。一般在PHP采集时。JS和CSS不

阅读全文>>

0人成功匹配 3788人撸过

PHP修正相对路径链接

作者:enenba | 发表于:2012-05-06 13:42 | 分类:php源码

一般上来说,a标签的链接有两种形式:1、绝对路径;2、相对路径。采集数据时都会碰到如此的两种链接形式。

对于绝对路径的链接就很简单。相对路径需要修正才能得到完整URL,以下是一个修正相对路径的php函数。

阅读全文>>

0人成功匹配 2111人撸过
1 2 3 4 5 6 7