百度搜索结果链接很长啊!!!

作者:enenba | 发表于:2012-09-03 12:06 | 分类:php采集

好像从9-1开始,百度搜索结果网址的链接又开始变成这样了,"link?url=.......",是老长老长的。自己官方SEO手册说要简短URL,什么不超过128个字符。都是浮云,看这下面一个搜索结果
我的“enenba”的搜索结果(2012-9-3)第一个网址就是

'http://www.baidu.com/link?url=ab848a4ebf3b154d5a26b46af889a39ac...

阅读全文>>

15人成功匹配 13127人撸过

织梦采集侠获取文章标题原理,附上php源码

作者:enenba | 发表于:2012-08-02 17:28 | 分类:php采集
我这几天看了下织梦采集侠的源码,发现有很多成熟的技术,比如这个采集网站文章的题目,源码一会再上,先做简单解释:
首先,很多人会一直会认为这不是很简单,就是<title>标签中的内容嘛,不是很容易获取吗?其实不然,很多的title部分不一定放文章的题目,很多的网站还加入了关键字,而且一定加入网站名。

阅读全文>>

2人成功匹配 4773人撸过

php采集百度MP3 TOP500歌曲

作者:enenba | 发表于:2012-07-14 00:36 | 分类:php采集

   最近又写了php获取百度top500的歌曲名,因为百度歌曲的排行是实时更新的,写出了匹配规则后基本没什么大问题。就是下载需要时间比较长,百度top500的页面数据还是挺大的。

结果图:

点击查看原图

上源码:

 

<?php
$start_time = microtime(true);
$url = 'http://list.mp3.baidu.com/top/top50...

阅读全文>>

8人成功匹配 3147人撸过

PHP获取页面的JS和CSS的总数和文件

作者:enenba | 发表于:2012-07-09 00:58 | 分类:php采集

    我又写了个采集php函数,可以获取JS和CSS的总数,有些的站长工具可能也有这个功能,比如百度的网站速度测试。我写这个小东西也注意到了一些细节问题,比如网站做了301、302重定向的问题,还有相对绝对路径,可能还会其它的问题,不过已经完成了一个雏形。上源码:

 

<?php
/**
 * 获取页面所有的js 和 css 总数 和文件
 * 
...

阅读全文>>

4人成功匹配 2927人撸过

[PHP类] 分享一个强大的HTTP访问类(可做采集)

作者:enenba | 发表于:2012-07-05 23:40 | 分类:php采集

做采集的时候,可以使用file_get_contents()去获取网页源代码,但是使用file_get_contents采集,速度慢,而且超时时间,不好控制。如果采集的页面不存在,需要等待的时间很长。一般来说,curl的速度最快,其次是socket,最后是file_get_contents。
现在跟大家分享一个很强大的采集类,会根据你的服务器当前的配置,自动选择最快的方式。已经封装了curl和s...

阅读全文>>

2人成功匹配 7688人撸过

我猜猜你的em博客使用的是什么模板

作者:enenba | 发表于:2012-07-01 00:37 | 分类:php采集

此乃无聊之作,我是用php正则获取em模板路径,并读出其em模板的名称(英文),程序不是em的话那就判断不出来了,我并没有做em程序判断。反正无聊了,上源码。

点击查看原图

<?php
/**
 * 猜猜你的em博客使用的是什么模板 by enenba 2012-7-12
 * 
 * @param str $url 查询url
 * @return str 模板名称, 不是em 返回false
 ...

阅读全文>>

6人成功匹配 4331人撸过
1 2 3 4 5 6 7 8 9 ... »