想写个泛采集的emlog插件

作者:enenba | 发表于:2012-11-07 21:50 | 分类:php采集

这几天看了织梦采集侠,其采集主要的有个采集类,输出源件中的 base64 加密部分就看到那个CaiJiXia类了。

织梦采集侠源码中有很多方法,没有注释的,而且方法名都是两个字母的大写,比较难看懂。

既然有织梦采集侠,读懂其原理,写个emlog插件来试试。

阅读全文>>

9人成功匹配 2801人撸过

解析百度搜索结果link?url=(四)

作者:enenba | 发表于:2012-10-30 17:47 | 分类:php采集

百度又更新了。以下内容又失效了

首先感谢 恒通 提供的破解结果和思路。以下是根据结果写出一个解密的php版本。目前只解析了80位。剩下位数可以采集足量的url补全。

不多说了上源码:

<html>
<head>
<meta http-equiv="content-type" content="text/html;charset=utf-8">
<title>查询百度lin...

阅读全文>>

38人成功匹配 10594人撸过

解析百度搜索结果link?url=(三)

作者:enenba | 发表于:2012-10-30 00:42 | 分类:php采集

由于百度又再次改变url加密算法,以前都没用了,现在百度这次的加密短了很多,不像原来那么长了,再次来一次分析。

 

首先搜索 “PHP”

来几个结果 :

 点击查看原图

点击查看原图

这几个链接还是有几个部分一样

公用部分:
______30fc293c5e471ef23de092fddc99。。。。

 

fdd688681db1fb62cb8c9daa = www.php.net/
24字符 ...

阅读全文>>

3人成功匹配 3441人撸过

simple_html_dom.php类使用之二:获取<a>标题和链接

作者:enenba | 发表于:2012-10-29 16:57 | 分类:php采集

使用simple_html_dom使获取的标签的难度降低了。本来要获取<a>链接的要写比较复杂的正则,现在就是写一小句代码就可以解决。

上一个例子,比如我要获取百度搜索结果的标题和链接例子:

效果如图:

点击查看原图

 

l输出相应的连接数组:

 

上代码解释:

<?php
//百度搜索结果
$word = 'php'; //搜索关键词
include 'simple_htm...

阅读全文>>

3人成功匹配 2750人撸过

解析百度搜索结果link?url=(二)

作者:enenba | 发表于:2012-09-19 22:05 | 分类:php采集

百度已经更新了URL加密算法,以下内容已不可用。

接上一篇文章,仔细看了下百度结果url的长段代码,发现密文中只有数字和a到f字母组成,也就是十六进制的代码。
十六进制是从 0->1->2->3->4->5->7->8->9->a->b->c->d->e->f

我采集一系列的url并统计了第一位的代码。
ebac5573358cc3c0659257bfcf54XX...

阅读全文>>

14人成功匹配 6688人撸过

解析百度搜索结果link?url=(一)

作者:enenba | 发表于:2012-09-18 00:05 | 分类:php采集

百度已经更新了URL加密算法,以下内容已不可用。 

     自从9月后 百度和360开战的结果就是 百度搜索结果的网址改变了,变成link?url=………这样的重定向格式了。看到这样的不友好的URL真有破解的冲动。于是今天开始试试破解它。

      前几天写过一篇可以获取到百度跳转之后的网址的文章,在百度了一下,有人也研究过百度link?url=的。

大概得出如下结果:
1、加密方式根据:随机+输入停留时间+快照地址进行加密
2、整个代码中应该有三个部分:1、搜索词的时间;2、搜索的关键词;3、随机生成的唯一性标识代码。
3、在任何环境或浏览器下 url=最后有一段相似的代码

从以上别人研究的结果可以知道,“最后有一段相似的代码”是比较可用的,于是先从此入手。

阅读全文>>

16人成功匹配 20011人撸过
1 2 3 4 5 6 7 8 ... »