使用simple_html_dom类获取百度的相关搜索

作者:enenba | 发表于:2012-11-10 00:06 | 分类:php采集

百度搜索热门的词会在底部有相关搜索的10个关键词,现使用simple_html_dom获取其关键词,

如:百度搜索“php” 会有以下的几个相关的词。

百度相关搜索关键词

上个php源码:

<?php
//百度相关搜索 关键词
$word = 'php'; //搜索关键词
include 'simple_html_dom.php';
$baidu = 'http://www.baidu.com';
$url = 'http://www.ba...

阅读全文>>

8人成功匹配 3468人撸过

想写个泛采集的emlog插件

作者:enenba | 发表于:2012-11-07 21:50 | 分类:php采集

这几天看了织梦采集侠,其采集主要的有个采集类,输出源件中的 base64 加密部分就看到那个CaiJiXia类了。

织梦采集侠源码中有很多方法,没有注释的,而且方法名都是两个字母的大写,比较难看懂。

既然有织梦采集侠,读懂其原理,写个emlog插件来试试。

阅读全文>>

9人成功匹配 2830人撸过

解析百度搜索结果link?url=(四)

作者:enenba | 发表于:2012-10-30 17:47 | 分类:php采集

百度又更新了。以下内容又失效了

首先感谢 恒通 提供的破解结果和思路。以下是根据结果写出一个解密的php版本。目前只解析了80位。剩下位数可以采集足量的url补全。

不多说了上源码:

<html>
<head>
<meta http-equiv="content-type" content="text/html;charset=utf-8">
<title>查询百度lin...

阅读全文>>

38人成功匹配 10909人撸过

解析百度搜索结果link?url=(三)

作者:enenba | 发表于:2012-10-30 00:42 | 分类:php采集

由于百度又再次改变url加密算法,以前都没用了,现在百度这次的加密短了很多,不像原来那么长了,再次来一次分析。

 

首先搜索 “PHP”

来几个结果 :

 点击查看原图

点击查看原图

这几个链接还是有几个部分一样

公用部分:
______30fc293c5e471ef23de092fddc99。。。。

 

fdd688681db1fb62cb8c9daa = www.php.net/
24字符 ...

阅读全文>>

3人成功匹配 3536人撸过

simple_html_dom.php类使用之二:获取<a>标题和链接

作者:enenba | 发表于:2012-10-29 16:57 | 分类:php采集

使用simple_html_dom使获取的标签的难度降低了。本来要获取<a>链接的要写比较复杂的正则,现在就是写一小句代码就可以解决。

上一个例子,比如我要获取百度搜索结果的标题和链接例子:

效果如图:

点击查看原图

 

l输出相应的连接数组:

 

上代码解释:

<?php
//百度搜索结果
$word = 'php'; //搜索关键词
include 'simple_htm...

阅读全文>>

3人成功匹配 2849人撸过

simple_html_dom.php类使用之一:获取<title>标题内容

作者:enenba | 发表于:2012-10-22 14:12 | 分类:php源码

php simple html dom  最新版本 1.5 。感觉很容易上手,和phpquery的使用差不多,支持Jquery的选择器的语法,官方也在更新文档也清晰,个人认为应该是一个很好的采集工具。

 

//演示代码1:

<?php
//演示代码1:
include 'simple_html_dom.php';
$html = file_get_html('htt...

阅读全文>>

0人成功匹配 3957人撸过
«... 6 7 8 9 10 11 12 13 14 15 16 ... »