php程序检测页面是否被百度收录

作者:enenba | 发表于:2013-06-17 16:37 | 分类:php采集

 最近要对网站做个整理,需要检测网站内哪些页面没有被百度搜索引擎收录从而进行相关的调整。由于使用site命令一条条的去看实在是看不过来,就想到了使用php程序来批量处理一下,研究了一下,发现其实很简单,下面就将作者使用php实现的检测页面是否被百度收录的功能分享一下。

下面是具体代码:

<?php
/*
* 检测网页是否被百度收录,返回1则表示收录 返回0表示没有收录
* @ p...

阅读全文>>

5人成功匹配 2682人撸过

文章正文内容相似度查询

作者:enenba | 发表于:2013-06-17 15:24 | 分类:php采集

文章正文内容相似度查询Similar Page Checker,没写成正文提取工具,倒写了个相似度比较的工具,写这个工具是参照了http://www.webconfs.com/similar-page-checker.php这个国外的seo工具。

具体原理不清楚,反正我也写了一个版本,我的这个工具主要对正文进行相似度查询,还不完善,有部分网站不能查询。

工具演示:

演示地址

 

end...

阅读全文>>

2人成功匹配 1872人撸过

PHP采集类Snoopy伪造来源,IP

作者:enenba | 发表于:2013-06-07 10:48 | 分类:php采集

在采集的时候经常会遇到被封IP,禁止采集。

这时候可以利用伪造搜索引擎蜘蛛UserAgent来突破限制实现采集。

一般情况下,枫子都是用Curl,并且已经习惯使用Curl了,还有一个专门用来采集的Curl函数,目前除了不能采集Google,其它的网站还没有发现不能采集的,不封是前提!

后来发现curl也有curl的缺点,于是开始研究php的采集类,著名的snoopy类。

下面是使用snoopy来突破限制的...

阅读全文>>

2人成功匹配 2651人撸过

php计算title标题相似比

作者:enenba | 发表于:2012-12-13 11:37 | 分类:php采集

采集时常常要对网站内容进行重复判断,php判断正文内容比较困难,对于标题的判断还是比较简单,只要过滤标题中的版权,再用similar_text计算
上代码:

<?php 
/*
 * php计算title标题相似比 by enenba.com
 *
 * @param string $title_1 题目1
 * @param string $title_2 题目2
 * @re...

阅读全文>>

7人成功匹配 2291人撸过

从《网页降噪助你提升搜索引擎表现》来做php正文提取算法

作者:enenba | 发表于:2012-11-10 12:06 | 分类:php采集
从这个文章上看“网页降噪”其实就是要取消、消除这些多余、不和谐,从而突出更重要的主体内容的工作。 噪点在原文宏观上看:即页面的内容、模版布局、样式,此类较为常见的有:内容版权声明、公共导航、公共底部声明(公司介绍、招聘、备案信息等)这些大都可以看作是网页中的噪点! 噪点在原文微观上看:即文章内容中的文字、符号,此类较为常见的是一些助词(的、地、得、着、了、之、乎、者、也、矣......)、特殊符号(星星啊、月亮啊、太阳啊)、无效代码等; 以上是从《网页降噪助你提升搜索引擎表现》摘出的精华内容,刚好我想做泛采集,还是很有用的,因为文中的噪点在正文提取来说就是过滤非正文内容。

阅读全文>>

12人成功匹配 4092人撸过

使用simple_html_dom类获取百度的相关搜索

作者:enenba | 发表于:2012-11-10 00:06 | 分类:php采集

百度搜索热门的词会在底部有相关搜索的10个关键词,现使用simple_html_dom获取其关键词,

如:百度搜索“php” 会有以下的几个相关的词。

百度相关搜索关键词

上个php源码:

<?php
//百度相关搜索 关键词
$word = 'php'; //搜索关键词
include 'simple_html_dom.php';
$baidu = 'http://www.baidu.com';
$url = 'http://www.ba...

阅读全文>>

8人成功匹配 3371人撸过
1 2 3 4 5 6 7 ... »