php程序检测页面是否被百度收录

作者:enenba | 发表于:2013-06-17 16:37 | 分类:php采集

 最近要对网站做个整理,需要检测网站内哪些页面没有被百度搜索引擎收录从而进行相关的调整。由于使用site命令一条条的去看实在是看不过来,就想到了使用php程序来批量处理一下,研究了一下,发现其实很简单,下面就将作者使用php实现的检测页面是否被百度收录的功能分享一下。

下面是具体代码:

<?php
/*
* 检测网页是否被百度收录,返回1则表示收录 返回0表示没有收录
* @ p...

阅读全文>>

5人成功匹配 2815人撸过

文章正文内容相似度查询

作者:enenba | 发表于:2013-06-17 15:24 | 分类:php采集

文章正文内容相似度查询Similar Page Checker,没写成正文提取工具,倒写了个相似度比较的工具,写这个工具是参照了http://www.webconfs.com/similar-page-checker.php这个国外的seo工具。

具体原理不清楚,反正我也写了一个版本,我的这个工具主要对正文进行相似度查询,还不完善,有部分网站不能查询。

工具演示:

演示地址

 

end...

阅读全文>>

2人成功匹配 2042人撸过

标题重复判断 emlog插件 低调发布

作者:enenba | 发表于:2013-06-13 21:14 | 分类:emlog

效果如图:

点击查看原图

 

很久以前折腾的自用插件,作用是在发布文章前判断标题是否重复,当标题重复时,输入框红色加亮显示。

触发条件:标题输入框失去焦点、按下发布、保存按钮时。

 

阅读全文>>

7人成功匹配 2284人撸过

PHP采集类Snoopy伪造来源,IP

作者:enenba | 发表于:2013-06-07 10:48 | 分类:php采集

在采集的时候经常会遇到被封IP,禁止采集。

这时候可以利用伪造搜索引擎蜘蛛UserAgent来突破限制实现采集。

一般情况下,枫子都是用Curl,并且已经习惯使用Curl了,还有一个专门用来采集的Curl函数,目前除了不能采集Google,其它的网站还没有发现不能采集的,不封是前提!

后来发现curl也有curl的缺点,于是开始研究php的采集类,著名的snoopy类。

下面是使用snoopy来突破限制的...

阅读全文>>

2人成功匹配 2825人撸过

PHP实现多线程抓取网页

作者:enenba | 发表于:2013-05-29 17:45 | 分类:php源码

PHP 利用 Curl Functions 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需 要借助Curl Multi Functions 它可以实现并发多线程的访问多个url地址。既然 Curl Multi Function如此强大,能否用 Curl Multi Functions 来写并发多线程下...

阅读全文>>

3人成功匹配 2055人撸过

【转】PHP simple_html_dom.php+正则 采集文章代码

作者:enenba | 发表于:2013-04-25 14:02 | 分类:php源码

本来想12点之前发的。。但小看一下都3点半了。。。 就算昨天的吧 本来获取文章内容时用正则是最好的,速度也是最快的, 奈何正则是好,但正则表达式是真难!于是乎小查了一下, 网上也有很多人也在用PHP Simple Dom 虽然效率慢了点,但效果还是不错的 从包含类库文件到写入txt文件 大概是7/8就秒 还有带于进一步优化,特别是那获取文章内容时的正则,那个太恶心了 大家可以小研究一下

<?p...

阅读全文>>

0人成功匹配 2513人撸过
«... 2 3 4 5 6 7 8 9 10 11 12 ... »