php计算title标题相似比

作者:enenba | 发表于:2012-12-13 11:37 | 分类:php采集

采集时常常要对网站内容进行重复判断,php判断正文内容比较困难,对于标题的判断还是比较简单,只要过滤标题中的版权,再用similar_text计算
上代码:

<?php 
/*
 * php计算title标题相似比 by enenba.com
 *
 * @param string $title_1 题目1
 * @param string $title_2 题目2
 * @return float $percent 相似百分比
 */
function title_similar($title_1,$title_2) {
	$title_1 = get_real_title($title_1);
	$title_2 = get_real_title($title_2);
	similar_text($title_1, $title_2, $percent);
	return $percent;
}
/**
 * php采集文章题目并去版权
 * @param string  $html  需要采集的html源代码
 * @return string
 */

function get_real_title($str){
	$str = str_replace(array('-','—','|'),'_',$str);
	$splits = explode('_', $str);
	$l = 0;
	foreach ($splits as $tp){
		$len = strlen($tp);
		if ($l < $len){$l = $len;$tt = $tp;}
	}
	$tt = trim(htmlspecialchars($tt));
	return $tt;
}


//以下是测试
$title_1 = '代号PHPCMS V9产品正式发布公测版本 - 站长之家';
$title_2 = 'PHPCMS再战江湖 V9产品正式发布公测版本 - 站长网 admin5.com';
$percent = title_similar($title_1,$title_2);
echo '相似百分比:'.$percent.'%';
echo "<br />\n";

?> 

 

输出:相似百分比:81.25%

end

上一篇: JS鼠标点击文字变文本框   |   下一篇:php模板引擎常见的变量解析语法» 标签: title php判断 标题 标题相似比

评论:

2013-01-05 12:48

相视效果就是这样的感觉

2013-01-05 12:14

这个计算方式很特别哦

2012-12-15 15:15

判断文章是否原创,貌似也可以用这种方法咯

2012-12-17 08:30

可能吧,没使用过

2012-12-15 11:42

博客不错 最近也在学习php 以后常来

2012-12-14 19:54

这方面了解太少了!看来要加强!

2012-12-13 12:58

确实不错,不过好多空间不许采集。