php采集网站的title部分

作者:enenba | 发表于:2012-02-15 00:05 | 分类:php采集

采集网站数据最多的就是采集title部分,因为<title>标签内容是一个网页的主题的标志,以下是采集<title>部分的PHP正则,可以针对不同的网站结构进行分析。

1. 最初版本

<title>(.*?)<\/title>

 这个是最简单的, 也是最容易想得到的PHP正则匹配title部分,它可以使用非贪婪匹配<title>……</title>中的内容,当内容为多行时怎么匹配呢

如下:

<title>

这才是题目

</title>

就要使用

2.改进版本

 /<title>(.*?)<\/title>/si

 加上/sii 可以兼容多行的html匹配

 

3.效率高点的版本

 /<title>([^>]*)<\/title>/si

 这一个正则减少回朔提高了效率。

 

 

end

 

附件下载/演示源码:
get_title.htm4.54KB

上一篇: html中默认元素类型和默认显示属性   |   下一篇:php中include、require包含的关系。» 标签: 正则匹配 php采集 数据采集 PHP正则 title

评论: