使用php正则获取网页的titile部分

作者:enenba | 发表于:2012-01-12 22:49 | 分类:php采集

      很多的采集程序都用到采集网页的title部分,主要的方法也是获取页面的源代码,然后再从中使用正则匹配出来。

以下使用PHP正则采集页面的title部分

      很简单,先获取网站的源码。我不管效率,为了演示简单我用file_get_contents()获取html内容

以下为源码1:

<?php
    $html = file_get_contents('http://www.qq.com');
    $search = "/<title>(.*?)<\/title>/si";
    preg_match($search, $html, $rr);
    echo $rr[1];
?> 

输出“腾讯首页"

 

使用/s是为了让换行符也能正常采到title部分

 

附件下载/演示源码:
2.htm4.55KB

上一篇: php正则得到网页的keywords和description部分   |   下一篇:RegexBuddy是个非常好的正则工具» 标签: php采集 数据采集 PHP正则 采集规则

评论: