很多的采集程序都用到采集网页的title部分,主要的方法也是获取页面的源代码,然后再从中使用正则匹配出来。
以下使用PHP正则采集页面的title部分
很简单,先获取网站的源码。我不管效率,为了演示简单我用file_get_contents()获取html内容
以下为源码1:
<?php $html = file_get_contents('http://www.qq.com'); $search = "/<title>(.*?)<\/title>/si"; preg_match($search, $html, $rr); echo $rr[1]; ?>
输出“腾讯首页"
使用/s是为了让换行符也能正常采到title部分
附件下载/演示源码:
【 2.htm 】 4.55KB
评论: