使用php正则获取网页的img部分

作者:enenba | 发表于:2012-01-13 16:02 | 分类:php采集

使用此正则可以采集网页中的img标签中的src部分。此PHP正则表达式算是我找到比较完美的正则匹配了。

它可以很好的避免样式的影响,如<img class="b12" src…………/>也能采到src部分。

不多说了上PHP正则:

<?php
$html = file_get_contents('http://www.qq.com');
$search = '|<img[^>]+src="([^"]*)"[^>]+>|si';
preg_match_all($search, $html, $images);

printf("<p>输出images数据为:</p><pre>%s</pre>\n",var_export( $images ,TRUE));
?>

输出的信息是数组

0=》是<img> 标签的整个语句。

1=》是<img> 标签SRC部分。

 

很用有是吧

你也可以过滤掉非src的属性,看此文:http://enenba.com/?post=164

 

附件下载/演示源码:
get_img.htm5.97KB

上一篇: MAC地址格式的正则匹配   |   下一篇:php正则得到网页的keywords和description部分» 标签: php采集 数据采集 PHP正则 采集规则

评论: