关于零宽断言的解释

作者:enenba | 发表于:2012-01-06 23:25 | 分类:正则表达式

以下内容是网上收集的对于零宽断言的解释比较有用尤其解释了(?=exp) 和(?<=exp)的作用

 

如果我的一个页面里有如下的内容
xxxxxxx<a href="/233109" title="GossipGirl">GossipGirl</a><cite title=xxxxxxxxx
我需要查出所有在“ title="GossipGirl">GossipGirl</a><cite”里的内容,即“GossipGirl”,但是内容除了 </a><cite 是可有的外,其它的都是可变的,那么可以用零宽断言方式实现
代码:

 

echo '<pre>';
$s = file_get_contents ( './sw.txt' );
preg_match_all ( '/[^>]+(?=<\/a><cite)/', $s, $m );
var_dump ( $m );
exit ();


另注:关于零宽断言的解释
接下来的四个用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像\b,^,$那样用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言。最好还是拿例子来说明吧:
(?=exp)也叫零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp。比如\b\w+(?=ing\b),匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找I'm singing while you're dancing.时,它会匹配sing和danc。
(?<=exp)也叫零宽度正回顾后发断言,它断言自身出现的位置的前面能匹配表达式exp。比如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分),例如在查找reading a book时,它匹配ading。
假如你想要给一个很长的数字中每三位间加一个逗号(当然是从右边加起了),你可以这样查找需要在前面和里面添加逗号的部分:((?<=\d)\d{3})+\b,用它对1234567890进行查找时结果是234567890。
下面这个例子同时使用了这两种断言:(?<=\s)\d+(?=\s)匹配以空白符间隔的数字(再次强调,不包括这些空白符)。

上一篇: 正反向预搜索(前后查看)初解   |   下一篇:PHP判断字符串由数字和大小写字母组成、长度至少6位» 标签: 正则表达式 PHP正则

评论: