这两天在用PHP写个采集程序,采集程序采集链接是最开始也是最基础的部分。在链接这个正则上还真是花的时间长。主要是花在一些网站的代码不规范,但是这些不规范的代码偏偏浏览器又能同样解析,好了,不啰嗦了,直接说主题。
浏览器能解析成功的链接代码有:
- <a href= http://www.huoyue.org target=_blank >一</a>...
这两天在用PHP写个采集程序,采集程序采集链接是最开始也是最基础的部分。在链接这个正则上还真是花的时间长。主要是花在一些网站的代码不规范,但是这些不规范的代码偏偏浏览器又能同样解析,好了,不啰嗦了,直接说主题。
浏览器能解析成功的链接代码有:
如果纯粹是为了挑战自己的正则水平,用来实现一些特效(例如使用正则表达式计算质数、解线性方程),效率不是问题;如果所写的正则表达式只是为了满足一两次、几十次的运行,优化与否区别也不太大。但是,如果所写的正则表达式会百万次、千万次地运行,效率就是很大的问题了。我这里总结了几条提升正则表达式运行效率的经验(工作中学到的,看书学来的,自己的体会),贴在这里。如果您有其它的经验而这里没有提及,欢迎赐教。
为行...
网上找到的贪婪与非贪婪模式详解,看了这一段基本明白贪婪与非贪婪模式的构成条件:
1. 概述
贪婪与非贪婪模式影响的是被量词修饰的子表达式的匹配行为,贪婪模式在整个表达式匹配成功的前提下,尽可能多的匹配,而非贪婪模式在整个表达式匹配成功的前提下,尽可能少的匹配。非贪婪模式只被部分NFA引擎所支持。
给你个我写的,并在项目中使用了很长时间的正则吧.
/<img.*src\s*=\s*[\"|\']?\s*([^>\"\'\s]*)/i
,我使用kindeditor保存文章,但是需要取出第N个图片的地址作为文章的标志图片,文章代码(内容的html)保存到数据库一个字段,然后图片地址保存到另外一个字段.我就是使用上面的正则解决的.