注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

技术行者

时代的车轮在按照摩尔定律滚动。

 
 
 

日志

 
 

正则匹配简单入门  

2010-05-14 11:25:00|  分类: Java |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

对于每一个想写爬虫的人来说,正则匹配肯定是必不可少的啦。

正则表达式
正则表达式:用于描述字符排列和匹配模式的一种语法规则。它主要用于字符串的模式分割、匹配、查找及替换操作。

在PHP中有两套正则表达式函数库,两者功能相似,只是执行效率略有差异:
一套是由PCRE(Perl Compatible Regular Expression)库提供的。使用“preg_”为前缀命名的函数;
一套由POSIX(Portable Operating System Interface of Unix )扩展提供的(PHP默认)。使用以“ereg_”为前缀命名的函数;
PHP中,正则表达式有三个作用:
   匹配,也常常用于从字符串中析取信息。
   用新文本代替匹配文本。
   将一个字符串拆分为一组更小的信息块。

一个正则表达式中至少包含一个原子。
原子(普通字符,如英文字符)
元字符(有特殊功用的字符)
模式修正字符(对正则表达式语义的修正)

       原子(Atom)
单个字符、数字,如a~z,A~Z,0~9。
模式单元,如(ABC)可以理解为由多个原子组成的大的原子。
原子表,如 [ABC]。
重新使用的模式单元,如:\\1
普通转义字符,如:\d, \D, \w
转义元字符,如:\*,\.

       POSIX正则表达式
POSIX正则表达式全称为Portable Operating System Interface of Unix,意为UNIX可移植操作系实现接口。

构造POSIX正则表达式的方法和创建数学表达式的方法一样,也就是用多种元字符与操作符将小的表达式结合在一起来创建更大的表达式。


       元字符(Meta-character)
元字符是用于构造规则表达式的具有特殊含义的字符。如果要在正则表达式中包含元字符本身,必须在其前加上”\”进行转义
元字符       说明
*         0次、1次或多次匹配其前的原子
+         1次或多次匹配其前的原子
?         0次或1次匹配其前的原子
|         匹配两个或多个选择   列如 [1-9]|[a-b]|[A-Z] 与其中任何匹配为ture
^         匹配字符串串首的原子   例如 abscd===^afdgfgf 相匹配
$         匹配字符串串尾的原子   例如 dasdsv===v$
[]         匹配方括号中的任一原子   例如 s===[dsadas]
[^]       匹配除方括号中的原子外的任何字符 例如 aaaaa===[dddd]
{m}       表示其前原子恰好出现m次  
{m,n}       表示其前原子至少出现m次,至少出现n次(n>m)
{m,}       表示其前原子出现不少于m次
()         整体表示一个原子
.         匹配除换行之外的任何一个字符

^ $   这两个原字符在一起称为定界
abd===^abc$   只有这样才匹配

     模式匹配的顺序
顺序   元字符     说明
     1     ()         模式单元  
     2     ?* +{}       重复匹配
     3     ^$         边界限制
     4               |         模式选择

     POSIX正则表达式函数
ereg()和eregi()
ereg_replace()和eregi_replace()
split()和spliti()

ereg()和eregi()ereg()字符串匹配函数,eregi()是ereg()函数的忽略大小的版本
语法格式:if (!ereg('^[^./][^/]*$', $userfile))//不匹配格式输出die
   {
     die('这是一个非法的文件名!');
   }

ereg_replace()和eregi_replace(忽略大小写)替换
string eregi_replace (“正则表达式”,“目标替换字符”,“替换目标”)
语法格式:$string = "This is a test";
   echo str_replace(" is", " was", $string);
   echo ereg_replace("( )is", "\\1was", $string);\\1 为继承第一个整体
   echo ereg_replace("(( )is)", "\\2was", $string);\\2继承第二个整体

split()和spliti(忽略大小写)用正则表达式将字符串分割到数组中
list:给数组中的值赋予一些变量
语法格式:$date = "04/30/1973";
   list($month, $day, $year) = split ('[/.-]', $date);//列出三个变数对应格式//以什么形式拆分 拆分谁
   echo "Month: $month; Day: $day; Year: $year<br />\n";
   输出结果Month: 04; Day: 30; Year: 1973

     多行匹配

$rows = file('php.ini');   //将php.ini文件读到数组中

   //循环便历
   foreach($rows as $line)
   {
     if(trim($line))
     {
     //将匹配成功的参数写入数组中
     if(eregi("^([a-z0-9_.]*) *=(.*)", $line, $matches)) //循环进行多行匹配
     {
                     $options[$matches[1]] = trim($matches[2]);
           }
           unset($matches);
         }
   }

   //输出参数结果
   print_r($options);

     PCRE正则表达式
PCRE全称为Perl Compatible Regular Expression,意思是Perl兼容正则表达式。
在PCRE中,通常将模式表达式(即正则表达式)包含在两个反斜线“/”之间,如“/apple/”。

     元字符(Meta-character)
元字符     说明
\A       匹配字符串串首的原子
\Z       匹配字符串串尾的原子
\b       匹配单词的边界     /\bis/   匹配头为is的字符串   /is\b/   匹配尾为is的字符串   /\bis\b/ 定界
\B       匹配除单词边界之外的任意字符   /\Bis/   匹配单词“This”中的“is”

\d     匹配一个数字;等价于[0-9]
\D     匹配除数字以外任何一个字符;等价于[^0-9]
\w     匹配一个英文字母、数字或下划线;等价于[0-9a-zA-Z_]
\W     匹配除英文字母、数字和下划线以外任何一个字符;等价于[^0-9a-zA-Z_]
\s     匹配一个空白字符;等价于[\f\n\r\t\v]
\S     匹配除空白字符以外任何一个字符;等价于[^\f\n\r\t\v]
\f     匹配一个换页符等价于 \x0c 或 \cL
\n     匹配一个换行符;等价于 \x0a 或 \cJ
\r     匹配一个回车符等价于\x0d 或 \cM
\t     匹配一个制表符;等价于 \x09\或\cl
\v     匹配一个垂直制表符;等价于\x0b或\ck
\oNN   匹配一个八进制数字
\xNN   匹配一个十六进制数字
\cC   匹配一个控制字符

     模式修正符(Pattern Modifiers)
i     -可同时匹配大小写字母
M     -将字符串视为多行
S     -将字符串视为单行,换行符做普通字符看待,使“.”匹配任何字符
X     -模式中的空白忽略不计    
U     -匹配到最近的字符串
e     -将替换的字符串作为表达使用
格式:/apple/i匹配“apple”或“Apple”等,忽略大小写。     /i


     PCRE的模式单元
//1 提取第一位的属性
/^\d{2}([\W])\d{2}\\1\d{4}$匹配“12-31-2006”、“09/27/1996”、“86 01 4321”等字符串。但上述正则表达式不匹配“12/34-5678”的格式。这是因为模式“[\W]”的结果“/”已经被存储。下个位置“\1”引用时,其匹配模式也是字符“/”。

当不需要存储匹配结果时使用非存储模式单元“(?:)”
例如/(?:a|b|c)(D|E|F)\\1g/ 将匹配“aEEg”。在一些正则表达式中,使用非存储模式单元是必要的。否则,需要改变其后引用的顺序。上例还可以写成/(a|b|c)(C|E|F)\2g/。

     PCRE正则表达式函数
preg_match()和preg_match_all()
preg_quote()
preg_split()
preg_grep()
preg_replace()

preg_match()和preg_match_all()正则表达式的匹配
语法格式:if (preg_match ("/php/i", "PHP is the web scripting language of choice.")) {
         print "A match was found.";
     } else {
           print "A match was not found.";
     }

preg_quote()转义正则表达式字符
语法格式:$keywords = "$40 for a g3/400";
   $keywords = preg_quote ($keywords, "/");//转义谁 /转义符号
   echo $keywords;

preg_split()用正则表达式分割字符串
preg_split()本函数与split函数功能一致。
语法格式:$keywords = preg_split ("/[\s,]+/", "hypertext language, programming");
   print_r($keywords);

preg_grep()返回与模式匹配的数组单元
语法格式:$fl_array = preg_grep ("/^(\d+)?\.\d+$/", $array);

preg_replace()执行正则表达式的搜索和替换
语法格式:$string = "April 15, 2003";
   $pattern = "/(\w+) (\d+), (\d+)/i";
   $replacement = "\${1}1,\$3";
   print preg_replace($pattern, $replacement, $string);

preg_match_all()进行全局正则表达式匹配
语法格式:preg_match_all ("|<[^>]+>(.*)</[^>]+>|U",
       "<b>example: </b><div align=left>this is a test</div>",
       $out, PREG_PATTERN_ORDER);
   print $out[0][0].", ".$out[0][1]."\n";
   print $out[1][0].", ".$out[1][1]."\n";
输出结果:<b>example: </b>, <div align=left>this is a test</div> example: , this is a test

学好正则匹配,就可以写好爬虫。

  评论这张
 
阅读(2431)| 评论(1)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017