实用软件资讯

正则表达式30分钟入门教程

。现在bhib.*bLucyb的 意思就很明显了:先是一个单词hi,然后是任意个任意字符(但不能是换行),最后是Lucy这个单词

换行符就是'n',ASCII编码为10(十六进制0x0A)的字符。

如果同时使用其它元字符,我们就能构造出功能更强大的正则表达式。比如下面这个例子:

0dd-dddddddd匹配这样的字符串:以0开头,然后是两个数字,然后是一个连字号“-”,最后是8个数字(也就是中国的电话号码。当然,这个例子只 能匹配区号为3位的情形)。

这里的d是个新的元字符,匹配一位数字(0,或 1,或2,或……)-不是元字符,只匹配它本身——连字符或者减号。

为了避免那么多烦人的重复,我们也可以这样写这个表达式:0d{2}-d{8}。 这里d后面的{2}({8})的意思是前面d必须连续重复匹配2次(8次)

测试正则表达式

如果你不觉得正则表达式很难读写的话,要么你是一个天才,要么,你不是地球人。正则表达式的语法很令人头疼,即使对经常使用它的人来说也是如此。由 于难于读写,容易出错,所以找一种工具对正则表达式进行测试是很有必要的。

由于在不同的环境下正则表达式的一些细节是不相同的,本教程介绍的是微软 .Net Framework 2.0下正则表达式的行为,所以,我向你介绍一个.Net下的工具Regex Tester。首先你确保已经安装了.Net Framework 2.0,然后下载 Regex Tester。这是个绿色软件,下载完后打开压缩包,直接运行RegexTester.exe就可以了。

下面是Regex Tester运行时的截图:

Regex Tester运行时的截图

元字符

现在你已经知道几个很有用的元字符了,如b,.,*,还有d.正则表达式里还有更多的元字符,比如s匹配任意的空白符,包括空格,制表符(Tab),换行符,中文全 角空格等w匹配字母或数字或下划线或汉 字等

对中文/汉字的特殊处理是由.Net提供的正则表达式引擎支持的,其它环境下的具体情况请查看相关文档。

下面来看看更多的例子:

baw*b匹配以字母a开头的单词——先是某个单词开始处(b),然后是字 母a,然后是任意数量的字母或数字(w*), 最后是单词结束处(b)

好吧,现在我们说说正则表达式里的单词是什么意思吧:就是多于一个的连续的w。 不错,这与学习英文时要背的成千上万个同名的东西的确关系不大 :)

d+匹配1个或更多连续的数字。 这里的+是和*类似的元字符,不同的是*匹配重复任意次(可能是0次),而+则匹配重复1次或更多次

bw{6}b 匹配刚好6个字母/数字的单 词

表1.常用的元字符
代码 说明
. 匹配除换行符以外的任意字符
w 匹配字母或数字或下划线或汉字
s 匹配任意的空白符
d 匹配数字
b 匹配单词的开始或结束
^ 匹配字符串的开始
希望看到您的想法,请您发表评论x