主题:[原创]正则表达式的简单解说
正则表达式(regular expression)描述了一种字符串匹配的格式,在很多地方都很有用。比如在一个编辑器中可以用来查找和替换字符串。另外在一些网站中也可以用正则表达式进行搜索。在C++的Boost库中也有一个正则表达式的类。Perl,Java也需要用到正则表达式。
正则表达式的写法很是奇特,初看起来还有点乱糟遭的感觉。在这里我只想简单的说说它的描述格式。要是不知道什么是正则表达式,我想你对这帖子也没有什么兴趣的了。可以不看。现在转入正题。
//>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
大家都应该知道集合的概念了,我的介绍是从集合开始。
假如有一个正则表达式r,如果有一个字符串符合它描述的格式,我们就称字符串匹配了表达式。所有匹配正则表达式的字符串组成一个集合,记为L(r).
定义一个集合,里面的元素是单个的字符,比如{a, b, c, d},这个集合称为正则表达式的字母表,这个集合是可以随意定义的。可以判断你用的字符是否合法。
基本正则表达式。也就是上面定义集合中的单个字符的字串。比如a, b, c, d, 还有一个空字符串,记为NULL(本来是用个希腊字母来表示的,不过打不出来,用这个替代)。这样有L(a) = {a}. L(b)={b}. L(NULL)={NULL}. 基本正则表达式是一个合法的正则表达式。
在正则表达式上有三种基本的运算:选择,连接,重复。一个有效的正则表达式经过有限次的运算,也是一个有效的正则表达式。
注: 上面的定义有点怪,不过很多都是为了逻辑上的严谨,其实不难,想通了就很自然了。想一想我们以前学有理式的定义,也是这样的。一个字母就是一个有效的有理式,有理式经过有限次的四则运算,也是一个有理式。还有Lisp语言中表的定义,一个字串称为原子,一个原子是一个表,表排在一起,也是一个表。
好,想通了之后,跟着定义我们正则表达式的基本运算。只有三个。
(1)选择。r和s都是正则表达式,这运算记为r|s。选择就是说,假如一个字串可以匹配r或者可以匹配s,就一定可以匹配r|s。再解释一下,L(r)表示所有匹配r的字串的集合,L(s)表示所有匹配s的字串的集合,L(r|s)表示所有匹配r|s的字串的集合。有 L(r|s)=L(r)并L(s)。理解正则表达式可以试试用集合的角度。比如L(a)={a}, L(b)={b}, L(a|b)={a, b}.
(2)连结。没有什么,就是两个正则表达式连在一起,就写成rs。从集合的角度,就是L(rs)=L(r)L(s)。比如 (a|b)c代表的集合是 {a,b}{c}={ac, bc}. 集合的连接很难说清楚,不过举个例子就可以了,比如{a, b}{c, d} = {ac, ad, bc, bd}.
(3)重复。将一个正则表达式重复任意次,包括0次,记为r* 。重复2次就是自身连结两次,重复3次就是自身连结三次。还是不太明白,举个例子。L(a*)={NULL,a,aa,aaa,aaaa,aaaaa,......}。因为它可以重复任意多次,包括0次(重复0次就是NULL), 这样的话 a, aaa, aaaa都可以匹配 a* .
//>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
上面的三种运算要好好想一下,所有的复杂的正则表达式都是由上面三种运算构成。既然有运算,就会牵涉到运算的优先问题,现在规定几个运算合在一起,先算重复运算,再算连结,再算选择。而括号可以改变优先,有括号先算括号里面的。
好啦,现在来看一个简单的例子,用正则表达式来表示所有的整数
(NULL|+|-)(0|1|2.....|9)(0|1|2|3....9)*
这样也太麻烦了,要是我们再设一个规则,就是可以给正则表达式取个名字,之后这个名字就代表了这个表达式。上面的式子可以写成
sign = NULL | + | -
digit = 0|1|2....|9
integer = (sign)(digit)(digit)*
(digit)(digit)* 的意思是保证数字至少要出现一次。
//>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
其实上面定义的三种运算已经可以写出所有的正则表达式了,不过你看到,有些地方单纯用上面的运算,不是很方便。因此,再定义其他的一些运算,称为正则表达式运算的扩展(不同的语言,不同的场合可能包括不同的扩展,举些常用的)。不过你要知道,所有的其他运算都可以用上面选择,连结、重复的运算表达出来, 那三种运算是基本中的基本。知道了基本,其他的运算就很容易掌握了。
(1)重复一次或者多次,记为r+。最基本的重复的运算是可以重复0次的,不过0次并非是典型的情况,至少要重复一次才是比较常用的。可以知道r+等效于 rr*, 上面的例子也就可以写成 (NULL|+|-)(0|1|2.....|9)+
(2)重复n次, 记为r{n},比如L(a{2}={aa}). 而重复i次到j次,就是 r{i,j}, 比如L(a{1,3})={a, aa, aaa}。至少重复n次,就是r{n,}。比如L(a{3,})={aaa, aaaa, aaaaa,.....}
(3)任意字符,记为 .(也就是小数点)。这个等效于整个字母表作选择运算。比如一个字串至少要包括一个b,可以写成 .*b.*
(4)字符范围, 比如[0-9],表示可以取0到9任意一个,等效于0|1|2|3....|9。经常需要写出一定的字符范围,设想你刚开始定义的字母表按照一定的顺序排列,这个式子就在字母表上划了一个范围。通常我们用的编程语言按照ASCII排列。另外[]还有个用法,[akgs]等效于a|k|g|s, 所有的字母抽一个可以写成[A-Za-z],应该可以看明白,不解释了。这时候列出所有的整数可以写成 [(NULL)+-][0-9]+
(5)不在给定集合中的任意字符。这其实是一个取补运算,用~表示。比如~(a|b|c)就是除了a,b,c之外的任意字符~(NULL)就是定义的字母表,等效于 . 。不过更多时候,这个运算用^表示,比如[^abc], [^(NULL)].
(6)可选的子表达式。用?表示。比如[ab]? 就等效于[(NULL)ab],也等效于[ab]{0,1}也就是说,可以选择a,可以选择b,也可以都不选择。所以所有的整数可以表示为 ([-+]?)[0-9]+
..........
//>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
当然,不同的语言符号可能也不尽不同,还会有另外的规则,比如C++中还要注意一下转义字符。最先定义的三个运算最为重要,要先掌握。只要将上面说的基本运算综合起来,正则表达式可以表现很复杂的字符格式,表示起来也很灵活。自己再慢慢研究吧。
不过正则表达式也不是所有的字符集合都可以表示出来。比如
S={b, aba, aabaa, aaabaaa....}={(a^n)b(a^n) | n != 0}就没有办法统一表示。
主要参考:
《揭开正则表达式的神秘面纱》百度上搜搜,很多。
<编译原理及实际>(Kenneth C Louden) P23-32. (我只不过将它的意思再写一下)