下面开始介绍一下模块其它的常Python函数编译,灵活搭配使用这些函数,才能充分发挥Python正则式的强大功能,看完本文你肯定有不少收获,希望本文能教会你更多东西。

直接使用findall ( rule , target )的方式来匹配字符串,一次两次没什么,如果是多次使用的话,由于正则引擎每次都要把规则解释一遍。而规则的解释又是相当费时间的,所以这样的效率就很低了。如果要多次使用同一规则来进行匹配的话,可以使用re.compile函数来将规则预编译,使用编译过返回的Regular Expression Object或叫做Pattern对象来进行查找。

将一个正则式,使用Python函数编译,不仅是为了提高匹配的速度,同时还能使用一些附加的功能。编译后的结果生成一个Pattern对象。这个对象里面有很多函数,他们看起来和re模块的Python函数编译非常象,它同样有findall , match , search ,finditer , sub , subn , split 这些函数。

只不过它们的参数有些小小的不同。一般说来,re模块函数的第一个参数,即正则规则不再需要了,应为规则就包含在Pattern对象中了,编译选项也不再需要了,因为已经被编译过了。因此re模块中函数的这两个参数的位置,就被后面的参数取代了。
findall , match , search 和finditer这几个函数的参数是一样的,除了少了规则和选项两个参数外,它们又加入了另外两个参数,它们是:查找开始位置和查找结束位置,也就是说,现在你可以指定查找的区间,除去你不感兴趣的区间。它们现在的参数形式是:


    import Image

  • # load a color image
  • im = Image.open('fun.jpg')
  • # convert to grey level image 
    Lim = im.convert('L')
  • Lim.save('fun_Level.jpg')
  • # setup a converting table with constant threshold 
    threshold = 80
  • table = [] 
    for i in range(256):
  •     if i < threshold:
            table.append(0)
  •     else: 
            table.append(1)

  • # convert to binary image by the table
  • bim = Lim.point(table, '1')
  • bim.save('fun_binary.jpg')
这里是一点小心得。 由于正则表达式使用反斜杠来转义特殊字符,而python自身处理字符串时,反斜杠也是用于转义字符,这样就产生了一个双重转换的问题要匹配字符串中1个反斜杠应该怎么写正则表达式?"\\",这样行吗?试试就知道了。

re模块抛异常了Python函数编译因为"\\"就是一个反斜杠,对于正则表达式解析器来说,是一个转义字符,但是后面啥也没有,自然就报错了,"[url=]\\\[/url]"三个肯定是不行的,试试四个"[url=]\\\\[/url]",完美匹配。
*
我们来分析一下这个例子:这个正则式是匹配单词、或数字、或一个由字母或’_’开头,后面接字母或数字的一个ID。我们给这三种情况的规则都包入了一个命名组,分别命名为’word’ , ‘num’ 和 ‘id’。我们规定大小写不敏感,所以使用了编译选项 。