主题:使用Python函数编译函数
下面开始介绍一下模块其它的常Python函数编译,灵活搭配使用这些函数,才能充分发挥Python正则式的强大功能,看完本文你肯定有不少收获,希望本文能教会你更多东西。
直接使用findall ( rule , target )的方式来匹配字符串,一次两次没什么,如果是多次使用的话,由于正则引擎每次都要把规则解释一遍。而规则的解释又是相当费时间的,所以这样的效率就很低了。如果要多次使用同一规则来进行匹配的话,可以使用re.compile函数来将规则预编译,使用编译过返回的Regular Expression Object或叫做Pattern对象来进行查找。
将一个正则式,使用Python函数编译,不仅是为了提高匹配的速度,同时还能使用一些附加的功能。编译后的结果生成一个Pattern对象。这个对象里面有很多函数,他们看起来和re模块的Python函数编译非常象,它同样有findall , match , search ,finditer , sub , subn , split 这些函数。
只不过它们的参数有些小小的不同。一般说来,re模块函数的第一个参数,即正则规则不再需要了,应为规则就包含在Pattern对象中了,编译选项也不再需要了,因为已经被编译过了。因此re模块中函数的这两个参数的位置,就被后面的参数取代了。
findall , match , search 和finditer这几个函数的参数是一样的,除了少了规则和选项两个参数外,它们又加入了另外两个参数,它们是:查找开始位置和查找结束位置,也就是说,现在你可以指定查找的区间,除去你不感兴趣的区间。它们现在的参数形式是:
re模块抛异常了Python函数编译因为"\\"就是一个反斜杠,对于正则表达式解析器来说,是一个转义字符,但是后面啥也没有,自然就报错了,"[url=]\\\[/url]"三个肯定是不行的,试试四个"[url=]\\\\[/url]",完美匹配。
*
我们来分析一下这个例子:这个正则式是匹配单词、或数字、或一个由字母或’_’开头,后面接字母或数字的一个ID。我们给这三种情况的规则都包入了一个命名组,分别命名为’word’ , ‘num’ 和 ‘id’。我们规定大小写不敏感,所以使用了编译选项 。
直接使用findall ( rule , target )的方式来匹配字符串,一次两次没什么,如果是多次使用的话,由于正则引擎每次都要把规则解释一遍。而规则的解释又是相当费时间的,所以这样的效率就很低了。如果要多次使用同一规则来进行匹配的话,可以使用re.compile函数来将规则预编译,使用编译过返回的Regular Expression Object或叫做Pattern对象来进行查找。
将一个正则式,使用Python函数编译,不仅是为了提高匹配的速度,同时还能使用一些附加的功能。编译后的结果生成一个Pattern对象。这个对象里面有很多函数,他们看起来和re模块的Python函数编译非常象,它同样有findall , match , search ,finditer , sub , subn , split 这些函数。
只不过它们的参数有些小小的不同。一般说来,re模块函数的第一个参数,即正则规则不再需要了,应为规则就包含在Pattern对象中了,编译选项也不再需要了,因为已经被编译过了。因此re模块中函数的这两个参数的位置,就被后面的参数取代了。
findall , match , search 和finditer这几个函数的参数是一样的,除了少了规则和选项两个参数外,它们又加入了另外两个参数,它们是:查找开始位置和查找结束位置,也就是说,现在你可以指定查找的区间,除去你不感兴趣的区间。它们现在的参数形式是:
-
# load a color image - im = Image.open('fun.jpg')
-
# convert to grey level image
Lim = im.convert('L') - Lim.save('fun_Level.jpg')
-
# setup a converting table with constant threshold
threshold = 80 -
table = []
for i in range(256): -
if i < threshold:
table.append(0) -
else:
table.append(1) -
# convert to binary image by the table - bim = Lim.point(table, '1')
-
bim.save('fun_binary.jpg')
import Image
re模块抛异常了Python函数编译因为"\\"就是一个反斜杠,对于正则表达式解析器来说,是一个转义字符,但是后面啥也没有,自然就报错了,"[url=]\\\[/url]"三个肯定是不行的,试试四个"[url=]\\\\[/url]",完美匹配。
*
我们来分析一下这个例子:这个正则式是匹配单词、或数字、或一个由字母或’_’开头,后面接字母或数字的一个ID。我们给这三种情况的规则都包入了一个命名组,分别命名为’word’ , ‘num’ 和 ‘id’。我们规定大小写不敏感,所以使用了编译选项 。