1、打开JUPYTER NOTEBOOK,新建一个空白的PY文档。
2、import re首先必须要做的是引入regular expression。
3、a = re.compile(r' ')a.sub(r' ', 'my name is Peter.')可以定义两个空格的情况下变成一个空格。
4、也可以定义多个重复单词的时候,变成一个。
5、用+就可以代替一个或者多个的意思。
6、\s表示空格,可以定义两个或者两个以上就变成一个。
7、c = re.compile(r'\s{2,}'),c.sub(' ', 'My name is Peter.'),后续只能直接输入改成的字符。
代码如下:
# -*- coding: cp936 -*-
import re
string = "xxxxxxxxxxxxxxxxxxxxxxxx entry '某某内容' for aaaaaaaaaaaaaaaaaa"
result = re.findall(".*entry(.*)for.*",string)
for x in result:
print x
# '某某内容'
正则表达式的用法如下:
## 总结
## ^ 匹配字符串的开始。
## $ 匹配字符串的结尾。
## \b 匹配一个单词的边界。
## \d 匹配任意数字。
## \D 匹配任意非数字字符。
## x? 匹配一个可选的 x 字符 (换言之,它匹配 1 次或者 0 次 x 字符)。
## x* 匹配0次或者多次 x 字符。
## x+ 匹配1次或者多次 x 字符。
## x{n,m} 匹配 x 字符,至少 n 次,至多 m 次。
## (a|b|c) 要么匹配 a,要么匹配 b,要么匹配 c。
## (x) 一般情况下表示一个记忆组 (remembered group)。你可以利用 re.search 函数返回对象的 groups() 函数获取它的值。
## 正则表达式中的点号通常意味着 “匹配任意单字符”
1.首先p.search(s)只会找第一个匹配的字符串2.其次p.findall(s)会记录匹配的组,而(19|20)代表一个组,应该改成(?:19|20)以下代码可以满足你的要求:#-*-coding:utf-8-*-from__future__importprint_function,divisionimportres='id:042sex:mdob:1967-08-17status:active1968'p=re.compile(r'(?:19|20)\d{2}')#s='id:042sex:mdob:1967-08-17status:active1968'all_items=re.findall(p,s)map(print,all_items)print(all_items)
string = "xxxxxxxxxxxxxxxxxxxxxxxx entry '某某内容' for aaaaaaaaaaaaaaaaaa"
result = re.findall(".*entry(.*)for.*",string)
for x in result:
print x