[Python] 나도코딩 웹 스크래핑편 - (2) re
Updated:
유튜브 나도코딩 웹 스크래핑 무료 강의를 통해 학습한 내용을 정리해서 올리고 있습니다.
실습과정에서 필요에 따라 일부 강의 내용의 누락 및 추가, 수정사항이 있습니다.
퀴즈의 경우, 유튜브 풀이와 상이할 수 있습니다.
정규식
import re
def print_match(m):
if m:
print("m.group():", m.group()) # 일치하는 문자열 반환
print("m.string:", m.string) # 입력받은 문자열
print("m.start():", m.start()) # 일치하는 문자열의 시작 index
print("m.end():", m.end()) # 일치하는 문자열의 끝 index
print("m.span():", m.span()) # 일치하는 문자열의 시작 / 끝 index
else:
print("매칭되지 않음")
-
compile()
함수로re.compile("원하는 정규식")
처럼 원하는 정규식을 지정한다. -
”.”: (ca.e): 하나의 문자를 의미 - cage, cave
-
”^”: (^de): 문자열의 시작 - desk, desert
-
”\$”: (se$): 문자열의 끝 - case, base
p = re.compile("ca.e")
m = p.match("careless")
print_match(m)
m.group(): care
m.string: careless
m.start(): 0
m.end(): 4
m.span(): (0, 4)
match()
: 입력한 문자열의 처음부터 일치하는지 확인한다.
m = p.search("good care")
print_match(m)
m.group(): care
m.string: good care
m.start(): 5
m.end(): 9
m.span(): (5, 9)
search()
: 입력한 문자열 중에 처음부터가 아니어도 어딘가에 일치하는게 있는지 확인한다.
lst = p.findall("good care cafe")
print(lst)
['care', 'cafe']
findall()
: 입력한 문자열 중 일치하는 모든 문자열을 리스트 형태로 반환한다.
참고 사이트: 정규식/html 더 알아보기
Leave a comment