[Python] 나도코딩 웹 스크래핑편 - (2) re

Updated:

유튜브 나도코딩 웹 스크래핑 무료 강의를 통해 학습한 내용을 정리해서 올리고 있습니다.

실습과정에서 필요에 따라 일부 강의 내용의 누락 및 추가, 수정사항이 있습니다.

퀴즈의 경우, 유튜브 풀이와 상이할 수 있습니다.


정규식

import re

def print_match(m):
    if m:
        print("m.group():", m.group()) # 일치하는 문자열 반환
        print("m.string:", m.string) # 입력받은 문자열
        print("m.start():", m.start()) # 일치하는 문자열의 시작 index
        print("m.end():", m.end()) # 일치하는 문자열의 끝 index
        print("m.span():", m.span()) # 일치하는 문자열의 시작 / 끝 index
    else:
        print("매칭되지 않음")
  • compile() 함수로 re.compile("원하는 정규식")처럼 원하는 정규식을 지정한다.

  • ”.”: (ca.e): 하나의 문자를 의미 - cage, cave

  • ”^”: (^de): 문자열의 시작 - desk, desert

  • ”\$”: (se$): 문자열의 끝 - case, base

p = re.compile("ca.e")
m = p.match("careless")
print_match(m)
m.group(): care
m.string: careless
m.start(): 0
m.end(): 4
m.span(): (0, 4)
  • match(): 입력한 문자열의 처음부터 일치하는지 확인한다.
m = p.search("good care")
print_match(m)
m.group(): care
m.string: good care
m.start(): 5
m.end(): 9
m.span(): (5, 9)
  • search(): 입력한 문자열 중에 처음부터가 아니어도 어딘가에 일치하는게 있는지 확인한다.
lst = p.findall("good care cafe")
print(lst)
['care', 'cafe']
  • findall(): 입력한 문자열 중 일치하는 모든 문자열을 리스트 형태로 반환한다.

참고 사이트: 정규식/html 더 알아보기

Leave a comment