[Python] 나도코딩 웹 스크래핑편 - (7) 쿠팡 노트북

Updated:

유튜브 나도코딩 웹 스크래핑 무료 강의를 통해 학습한 내용을 정리해서 올리고 있습니다.

실습과정에서 필요에 따라 일부 강의 내용의 누락 및 추가, 수정사항이 있습니다.

퀴즈의 경우, 유튜브 풀이와 상이할 수 있습니다.


쿠팡 노트북 정보

import requests
import re
from bs4  import BeautifulSoup

# 쿠팡에서 노트북 검색시 첫 페이지 url
url = "https://www.coupang.com/np/search?q=%EB%85%B8%ED%8A%B8%EB%B6%81&channel=user&component=&eventCategory=SRP&trcid=&traid=&sorter=scoreDesc&minPrice=&maxPrice=&priceRange=&filterType=&listSize=36&filter=&isPriceRange=false&brand=&offerCondition=&rating=0&page=1&rocketAll=false&searchIndexingToken=&backgroundColor="
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36"}

res = requests.get(url, headers=headers)
res.raise_for_status()

soup = BeautifulSoup(res.text, "lxml")

items = soup.find_all("li", attrs={"class":re.compile("^search-product")})

print(items[0].find("div", attrs={"class":"name"}).get_text())
삼성전자 노트북9 METAL NT901X5L 가볍고 슬림한 1.29kg 코어i5 윈10 탑재, 포함, SSD 256GB, 8GB
  • 쿠팡에서 노트북을 검색하였을 때 정보를 가져왔다.

  • 각 상품 이름은 class가 search-product로 시작하는 li 태그 밑에 class가 name인 div 태그에 저장되어 있다.

  • 나의 경우 li 태그 밑에 class가 search-product-wrap인 dl 태그 밑에 div가 태그가 있어서 처음에 dl 태그를 저장해도 된다.

  • li 태그를 찾을 때 정규식으로 class가 search-product로 시작하는 경우를 찾았는데 실제론 모두 search-product였다.

for i in items:
    # 로켓 배송 아닌 경우 제외
    rocket = i.find("span", attrs={"class":"badge rocket"})
    if not rocket:
        print("로켓 배송만 포함합니다")
        continue
        
    # 삼성전자 상품 제외
    name = i.find("div", attrs={"class":"name"}).get_text() # 제품명
    if "삼성전자" in name:
        print("삼성전자 제품 제외")
        continue

    price = i.find("strong", attrs={"class":"price-value"}).get_text() # 가격

    # 리뷰 50개 이상, 평점 4.2 이상만 조회
    rate = i.find("em", attrs={"class":"rating"}) # 평점 - 평점이 없는 경우가 있었음
    if rate:
        rate = rate.get_text()
    else:
        print("평점 없음")
        continue

    rate_cnt = i.find("span", attrs={"class":"rating-total-count"}) # 평점 수 (30)
    if rate_cnt:
        rate_cnt = rate_cnt.get_text()
        rate_cnt = rate_cnt[1:-1] # 평점 수 옆의 괄호 제거
    else:
        print("평점 수 없음")
        continue

    if float(rate) >= 4.2 and int(rate_cnt) >= 50:
        print(name, price, rate, rate_cnt, sep="☆")
로켓 배송만 포함합니다
삼성전자 제품 제외
로켓 배송만 포함합니다
LG전자 울트라 화이트 노트북 14U390-ME1TK (셀러론-N4100 35.5cm WIN10 S), 포함, 320GB, 4GB☆525,050☆4.5☆117
로켓 배송만 포함합니다
로켓 배송만 포함합니다
Apple 2020년 맥북 에어 13, M1 8-Core, 8GB, SSD 256GB, 실버☆1,214,140☆5.0☆1264
로켓 배송만 포함합니다
레노버 아이디어패드 Platinum Grey 노트북 S150-11 81VT (Intel Celeron N4020 29.5cm WIN10 Home S), 윈도우 포함, 64GB, 4GB☆285,770☆4.5☆158
주연테크 캐리북T 메탈슬림 터치 J3GP Pro 노트북(Intel Gemini Pentium Silver Quad Core N5000 33.782cm UHD Graphics 605 WIN10 Pro), 윈도우 포함, 64GB, 4GB☆379,000☆4.5☆93
Apple 2020년 맥북 프로 13 (M1 칩셋 8코어 CPU 8코어 GPU), 8GB, SSD 512GB, 스페이스 그레이☆1,706,580☆5.0☆802
삼성전자 제품 제외
로켓 배송만 포함합니다
삼성전자 제품 제외
LG전자 울트라 화이트 노트북 14U390-ME1TK (셀러론-N4100 35.5cm WIN10 S), 포함, 320GB, 8GB☆590,600☆4.5☆117
LG전자 울트라 PC 화이트 노트북 13UD70P-GX50K (라이젠5-4500U 33.78cm), 미포함, 256GB, 8GB☆966,500☆5.0☆100
로켓 배송만 포함합니다
삼성전자 제품 제외
레노버 아이디어패드 Ice Blue 노트북 S150-11 81VT (Intel Celeron N4020 29.5cm WIN10 Home S), 윈도우 포함, 64GB, 4GB☆285,770☆4.5☆110
LG전자 울트라PC 노트북 15U40N-GR56K (라이젠5-4500U 39.6cm WIN10 Home), 윈도우 포함, 256GB, 8GB☆995,560☆5.0☆207
레노버 Flex 5 노트북 14ARE R3 W10S (라이젠3-4300U 35.5cm Radeon Graphics WIN10 S), 윈도우 포함, 128GB, 8GB☆728,000☆4.5☆66
LG전자 울트라 화이트 노트북 14U390-ME1TK (셀러론-N4100 35.5cm WIN10 S), 포함, 192GB, 8GB☆581,100☆4.5☆117
삼성전자 제품 제외
삼성전자 제품 제외
삼성전자 제품 제외
로켓 배송만 포함합니다
삼성전자 제품 제외
  • 로켓 배송이고, 삼성전자 제품이 아니며 평점 수가 50개 이상 평점이 4.2 이상인 상품 정보를 출력하였다.

  • 다만 출력된 정보가 실제 홈페이지에서 보는 것과 다른데 어떠한 문제인지는 모르겠다.

  • 여기선 스크래핑한 정보에 조건을 주어 원하는 형태로 출력하는 방법만 이해하자.

Leave a comment