본문 바로가기
Integration & Python

Python 웹 사이트에서 데이터 스크랩 방법

by 누워서 코딩 2023. 2. 28.

웹 스크래핑은 웹사이트에서 데이터를 추출하는 프로세스입니다. 이 데이터는 텍스트, 이미지, 비디오 또는 기타 형식의 미디어와 같은 다양한 형식일 수 있습니다. 웹 스크래핑은 데이터 과학, 마케팅 및 연구를 포함한 많은 분야에서 유용합니다.

Python은 단순성, 사용 용이성 및 광범위한 라이브러리로 인해 웹 스크래핑에 널리 사용되는 프로그래밍 언어입니다. Beautiful Soup, Scrapy 및 Requests와 같은 Python 라이브러리는 웹 스크래핑 프로세스를 훨씬 더 효율적이고 간단하게 만들 수 있습니다.

 

Python을 사용한 웹 스크래핑 단계

Python을 사용한 웹 스크래핑에는 몇 가지 단계가 있습니다. 자세히 살펴 보겠습니다.

1단계: 필수 라이브러리 설치

Python을 사용하여 웹 스크래핑을 시작하려면 먼저 필요한 라이브러리를 설치해야 합니다. Python에서 웹 스크래핑에 가장 일반적으로 사용되는 라이브러리에는 Beautiful Soup, Scrapy 및 Requests가 있습니다. pip 패키지 관리자를 사용하여 이러한 라이브러리를 설치할 수 있습니다.

 

pip install beautifulsoup4 scrapy requests

2단계: 스크랩할 웹사이트 및 데이터 식별

다음 단계는 데이터를 스크랩하려는 웹사이트를 식별하는 것입니다. 웹사이트를 식별했으면 스크랩할 데이터를 결정해야 합니다. 요구 사항에 따라 텍스트, 이미지 또는 표와 같은 데이터를 스크랩할 수 있습니다.

3단계: 웹사이트 검사

스크랩할 웹사이트와 데이터를 식별한 후 다음 단계는 웹사이트의 소스 코드를 검사하는 것입니다. 브라우저의 개발자 도구를 사용하여 이 작업을 수행할 수 있습니다. 웹 사이트를 검사하여 스크랩하려는 데이터가 포함된 HTML 태그 및 CSS 선택기를 식별할 수 있습니다.

4단계: Python 코드 작성

HTML 태그와 CSS 선택기를 식별했으면 Python 코드를 작성하여 데이터를 추출할 수 있습니다. 다음은 웹사이트에서 모든 블로그 게시물의 제목을 추출하는 Python 코드의 예입니다.

 

import requests
from bs4 import BeautifulSoup

url = 'https://example.com/blog'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
titles = soup.find_all('h2', class_='blog-post-title')

for title in titles:
    print(title.text)

위의 예에서는 먼저 필요한 라이브러리를 가져온 다음 라이브러리를 사용하여 웹 사이트에 GET 요청을 보냅니다 requests. 그런 다음 라이브러리를 사용하여 BeautifulSoupHTML 응답을 구문 분석하고 find_all메서드를 사용하여 모든 블로그 게시물의 제목을 추출합니다.

5단계: 스크랩한 데이터 저장 (Store the Scraped Data)

마지막으로 요구 사항에 따라 스크랩한 데이터를 파일이나 데이터베이스에 저장할 수 있습니다. Pandas 또는 SQLite와 같은 라이브러리를 사용하여 데이터를 구조화된 형식으로 저장할 수 있습니다.

웹 스크래핑 모범 사례

다음은 Python을 사용하여 웹 스크래핑을 수행할 때 따라야 하는 몇 가지 모범 사례입니다.

웹사이트의 서비스 약관을 필독

웹사이트를 스크랩하기 전에 서비스 약관을 읽고 존중해야 합니다. 일부 웹사이트는 스크래핑을 금지하거나 스크래핑 빈도를 제한합니다.

Robots.txt 파일 사용

robots.txt 파일은 웹 크롤러에게 웹사이트의 어떤 부분에 접근할 수 있고 없는지 알려주는 파일입니다. 스크랩하기 전에 웹사이트의 robots.txt 파일을 확인하십시오.

지연(delay) 및 제한(Throttling) 사용

웹 사이트 서버의 과부하를 방지하려면 지연 및 제한을 사용하십시오. 지연은 각 요청 사이에 지연을 추가하는 것을 의미하고 제한은 요청 수를 제한하는 것을 의미합니다.

import time

delay = 2  # Delay in seconds

# Throttle the requests to 10 per minute
throttle = (60 / 10)  # 6 seconds

for url in urls:
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    # Extract the data
    ...
    # Add delay
    time.sleep(delay)

위의 예에서는 각 요청 사이에 2초의 지연을 추가하고 요청 수를 분당 10개로 제한합니다.

오류 및 예외 처리

웹 스크래핑을 하다 보면 오류와 예외가 발생하기 마련입니다. 프로그램이 충돌하지 않도록 정상적으로 처리해야 합니다.

 

try:
    response = requests.get(url)
    response.raise_for_status()
except requests.exceptions.HTTPError as error:
    print(error)
except requests.exceptions.RequestException as error:
    print(error)

위의 예에서는 try-except블록을 사용하여 요청하는 동안 발생할 수 있는 HTTP 오류 및 기타 예외를 처리합니다.

사용자 에이전트 헤더 사용

일부 웹사이트는 봇이나 크롤러의 요청을 차단합니다. 차단되지 않으려면 브라우저의 User-Agent를 모방한 User-Agent 헤더를 사용하십시오.

 

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

response = requests.get(url, headers=headers)

위의 예에서는 브라우저의 User-Agent를 모방하기 위해 User-Agent 헤더를 요청에 추가합니다.

불필요한 요청 피하기

불필요한 요청을 피하려면 캐싱을 사용하고 데이터를 로컬에 저장하십시오. 이것은 요청 수를 줄이고 프로그램 속도를 향상시키는 데 도움이 될 수 있습니다.

 

import requests_cache

# Cache the requests for 5 minutes
requests_cache.install_cache('cache', expire_after=300)

response = requests.get(url)

위의 예에서는 라이브러리를 사용하여 requests-cache5분 동안 요청을 캐시합니다.

결론

웹 스크래핑은 웹사이트에서 데이터를 추출하는 강력한 도구입니다. Python은 웹 스크래핑을 더 쉽고 효율적으로 만드는 많은 라이브러리와 도구를 제공합니다. 이 블로그 게시물에 설명된 모범 사례를 따르면 웹 사이트에 의해 차단되는 것을 방지하고 개발자로서 생산성을 높일 수 있습니다.

 

파이썬 스토리 다른 글 보기

파이썬 개발 모범 사례들 정리

Python으로 웹 애플리케이션 구축 방법 따라하기

댓글