본문 바로가기
Python/Python Crawling

파이썬 크롤링 기본, requests와 re & BeautifulSoup 개념 및 설치

by 워니 wony 2019. 5. 9.

크롤링을 하기 위해서 설치해야 하는 것이 2 있음

원하는 사이트의 정보를 가져오기 사용하는 requests 패키지

사이트의 모든 정보를 가져온 다음 내가 원하는 것을 추출하기 위해서 필요한 라이브러리가 re와 BeautifulSoup이 있다.

re는 기본 라이브러리로 requests와 BeautifulSoup을 별도 설치가 필요하다.

 

이렇게 3개의 라이브러리가 있다면, 내가 원하는 웹상의 정보를 가져와서 사용할 수 있다.

(HTML에 대한 이해도 있다면 쉽게 크롤러를 만들 수 있다.)

 

requests

    • 상의 html 소스를 가져오기 위한
    • http 요청(request) 조금 편하게 있는 기능이 들어 있는 패키지
    • 내가 원하는 URL의 정보를 가져올 수 있도록 하는 패키지 라이브러리
    • 설치 : file > settings > Project:bitcameTest >Project Interpreter(설치된 모듈)> +누르면 추가 가능>원하는 모듈 선택 후 > Install Package > successfully 뜨면 끄기

re

    • 정규표현식을 지원하는 re모듈
    •  re 모듈은 파이썬이 설치될 때 자동으로 설치되는 기본 라이브러리
    • re는 별도 설치를 하지 않아도 되고, import만 하면 된다. 
    • 정규표현식을 활용하면 내가 원하는 곳의 정보만 쉽게 가져올 수 있다.

 

BeautifulSoup4

  • BeautifulSoup 라이브러리를 이용하면 간단하게 HTML XML에서 정보를 추출할 있음
  • soup.select_one( {선택자} )  CSS 선택지로 요소 하나를 추출
  • soup.select( {선택자} )  CSS 선택지로 요소 여러 개를 리스트로 추출
  • 이런 식으로도 선택 가능
  • 별도 설치가 필요하다.

 

 

파이참에서 라이브러리 설치하는 방법

File > Setting 클릭

 

Project Interpreter > + 버튼 클릭

 

설치를 하고자 하는 라이브러리명 검색

 

원하는 라이브러리 검색 후 찾아서 클릭 > install Packge 클릭 후 설치 기다리기

 

반응형

댓글