크롤링을 하기 위해서 설치해야 하는 것이 2개 있음
원하는 사이트의 정보를 가져오기 사용하는 requests 패키지
사이트의 모든 정보를 가져온 다음 내가 원하는 것을 추출하기 위해서 필요한 라이브러리가 re와 BeautifulSoup이 있다.
re는 기본 라이브러리로 requests와 BeautifulSoup을 별도 설치가 필요하다.
이렇게 3개의 라이브러리가 있다면, 내가 원하는 웹상의 정보를 가져와서 사용할 수 있다.
(HTML에 대한 이해도 있다면 쉽게 크롤러를 만들 수 있다.)
requests
- 웹 상의 html 소스를 가져오기 위한 것
- http 요청(request)을 조금 더 편하게 할 수 있는 기능이 들어 있는 패키지
- 내가 원하는 URL의 정보를 가져올 수 있도록 하는 패키지 라이브러리
- 설치 : file > settings > Project:bitcameTest >Project Interpreter(설치된 모듈)> +누르면 추가 가능>원하는 모듈 선택 후 > Install Package > successfully 뜨면 끄기
re
- 정규표현식을 지원하는 re모듈
- re 모듈은 파이썬이 설치될 때 자동으로 설치되는 기본 라이브러리
- re는 별도 설치를 하지 않아도 되고, import만 하면 된다.
- 정규표현식을 활용하면 내가 원하는 곳의 정보만 쉽게 가져올 수 있다.
BeautifulSoup4
- BeautifulSoup 라이브러리를 이용하면 간단하게 HTML과 XML에서 정보를 추출할 수 있음
- soup.select_one( {선택자} ) CSS 선택지로 요소 하나를 추출
- soup.select( {선택자} ) CSS 선택지로 요소 여러 개를 리스트로 추출
- 이런 식으로도 선택 가능
- 별도 설치가 필요하다.
파이참에서 라이브러리 설치하는 방법
반응형
'Python > Python Crawling' 카테고리의 다른 글
파이썬 크롤링, BeautifulSoup으로 정보 가져오기 (0) | 2019.05.09 |
---|---|
파이썬 크롤링, re로 특정 정보 선택하기(간단한 정규표현식) (1) | 2019.05.09 |
파이썬 크롤링, requests로 네이버 웹 정보 가져오기 (0) | 2019.05.09 |
파이썬 크롤링 기본, 정규표현식이란? (0) | 2019.05.09 |
파이썬 크롤링, 웹사이트 정보 가져오기 (0) | 2019.05.09 |
댓글