파이썬 크롤링 기본, requests와 re & BeautifulSoup 개념 및 설치

크롤링을 하기 위해서 설치해야 하는 것이 2개 있음

원하는 사이트의 정보를 가져오기 사용하는 requests 패키지

사이트의 모든 정보를 가져온 다음 내가 원하는 것을 추출하기 위해서 필요한 라이브러리가 re와 BeautifulSoup이 있다.

re는 기본 라이브러리로 requests와 BeautifulSoup을 별도 설치가 필요하다.

이렇게 3개의 라이브러리가 있다면, 내가 원하는 웹상의 정보를 가져와서 사용할 수 있다.

(HTML에 대한 이해도 있다면 쉽게 크롤러를 만들 수 있다.)

웹 상의 html 소스를 가져오기 위한 것
http 요청(request)을 조금 더 편하게 할 수 있는 기능이 들어 있는 패키지
내가 원하는 URL의 정보를 가져올 수 있도록 하는 패키지 라이브러리
설치 : file > settings > Project:bitcameTest >Project Interpreter(설치된 모듈)> +누르면 추가 가능>원하는 모듈 선택 후 > Install Package > successfully 뜨면 끄기

BeautifulSoup4

파이썬 크롤링, BeautifulSoup으로 정보 가져오기 (0)	2019.05.09
파이썬 크롤링, re로 특정 정보 선택하기(간단한 정규표현식) (1)	2019.05.09
파이썬 크롤링, requests로 네이버 웹 정보 가져오기 (0)	2019.05.09
파이썬 크롤링 기본, 정규표현식이란? (0)	2019.05.09
파이썬 크롤링, 웹사이트 정보 가져오기 (0)	2019.05.09

개발개발 공부로그