requests란?
requests는 웹상의 html 소스를 가져오기 위한 라이브러리
기본 라이브러리는 아니기 때문에 별도 설치가 필요하다. 만약 파이참을 쓰고 있다면 아래 링크 참조!
[Python Crawling] - 파이썬 크롤링 기본, requests와 re & BeautifulSoup 개념 및 설치
네이버 HTML 소스 추출
자주 들어가게 되는 네이버메인. 만약 여기의 정보를 가져오고자 한다면 해당 이미지의 형태로 가져오는 것이라 웹 언어인 HTML 소스로 가져오게 된다. 그것을 가져오기 위한 파이썬 도구가 requests!
크롬 개발자 도구를 보면 사용자가 보는 화면은 HTML로 오른쪽과 같이 이루어져 있는 것을 알 수 있다.
requests의 get 메소드를 이용하면 오른쪽의 HTML 소스 코드를 가져와서 내가 원하는 정보만 선택할 수 있다.
아래와 같이 requests를 import 하고 get() 메소드 안에 내가 HTML 코드를 가져오고자 하는 url만 넣으면 아래와 같이 소스를 가져올 수 있다.
이렇게 가져온 정보를 print( ) 메소드로 출력하면 <Response[200]>이 나온다.
만약 글자의 형태로 가져오고 싶다면 가져온 변수명.text라고 쓰면 되고, HTML 구조의 형태로 가져오고자 한다면 변수명.content로 가져오면 된다.
- requests.get(url).text ==> 해당 url의 html 소스를 str(문자열)로 가져오는 것(re에서 사용 가능)
- requests.get(url).content ==> 해당 url의 html 소스를 HTML 구조형태로 가져오는 것(BeautifulSoup 사용가능)
import requests
url = "http://www.naver.com"
html = requests.get(url)
print(html)
print(html.text)
(결과값)
requests를 이용하면 간단하게 HTML 소스를 가져 올 수 있다.
위의 복잡한 HTML에서 내가 원하는 정보만 선택하는 방법인 re, BeautifulSoup은 다음 포스팅에서 소개할 예정!
'Python > Python Crawling' 카테고리의 다른 글
파이썬 크롤링, BeautifulSoup으로 정보 가져오기 (0) | 2019.05.09 |
---|---|
파이썬 크롤링, re로 특정 정보 선택하기(간단한 정규표현식) (1) | 2019.05.09 |
파이썬 크롤링 기본, 정규표현식이란? (0) | 2019.05.09 |
파이썬 크롤링 기본, requests와 re & BeautifulSoup 개념 및 설치 (0) | 2019.05.09 |
파이썬 크롤링, 웹사이트 정보 가져오기 (0) | 2019.05.09 |
댓글