본문 바로가기
Python/Python Crawling

파이썬 크롤링, requests로 네이버 웹 정보 가져오기

by 워니 wony 2019. 5. 9.

requests란?

requests는 웹상의 html 소스를 가져오기 위한 라이브러리

기본 라이브러리는 아니기 때문에 별도 설치가 필요하다. 만약 파이참을 쓰고 있다면 아래 링크 참조!

 

[Python Crawling] - 파이썬 크롤링 기본, requests와 re & BeautifulSoup 개념 및 설치

 

파이썬 크롤링 기본, requests와 re & BeautifulSoup 개념 및 설치

크롤링을 하기 위해서 설치해야 하는 것이 2개 있음 원하는 사이트의 정보를 가져오기 사용하는 requests 패키지 사이트의 모든 정보를 가져온 다음 내가 원하는 것을 추출하기 위해서 필요한 라이브러리가 re와..

developsd.tistory.com

 

 

 

네이버 HTML 소스 추출

 

자주 들어가게 되는 네이버메인. 만약 여기의 정보를 가져오고자 한다면 해당 이미지의 형태로 가져오는 것이라 웹 언어인  HTML 소스로 가져오게 된다. 그것을 가져오기 위한 파이썬 도구가 requests!

 

 

크롬 개발자 도구를 보면 사용자가 보는 화면은 HTML로 오른쪽과 같이 이루어져 있는 것을 알 수 있다. 

requests의 get 메소드를 이용하면 오른쪽의 HTML 소스 코드를 가져와서 내가 원하는 정보만 선택할 수 있다.

 

 

 

 

아래와 같이 requests를 import 하고 get() 메소드 안에 내가 HTML 코드를 가져오고자 하는 url만 넣으면 아래와 같이 소스를 가져올 수 있다. 

이렇게 가져온 정보를 print( ) 메소드로 출력하면 <Response[200]>이 나온다.

만약 글자의 형태로 가져오고 싶다면 가져온 변수명.text라고 쓰면 되고, HTML 구조의 형태로 가져오고자 한다면 변수명.content로 가져오면 된다.

 

  • requests.get(url).text          ==> 해당 url의 html 소스를 str(문자열)로 가져오는 것(re에서 사용 가능)
  •  requests.get(url).content    ==> 해당 url의 html 소스를 HTML 구조형태로 가져오는 것(BeautifulSoup 사용가능)
import requests

url = "http://www.naver.com"

html = requests.get(url)

print(html)
print(html.text)

(결과값)

 

requests를 이용하면 간단하게 HTML 소스를 가져 올 수 있다. 

위의 복잡한 HTML에서 내가 원하는 정보만 선택하는 방법인 re, BeautifulSoup은 다음 포스팅에서 소개할 예정!

반응형

댓글