본문 바로가기
Python/Python Crawling

파이썬 크롤링, 웹사이트 정보 가져오기

by 워니 wony 2019. 5. 9.

크롤링, Crawling

  • 크롤링은 스크래이핑이라고도 하는데, 웹상의 정보를 스크랩하듯이 그대로 가져와서 내가 원하는 형태로 가공하는 것을 이야기 한다.
  • 크롤링하는 소프트웨어를 크롤러라고 한다.
  • 일반적으로 파이썬이라는 언어를 활용하여 크롤러를 많이 만든다. 그 이유는 웹 상의 정보를 가져 올 수 있는 다양한 라이브러리가 있고, 웹상의 가져온 정보를 전처리 하는 것이 유용하기 때문이다. 웹 상의 정보를 가져오는 것은 생각보다 어렵지 않다. 처음에 몇번만 해보면 쉽게 가져올 수 있다. 
  • 하지만, 어려운 것은! 가져온 정보 중 내가 원하는 데이터만 가져오는것. 
  • 필요없는 정보는 쓰레기와 다름없기 때문에 원하는 정보만 꼭 찝어서 가져올 수 있도록 다양한 방법을 고민해야 한다. 정규표현식을 사용하거나,  HTML을 분석해서 내가 원하는 곳만 선택하는 등 고민이 필요하다.
  • 주의사항, 다른 곳을 정보나 이미지 등을 손 쉽게 크롤러를 만들어서 가져올 수 있지만 저작권 등의 문제가 있을 수 있기 때문에 상업적 사용 시 관련한 주의가 필요하다. 하지만 크롤러를 사용하면 손으로 하나하나 ctrl+c & ctrl+V를 하던 일을 쉽고 빠르게 처리할 수 있다.

 

크롤러 만들기 준비사항

  • 크롤러 만들기 위해서는 기본적으로 파이썬과 파이참을 설치하는 것을 추천한다.
  • 파이썬은 크롤러를 만드는 기본 언어이고, 파이참은 파이썬을 쉽게 사용할 수 있도록 해주는 개발 툴이다.
  • 기본적인 파이썬 언어를 배우고, 파이참까지 설치 되어 있다면 크롤러를 만들 수 있는 기초 공사는 된 것이다.
  • 설치 방법은 아래 링크에서 참고.

[Python basic] - 파이썬 시작 세팅 1 : python 다운로드 및 설치

불러오는 중입니다...

[Python basic] - 파이썬 시작 세팅 2 : 파이참 pychrm 무료버전 설치

 

파이썬 시작 세팅 2 : 파이참 pychrm 무료버전 설치

파이참 설치 전 파이썬 부터 설치하기! 혹시 설치 안 했다면! 아래 포스팅부터 보고 오세요. 2018/11/20 - [python] - 파이썬 시작 세팅 1 : python 다운로드 및 설치 파이썬 설치 완료 했다면 파이썬을 더 쉽게..

developsd.tistory.com

 

반응형

댓글