크롤링, Crawling
- 크롤링은 스크래이핑이라고도 하는데, 웹상의 정보를 스크랩하듯이 그대로 가져와서 내가 원하는 형태로 가공하는 것을 이야기 한다.
- 크롤링하는 소프트웨어를 크롤러라고 한다.
- 일반적으로 파이썬이라는 언어를 활용하여 크롤러를 많이 만든다. 그 이유는 웹 상의 정보를 가져 올 수 있는 다양한 라이브러리가 있고, 웹상의 가져온 정보를 전처리 하는 것이 유용하기 때문이다. 웹 상의 정보를 가져오는 것은 생각보다 어렵지 않다. 처음에 몇번만 해보면 쉽게 가져올 수 있다.
- 하지만, 어려운 것은! 가져온 정보 중 내가 원하는 데이터만 가져오는것.
- 필요없는 정보는 쓰레기와 다름없기 때문에 원하는 정보만 꼭 찝어서 가져올 수 있도록 다양한 방법을 고민해야 한다. 정규표현식을 사용하거나, HTML을 분석해서 내가 원하는 곳만 선택하는 등 고민이 필요하다.
- 주의사항, 다른 곳을 정보나 이미지 등을 손 쉽게 크롤러를 만들어서 가져올 수 있지만 저작권 등의 문제가 있을 수 있기 때문에 상업적 사용 시 관련한 주의가 필요하다. 하지만 크롤러를 사용하면 손으로 하나하나 ctrl+c & ctrl+V를 하던 일을 쉽고 빠르게 처리할 수 있다.
크롤러 만들기 준비사항
- 크롤러 만들기 위해서는 기본적으로 파이썬과 파이참을 설치하는 것을 추천한다.
- 파이썬은 크롤러를 만드는 기본 언어이고, 파이참은 파이썬을 쉽게 사용할 수 있도록 해주는 개발 툴이다.
- 기본적인 파이썬 언어를 배우고, 파이참까지 설치 되어 있다면 크롤러를 만들 수 있는 기초 공사는 된 것이다.
- 설치 방법은 아래 링크에서 참고.
[Python basic] - 파이썬 시작 세팅 1 : python 다운로드 및 설치
[Python basic] - 파이썬 시작 세팅 2 : 파이참 pychrm 무료버전 설치
반응형
'Python > Python Crawling' 카테고리의 다른 글
파이썬 크롤링, BeautifulSoup으로 정보 가져오기 (0) | 2019.05.09 |
---|---|
파이썬 크롤링, re로 특정 정보 선택하기(간단한 정규표현식) (1) | 2019.05.09 |
파이썬 크롤링, requests로 네이버 웹 정보 가져오기 (0) | 2019.05.09 |
파이썬 크롤링 기본, 정규표현식이란? (0) | 2019.05.09 |
파이썬 크롤링 기본, requests와 re & BeautifulSoup 개념 및 설치 (0) | 2019.05.09 |
댓글