티스토리 뷰

Python 으로 30분 만에 웹 스크랩퍼 만들기

오늘 Pycon Korea2014 행사에 다녀왔습니다. 피곤한터라 오후에 가서 세션을 2개정도만 들었었는데요, 그중에 제대로 들은 30분만에 웹스크랩퍼 만들기에 대해서 간단하게 정리합니다.

실제로 발표하는 도중에 따라했지만, 그당시에는 실패하고 지금 다시 성공해서 공유드립니다.

작성에 앞서 발표자분을 소개는 다음 링크로 대신합니다.

발표내용 및 발표자 소개 .

패키지 설치

pip 설치

python의 다양한 패키지를 편리하게 설치하려면 pip를 설치해야 합니다. 다음 링크에 가셔서 설치방법을 참고하여 설치하면 됩니다. 저는 맥북에서 wget을 이용하여 get-pip.py 를 받아와서 설치하였습니다.https://pip.pypa.io/en/latest/installing.html#install-pip

requests 패키지 설치

웹소스를 가져오기 위해서는 requests패키지를 설치해야 하는데요. pip 를 설치 하셨다면 아주 간단하게 설치를 할수 있습니다. https://pypi.python.org/pypi/requests
pip install requests

scrapy

css 셀렉터를 이용하여 웹의 내용을 아주 편리하게 스크패핑할 수 있도록 도와주는 도구 입니다.
pip install scrapy

소스코드 공개

아래 github 에 소스코드는 공개해 두었습니다. (아직 병렬로 받아올 수 있는 기능은 추가하지 않은 상태입니다.)

https://github.com/anyjava/SimpeWebScraper

삽질.

  1. vim 에디터의 자동으로 탭들여쓰기로 인해 에러가 발생했었음 --> 탭말고 스페이스로 꼭!!
  2. 맥북에 wget이 없어서 설치함 --> http://we.weirdmeetup.com/macwget-%EC%84%A4%EC%B9%98%ED%95%98%EA%B8%B0/


댓글
댓글쓰기 폼