2016년 12월 12일 월요일

[Python] python을 통한 web crawling_Beautifulsoup VS Scrapy

Beautifulsoup
-HTML문서에서 정보를 가져올 수 있는 Navigating이 잘 되어있다.
-자동으로 UTF-8로 출력한다.
-lxml, html5lib파서를 이용한다.
-http://www.crummy.com/software/BeautifulSoup/bs4/doc

Scarpy
-web scraper framework
-다양한 selector 지원
-파이프 라인
-로깅
-이메일
-http://doc.scrapy.org/en/0.24/intro/tutorial.html


scrapy startprogect tutorial(프로젝트이름) //프로젝트 만듬
-items.py : 데이터를 들고 올때 클레스형태로 만들어 줌
-pipelines.py : 데이터 후 처리를 위한 행동들 db입력,
-setings : pipe라인 순서 등 다양한 설정들을 정함
-spiders : 스크랩할 내용들을 프로그래밍 하는 곳.

댓글 없음:

댓글 쓰기