2016년 12월 7일 수요일

[Python] python을 통한 web crawling_기본 Library 설치


1. 개발환경

-OS  :우분투 14.04 LTS
-Language :python 2.7
-Library : BeautifulSoup, Scrapy



2. 설치

-테스팅 기능을 하는 가상환경 설치.
-beautifulsoup , scrapy 둘 중 하나를 사용하여 crawling하므로 설치.


sudo apt-get update
//패키지 업데이트

sudo apt-get install build-essential
//gcc, 라이브러리 등 개발을 위해 필요한 기본적인 패키지 설치

python
//파이썬을 사용할 수 있는 콘솔창 실행.

python -V
//파이썬 버전확인. 기본적으로 파이썬은 설치되어 있다.

sudo apt-get install python-pip
//pip라는 파이썬 패키지 매니저를 설치. 파이썬에 패키지 다운시 편리하게 다운가능.

sudo pip install virtualenv virtualenvwrapper
//파이썬 환경 가상화(캡슐화) 설치. 현재 가상환경을 다른 환경에 적용 할 때 사용.
  대부분  'virtualenv, virtualenvwrapper' 을 같이 씀.
  본 서버에 적용하기 전에 패키지들 끼리의 호환, 필요한 lib를 정리하는 등 테스트 용도.

vi .bashrc
//profile 설정파일. 가상환경 셋팅을 위해.

fi
export WORKON_HOME=$HOME/.virtualenvs
source /usr/local/bin/virtualenvwrapper.sh
//vi에서 파일의 맨 밑으로 내려가 코드를 쳐준다.
 첫째 줄은 가상환경 홈디렉토리 지정.
 둘째 줄은 env를 편리하게 사용하기 위해 wrapper명령어 사용을 위함.

source .bashrc
//profile 적용

mkvirtualenv 가상환경이름
//가상환경 만들기. path는 .bashrc 설정된 $HOME~

deactivate
//가상환경 나오기

workon 가상환경이름
//가상환경 사용

(가상환경)sudo apt-get install python-lxml
//파이썬 lxml설치

(가상환경) pip install python-lxml
//파이썬 환경에서 lxml설치

cd .virtualenvs/ 를 보면 내가 설치한 가상환경을 볼 수있다.

(가상환경)sudo apt-get install libxml2-dev libxslt-dev python-dev zlib1g-dev
//beautifulsoup,설치 전에 필요한 패키지. html가져와 분석 등.

(가상환경)pip install beautifulsoup4
//뷰티풀스왑 설치

(가상환경)sudo apt-get install libffi-dev libssl-dev
//scrapy 설치 전 필요 패키지

(가상환경)pip install Scrapy
//scrapy 설치

댓글 없음:

댓글 쓰기