본문 바로가기
Study (etc)/Python

[Python3 / Mac ] 웹 크롤링을 위한 준비 - pip, requests, beautifulsoup4 설치

by Haren 2019. 5. 20.

학교 수업 중 도표 혹은 그래프를 이용한 자료를 만들어 발표하는 과제를 받았습니다.


뭔가 참신한 것을 해볼 수는 없을까? 싶은 마음에 이것저것 알아보게 되었고, 


파이썬을 이용하여 대표적인 언론사의 각 분야별 기사에서 특정 키워드들을 크롤링하여 워드 클라우드를 만들고, 그것과 기존 도표, 그래프와의 차별점을 발표하기로 하였습니다.


그리하여 파이썬을 통한 웹 크롤링의 준비를 해보려고 합니다.


작업 환경 : macOS - GCC 컴파일러가 이미 설치되어 있음을 전제



1. Homebrew 설치하기


Homebrew는 애플의 mac에서의 소프트웨어 설치를 편리하게 만들어주는 패키지 관리 시스템입니다.


자세한 것은 Homebrew 홈페이지 : https://brew.sh/index_ko 에서 확인하실 수 있습니다.


먼저 터미널에 다음 명령어를 입력하여 Homebrew를 설치해줍시다.


/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"


설치 중간에 password를 입력받게 되는데, mac의 비밀번호를 입력해주시면 됩니다.


설치가 되었는지 안 되었는지는 다음 명령어를 통해 확인할 수 있습니다.


cd /usr/local/bin

$ ls

그런 다음 다음의 커맨드를 입력하여 Homebrew를 업데이트 해주겠습니다.


$ brew update


이제 Homebrew 설치는 모두 끝났습니다.

다음으로 크롤링에 필요한 것들을 설치해보도록 하겠습니다.



2. pip 설치하기


pip는 파이썬으로 작성된 패키지 소프트웨어를 설치 및 관리할 수 있는 시스템입니다.


먼저 아래의 커맨드를 입력하여 get-pip.py를 다운로드 합니다.


$ curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py


그 다음 아래의 커맨드를 순서대로 입력하여 pip를 설치해줍니다.


$ sudo python3 get-pip.py

$ sudo easy_install pip


아래의 명령어로 pip의 설치여부를 확인할 수 있습니다.


pip


3. requests, beautifulsoup4 설치


이제 파이썬 모듈 requests와 beautifulsoup4를 설치해보도록 하겠습니다. 


requestrs는 HTTP 요청 처리를 도와주는 모듈입니다. 


터미널에 다음과 같은 커맨드를 입력하여 requests 모듈을 설치합니다.


$ pip install requests


다음으로 beautifulsoup4를 설치해보도록 하겠습니다.


beautifulsoup4는 HTML과 XML 파일에서 데이터를 읽어내주는 라이브러리입니다. 크롤링에 필요하다고 할 수 있죠.


다음 커맨드를 터미널에 입력하여 beautifulsoup4를 설치해줍니다.


$ pip install beautifulsoup4






설치가 완료되었다면 파이썬으로 웹 크롤링을 할 준비가 대략적으로 끝났다고 보시면 됩니다.


오늘 포스팅이 파이썬 라이브러리 모듈을 설치하시려는 분들께 도움이 되었으면 좋겠습니다.


다음에는 간단하게 웹페이지를 크롤링 하는 방법에 대해 다뤄보도록 하겠습니다.


읽어주셔서 감사합니다.

'Study (etc) > Python' 카테고리의 다른 글

[JetBrains] 파이참 학생 라이선스  (0) 2019.03.06