사실 이 프로젝트를 구현한지는 꽤 오랜 시간이 지났다.
그동안 시험기간이다 뭐다 바빠서 포스팅이 좀 미루어졌고, 이제서야 작성하게 되었다.
학교 교양수업 과제 중에 발표과제가 하나 있었고, 그 발표과제의 주제는 '도표 혹은 그래프를 이용한 통계 자료가 첨부된 ppt로 발표' 였다.
즉, 통계 자료가 첨부되었다면 어떤 주제든 상관이 없다는 것이었다.
나는 전공을 살린 통계자료를 만들어보면 어떨까 하는 마음에, 통계청에서 구해도 되는 자료를 서울 열린데이터광장에서 제공하는 공공 API를 파싱해서 나만의 통계자료를 만들어보기로 했다.
그렇게 결정된 주제는, 수도권 지하철의 역 별 승하차 인원 API를 파싱해서 승차 인원 수가 많은 역을 워드 클라우드로 만드는 것.
워드 클라우드(Word Cloud)란?
출처 : https://www.datacamp.com/community/tutorials/wordcloud-python
출처 : https://www.datacamp.com/community/tutorials/wordcloud-python
위 사진과 같이 단어들로 이루어진 구름 모양의 이미지를 접한 적이 많을 것이다.
워드 클라우드는 말 그대로 단어 구름이다. 사용 빈도가 높은 단어를 크게, 비중있게 구성하고, 그렇지 않은 단어를 작게 구성하여 어떤 단어가 핵심인지를 확실히 인식할 수 있게 해주는 자료라고 할 수 있다.
Python에서는 Word Cloud 모듈, 라이브러리를 제공하기 때문에 손쉽게 워드 클라우드를 구현할 수 있다.
무엇을 워드 클라우드로 구현하지?
앞에서도 말했다시피 서울 열린데이터광장에서 제공하는 수도권 지하철의 역 별 승하차 인원 API를 파싱하여 승차 인원이 많은 역을 중심으로 워드 클라우드로 구현하고자 했다. 왜 하필 승차 인원만 쓰냐... 하면 할 말이 없다. 귀차니즘이 한 몫 해주었다. 승차 인원을 빈도(frequency)로 전달하여 승차 인원이 큰 역을 비중있게 구성하고자 한다.
어떻게 데이터를 얻어오지?
Python의 requests, Beautifulsoup4 모듈 / 라이브러리를 사용하여 파싱을 해 올 계획이었다.
상기 모듈 / 라이브러리를 다룬 본인의 포스팅은 이곳을 참고하시면 될 것 같다.
2019/05/20 - [Study/Python] - [Python3 / Mac ] 웹 크롤링을 위한 준비 - pip, requests, beautifulsoup4 설치
개요는 여기서 마치도록 하겠다.
이미 구현된 프로젝트이기 때문에, 어느 부분에서 어떤 고민을 하며 구현했고, 어느 부분이 인상깊었으며, 어느 부분이 어려웠는지 등등 다양한 감상을 자세히 적어 완성도 있는 프로젝트 리포트가 되도록 노력해야겠다.