본문 바로가기
컴퓨터 COMPUTER/Urban Data Analytics 데이터분석

[파이썬을 이용한 토픽모델링] step 1. Python, Jupyter Notebook 설치

by 매실이 maesiri 2020. 1. 29.

토픽 모델링 (Topic Modeling) 이란?

 

자연어처리 (NLP:natural language processing) 에서 대표적인 텍스트 마이닝 기법 중 하나인 토픽 모델링은, 주어진 다량의 문서에서 주제를 뽑아내는 작업이다. 대표적인 예시로, 정해진 기간동안의 소셜 미디어에서 여론이 어떻게 형성되어 있는지 확인하거나, 다량의 고객 컴플레인 메일에서 주요 문제점들을 뽑아내고 싶을 때 토픽 모델링을 사용할 수 있다. 일일히 문서를 읽고 주제를 직접 알아내는 수고를 덜어주는 유용한 모델이다. 

 

이 매뉴얼에서는 Latent Dirichlet Allocation (LDA) 라는 아주 대표적인 모델을 활용하여 2000년부터 2020년까지의 ‘재난’ 관련 영어 논문들의 연구주제 동향을 감지하고 분석 결과를 HTML 파일로 출력하여 데이터를 다양하게 시각화하는 단계까지 진행해본다. 

 

*더 구체적인 개념이해가 필요하다면:

https://wikidocs.net/30708 → 구체적인 모델설명

https://lettier.com/projects/lda-topic-modeling → 토픽 모델링 시뮬레이션

 

 

준비사항 

 

  1. Python 설치 

참고로 내 파이썬  version : Python 3.7.3

 

1-1. python 설치

(http://www.python.org/downloads)에서 윈도우용 파이썬 언어 패키지를 다운로드한다. Install Now 를 누르기 전에 Add Python3.7 to PATH 를 꼭 클릭한다.



1-2. pip 설치 

 

pip란?

python 개발자에게 오픈 패키지를 제공하는 PyPI (python package index) 에서 패키지를 다운로드 받을 수 있는 툴이다.

 

  1. 명령프롬프트에서 우선 pip 설치가 전에 된 적 있는지 확인해보자 .아래 커맨드를 입력한 후 엔터를 치면 pip 버전이 나오거나 설치되어있지 않다고 출력될 것이다. (아래 예시 이미지는 pip 설치가 완료되었을 경우)

>pip --version

설치가 안되어있다고 뜬다면, 명령 프롬프트에서 다음 커맨드를 한줄씩 차례로 작성한다. 

아래 링크를 클릭하여 get-pip.py 를 다운로드 받은 후, 더블클릭하여 실행. (링크가 안되면 구글에 get-pip 다운로드 검색 후 직접 다운로드)

https://pinocc.tistory.com/attachment/cfile4.uf@998CD6425BAA536552BA12.py

그 후 프롬프트 창에서 아래 커맨드를 입력하여 업그레이드

 

>pip install -U pip

 

 Python Editor(Atom, Sublime text 등 Python 편집 가능한 툴 아무거나 무관) 혹은 Jupyter Notebook 설치. 이 매뉴얼에서는 Jupyter 를 사용한다.

→ Data Visualization 에 용이한 Jupyter Notebook 권장!!!

Jupyter Notebook : Jupyter Notebook is a web application that allows you to create and share documents that contain: live code (e.g. Python code) visualizations.

 

2-1. Jupyter Notebook 설치법

  1. 명령 프롬프트 창을 열고, pip 를 이용해 jupyter 를 설치

C:\Users\{유저명}>pip install jupyter

C:\Users\{유저명}> ipython profile create

 

 

위 두 커맨드를 입력하고 나면, C:\Users\{유저명}\.ipython\profile_default 에 profile 이 생성된다. 해당 폴더를 열어 ipython_config.py 를 메모장으로 연다. 

 

그 중 아래 두 줄을 찾아서 각각 ‘’ 안에 inline 을 적고 앞에 #을 지워 그 줄이 활성화되도록 한다. 

 

c.InteractiveShellApp.matplotlib = ‘inline’ 

c.InteractiveShellApp.pylab = ‘inline’ 

 

 

C:\Users\{유저명} 위치에 작업 폴더를 하나 만든다. ex) myworks 

 

폴더가 만들어졌으면 다시 명령프롬프트 창으로 가서 아래 커맨드를 입력하여 myworks 폴더로 진입한다. 

 

C:\Users\user> cd myworks

 

그럼 C:\Users\user\myworks> 로  앞이 바뀐 것이 보일 것이다. 성공적으로 myworks 폴더에 진입한 것이다. 여기에서 아래 커맨드를 입력하여 jupyter를 실행시켜보자. 그럼 순간 브라우저가 열리며 아래와 같이 화면이 뜰 것이다. 

C:\Users\user\myworks> jupyter notebook

 

 

명령프롬프트 창을 끄지 않도록 주의하자!

준비가 완료되었다면 본격적으로 데이터를 수집하고 모델에 적용시켜보겠다.

 

반응형