토픽 모델링 (Topic Modeling) 이란?
자연어처리 (NLP:natural language processing) 에서 대표적인 텍스트 마이닝 기법 중 하나인 토픽 모델링은, 주어진 다량의 문서에서 주제를 뽑아내는 작업이다. 대표적인 예시로, 정해진 기간동안의 소셜 미디어에서 여론이 어떻게 형성되어 있는지 확인하거나, 다량의 고객 컴플레인 메일에서 주요 문제점들을 뽑아내고 싶을 때 토픽 모델링을 사용할 수 있다. 일일히 문서를 읽고 주제를 직접 알아내는 수고를 덜어주는 유용한 모델이다.
이 매뉴얼에서는 Latent Dirichlet Allocation (LDA) 라는 아주 대표적인 모델을 활용하여 2000년부터 2020년까지의 ‘재난’ 관련 영어 논문들의 연구주제 동향을 감지하고 분석 결과를 HTML 파일로 출력하여 데이터를 다양하게 시각화하는 단계까지 진행해본다.
*더 구체적인 개념이해가 필요하다면:
https://wikidocs.net/30708 → 구체적인 모델설명
https://lettier.com/projects/lda-topic-modeling → 토픽 모델링 시뮬레이션
준비사항
-
Python 설치
참고로 내 파이썬 version : Python 3.7.3
1-1. python 설치
(http://www.python.org/downloads)에서 윈도우용 파이썬 언어 패키지를 다운로드한다. Install Now 를 누르기 전에 Add Python3.7 to PATH 를 꼭 클릭한다.
1-2. pip 설치
pip란?
python 개발자에게 오픈 패키지를 제공하는 PyPI (python package index) 에서 패키지를 다운로드 받을 수 있는 툴이다.
-
명령프롬프트에서 우선 pip 설치가 전에 된 적 있는지 확인해보자 .아래 커맨드를 입력한 후 엔터를 치면 pip 버전이 나오거나 설치되어있지 않다고 출력될 것이다. (아래 예시 이미지는 pip 설치가 완료되었을 경우)
>pip --version |
설치가 안되어있다고 뜬다면, 명령 프롬프트에서 다음 커맨드를 한줄씩 차례로 작성한다.
아래 링크를 클릭하여 get-pip.py 를 다운로드 받은 후, 더블클릭하여 실행. (링크가 안되면 구글에 get-pip 다운로드 검색 후 직접 다운로드)
https://pinocc.tistory.com/attachment/cfile4.uf@998CD6425BAA536552BA12.py
그 후 프롬프트 창에서 아래 커맨드를 입력하여 업그레이드
>pip install -U pip |
Python Editor(Atom, Sublime text 등 Python 편집 가능한 툴 아무거나 무관) 혹은 Jupyter Notebook 설치. 이 매뉴얼에서는 Jupyter 를 사용한다.
→ Data Visualization 에 용이한 Jupyter Notebook 권장!!!
Jupyter Notebook : Jupyter Notebook is a web application that allows you to create and share documents that contain: live code (e.g. Python code) visualizations.
2-1. Jupyter Notebook 설치법
-
명령 프롬프트 창을 열고, pip 를 이용해 jupyter 를 설치
C:\Users\{유저명}>pip install jupyter C:\Users\{유저명}> ipython profile create |
위 두 커맨드를 입력하고 나면, C:\Users\{유저명}\.ipython\profile_default 에 profile 이 생성된다. 해당 폴더를 열어 ipython_config.py 를 메모장으로 연다.
그 중 아래 두 줄을 찾아서 각각 ‘’ 안에 inline 을 적고 앞에 #을 지워 그 줄이 활성화되도록 한다.
c.InteractiveShellApp.matplotlib = ‘inline’
c.InteractiveShellApp.pylab = ‘inline’
C:\Users\{유저명} 위치에 작업 폴더를 하나 만든다. ex) myworks
폴더가 만들어졌으면 다시 명령프롬프트 창으로 가서 아래 커맨드를 입력하여 myworks 폴더로 진입한다.
C:\Users\user> cd myworks |
그럼 C:\Users\user\myworks> 로 앞이 바뀐 것이 보일 것이다. 성공적으로 myworks 폴더에 진입한 것이다. 여기에서 아래 커맨드를 입력하여 jupyter를 실행시켜보자. 그럼 순간 브라우저가 열리며 아래와 같이 화면이 뜰 것이다.
C:\Users\user\myworks> jupyter notebook |
명령프롬프트 창을 끄지 않도록 주의하자!
준비가 완료되었다면 본격적으로 데이터를 수집하고 모델에 적용시켜보겠다.
'컴퓨터 COMPUTER > Urban Data Analytics 데이터분석' 카테고리의 다른 글
(Windows10) ArcPy 를 Jupyter Notebook 과 연결하기 (0) | 2020.07.09 |
---|---|
내 Conda Environment를 Jupyter Notebook 에서 사용하기 (0) | 2020.07.07 |
Windows 10 - Anaconda, Geopandas 8.0 설치 중 HTTP 000 connection 문제, Failed with initial frozen solve 문제 (0) | 2020.07.07 |
[파이썬을 이용한 토픽모델링] step3. Gensim 과 Mallet 을 활용한 LDA 모델링 (Python) (1) | 2020.02.19 |
[파이썬을 이용한 토픽모델링] : step2. 웹크롤링 툴 (Octoparse) 을 이용해 데이터 수집하기 (1) | 2020.01.29 |