텍스트마이닝8 [파이썬을 이용한 토픽모델링] : step2. 웹크롤링 툴 (Octoparse) 을 이용해 데이터 수집하기 Octoparse 가입, Standard Free Trial (14일) 등록 후 다운로드 https://www.octoparse.com/ 위 링크에서 회원가입 후 (이메일 verification 단계 있음) Free Trial 중 Standard 형식을 선택 다운로드 받은 zip 파일을 풀고 OctoparseSetup.msi 파일을 더블클릭한다. instruction 에 따라간 후 설치가 완료되면 Octoparse 계정으로 로그인한다. 2. Task 만들기 로그인 후 나오는 첫 화면에서 Advanced Mode 의 +Task 버튼을 클릭한다. 데이터를 크롤링하고 싶은 사이트의 링크를 복사하여 Website 란에 붙여넣는다. 이 매뉴얼에서는 Web of Science 사이트에서 2016-2020년동안 발행.. 2020. 1. 29. [파이썬을 이용한 토픽모델링] step 1. Python, Jupyter Notebook 설치 토픽 모델링 (Topic Modeling) 이란? 자연어처리 (NLP:natural language processing) 에서 대표적인 텍스트 마이닝 기법 중 하나인 토픽 모델링은, 주어진 다량의 문서에서 주제를 뽑아내는 작업이다. 대표적인 예시로, 정해진 기간동안의 소셜 미디어에서 여론이 어떻게 형성되어 있는지 확인하거나, 다량의 고객 컴플레인 메일에서 주요 문제점들을 뽑아내고 싶을 때 토픽 모델링을 사용할 수 있다. 일일히 문서를 읽고 주제를 직접 알아내는 수고를 덜어주는 유용한 모델이다. 이 매뉴얼에서는 Latent Dirichlet Allocation (LDA) 라는 아주 대표적인 모델을 활용하여 2000년부터 2020년까지의 ‘재난’ 관련 영어 논문들의 연구주제 동향을 감지하고 분석 결과를 HT.. 2020. 1. 29. 이전 1 2 다음