파이썬10 [Python] UnicodeDecodeError: 'cp949' codec can't decode byte 0x80 in position 2923: illegal multibyte sequence 아래와 같은 오류가 날 때가 있다. Encoding 문제로 화가 나서 정리해둔다. UnicodeDecodeError: 'cp949' codec can't decode byte 0x80 in position 2923: illegal multibyte sequence 우선 오류가 났던 코드 틀은 아래와 같이 간단하다. csv 파일을 읽기 시작하면서 바로 에러가 난 경우도 있고, 잘 읽다가 중간에 에러가 나기도 했다. 구글링해서 찾은 방법으로는 'r' 를 'rt' 로 바꾸어 텍스트로만 읽게 하거나, encoding = 'utf-8' 혹은 encoding = 'utf-16' 파라미터를 추가하는 것이 있었으나.. 나에게는 먹히지 않았음.. import csv ... # 기존 코드 inputFile = open('.. 2020. 3. 5. [파이썬을 이용한 토픽모델링] step3. Gensim 과 Mallet 을 활용한 LDA 모델링 (Python) 아래 step 2 까지 성공적으로 수행했다면 자신이 분석하고 싶은 텍스트 뭉터기의 json 파일이 있을 것이다. [파이썬을 이용한 토픽모델링] : step2. 웹크롤링 툴 (Octoparse) 을 이용해 데이터 수집하기 Octoparse 가입, Standard Free Trial (14일) 등록 후 다운로드 https://www.octoparse.com/ 위 링크에서 회원가입 후 (이메일 verification 단계 있음) Free Trial 중 Standard 형식을 선택 다운로드 받은 zip.. happy-chipmunk.tistory.com 이제 본격적으로 토픽모델링을 돌려보자. 데이터 업로드 jupyter notebook 을 실행시킨 후, Upload 버튼을 눌러 토픽모델링을 할 데이터를 jupy.. 2020. 2. 19. [파이썬을 이용한 토픽모델링] : step2. 웹크롤링 툴 (Octoparse) 을 이용해 데이터 수집하기 Octoparse 가입, Standard Free Trial (14일) 등록 후 다운로드 https://www.octoparse.com/ 위 링크에서 회원가입 후 (이메일 verification 단계 있음) Free Trial 중 Standard 형식을 선택 다운로드 받은 zip 파일을 풀고 OctoparseSetup.msi 파일을 더블클릭한다. instruction 에 따라간 후 설치가 완료되면 Octoparse 계정으로 로그인한다. 2. Task 만들기 로그인 후 나오는 첫 화면에서 Advanced Mode 의 +Task 버튼을 클릭한다. 데이터를 크롤링하고 싶은 사이트의 링크를 복사하여 Website 란에 붙여넣는다. 이 매뉴얼에서는 Web of Science 사이트에서 2016-2020년동안 발행.. 2020. 1. 29. [파이썬을 이용한 토픽모델링] step 1. Python, Jupyter Notebook 설치 토픽 모델링 (Topic Modeling) 이란? 자연어처리 (NLP:natural language processing) 에서 대표적인 텍스트 마이닝 기법 중 하나인 토픽 모델링은, 주어진 다량의 문서에서 주제를 뽑아내는 작업이다. 대표적인 예시로, 정해진 기간동안의 소셜 미디어에서 여론이 어떻게 형성되어 있는지 확인하거나, 다량의 고객 컴플레인 메일에서 주요 문제점들을 뽑아내고 싶을 때 토픽 모델링을 사용할 수 있다. 일일히 문서를 읽고 주제를 직접 알아내는 수고를 덜어주는 유용한 모델이다. 이 매뉴얼에서는 Latent Dirichlet Allocation (LDA) 라는 아주 대표적인 모델을 활용하여 2000년부터 2020년까지의 ‘재난’ 관련 영어 논문들의 연구주제 동향을 감지하고 분석 결과를 HT.. 2020. 1. 29. 이전 1 2 다음