본문 바로가기

파이썬10

TimeSeries Forecasting (2) 시계열 분석 데이터 Stationarity check - 파이썬으로 데이터의 계절성/주기성 파악하기 ACF, PACF 플롯 그리고 해석하기 TimeSeries Forecasting (1) 시계열 분석 데이터 Stationarity check - 파이썬으로 데이터의 계절성/주기성 파악하기 ACF, PACF 플롯 그리고 해석하기 맨땅에 헤딩하듯 시계열예측 모델을 공부하다 보니 알게된 매우 중요한 팁. 예측 모델은 가지고 있는 시계열 데이터의 통계적 특성을 확인하는 것에서 시작해야 한다는 점이다. 현재의 값이 과거의 값들과 어느정도 correlate할까? 데이터의 계절마다의 특성은 뭘까? 데이터는 주기성이 없을까? 이러한 물음에 스스로 답하기 위해서 Stationarity Check을 할 필요가 있다. 데이터의 특성에 따라 정확도가 높고 효율이 좋은 모델이 달라지기 때문이다. 이 포스팅에서는 Autocorrelation Function (ACF).. 2022. 1. 22.
Time Series Forecasting (1) Anaconda 를 통해 Jupyter Notebook 환경 만들고 fbprophet 패키지 설치하는 법 Time Series Forecasting (1) Anaconda 를 통해 Jupyter Notebook 환경 만들고 fbprophet 패키지 설치하는 법 간만에 본업 포스팅! Facebook 에서 제공하는 fbprophet time-series forecasting 패키지를 사용하려는데 pip로는 몇 시간 째 설치를 할 수 없었다. 계속 아래와 같은 에러가 나는 것이야.. Running ser.py for wheel... Running set.py for pystan... Wheel 과 pystan을 따로따로 설치해보았지만 wheel은 설치가 되는 반면 pystan은 설치되지 않음. 구글링을 좀 해보니 fbprophet은 아나콘다 프롬프트를 이용해서 설치해야한다고; 그저께 노트북 공장초기화해서 아나콘다.. 2021. 10. 2.
[파이썬을 이용한 웹크롤링] Twitter API 트위터 크롤링 데이터를 활용한 감성분석 이 프로젝트에서는 트위터의 텍스트 데이터 (Tweet) 를 이용하여 감성 분석을 하고 텍스트가 작성된 점 공간과 감성 분석의 결과를 지도에 나타내 볼 것이다. 감성 분석 (혹은 감정 분석, Sentiment Analysis) 은 주어진 이미지나 텍스트, 음성 파일 등의 자료를 바탕으로 작성자의 기분과 감정을 파악하는 분석기법이다. 감성 분석은 주로 특정 서비스나 제품을 출시한 후 사람들의 리뷰를 분석해봄으로써 대중이 제품을 어떻게 받아들이는지 쉽게 파악하기 위해 쓰인다. 예를 들어, 개봉 직후 영화를 본 시청자들의 리뷰를 분석하여 영화의 흥망을 예측할 수 있다. 아래 그림은 감성 분석의 원리를 추상화하여 나타낸 것이다. 분석 결과로 내고자 하는 데이터와 감정 카테고리의 분류가 다 되어 있는 Labeled.. 2020. 10. 11.
(Windows10) ArcPy 를 Jupyter Notebook 과 연결하기 https://gisday.wordpress.com/2016/07/18/setting-up-anaconda-pysal-with-arcgis-python-environment/ Setting up Anaconda, PySAL with ArcGIS Python environment This tutorial shows you how to set up conda environment to work with ArcGIS 10.4 and ArcGIS Pro 1.3. You can download a pdf copy of the tutorial with screenshots Download the 32-bit version of Anac… gisday.wordpress.com 오늘은 ArcGIS 에서 파이썬을 사용하.. 2020. 7. 9.
내 Conda Environment를 Jupyter Notebook 에서 사용하기 지난 게시글에서 conda environment 를 생성하고 그 안에서 geopandas 모듈을 설치해보았다. 그러나 막상 jupyter notebook 에서 이를 사용하려고 하니 그런 모듈이 없다는 에러가 뜬다. --------------------------------------------------------------------------- ModuleNotFoundError Traceback (most recent call last) in ----> 1 import geopandas as gpd ModuleNotFoundError: No module named 'geopandas' 이와 같은 에러가 발생하는 원인은 conda environment (이전 게시글에서 생성한 환경) 의 경로가 Jup.. 2020. 7. 7.
Windows 10 - Anaconda, Geopandas 8.0 설치 중 HTTP 000 connection 문제, Failed with initial frozen solve 문제 1. HTTP 000 connection failed error 에러 예시 (base) C:\Users>conda update conda Collecting package metadata (current_repodata.json): failed CondaHTTPError: HTTP 000 CONNECTION FAILED for url Elapsed: - An HTTP error occurred when trying to retrieve this URL. HTTP errors are often intermittent, and a simple retry will get you on your way. If your current network has https://www.anaconda.com blocked,.. 2020. 7. 7.
[Python] UnicodeDecodeError: 'cp949' codec can't decode byte 0x80 in position 2923: illegal multibyte sequence 아래와 같은 오류가 날 때가 있다. Encoding 문제로 화가 나서 정리해둔다. UnicodeDecodeError: 'cp949' codec can't decode byte 0x80 in position 2923: illegal multibyte sequence 우선 오류가 났던 코드 틀은 아래와 같이 간단하다. csv 파일을 읽기 시작하면서 바로 에러가 난 경우도 있고, 잘 읽다가 중간에 에러가 나기도 했다. 구글링해서 찾은 방법으로는 'r' 를 'rt' 로 바꾸어 텍스트로만 읽게 하거나, encoding = 'utf-8' 혹은 encoding = 'utf-16' 파라미터를 추가하는 것이 있었으나.. 나에게는 먹히지 않았음.. import csv ... # 기존 코드 inputFile = open('.. 2020. 3. 5.
[파이썬을 이용한 토픽모델링] step3. Gensim 과 Mallet 을 활용한 LDA 모델링 (Python) 아래 step 2 까지 성공적으로 수행했다면 자신이 분석하고 싶은 텍스트 뭉터기의 json 파일이 있을 것이다. [파이썬을 이용한 토픽모델링] : step2. 웹크롤링 툴 (Octoparse) 을 이용해 데이터 수집하기 Octoparse 가입, Standard Free Trial (14일) 등록 후 다운로드 https://www.octoparse.com/ 위 링크에서 회원가입 후 (이메일 verification 단계 있음) Free Trial 중 Standard 형식을 선택 다운로드 받은 zip.. happy-chipmunk.tistory.com 이제 본격적으로 토픽모델링을 돌려보자. 데이터 업로드 jupyter notebook 을 실행시킨 후, Upload 버튼을 눌러 토픽모델링을 할 데이터를 jupy.. 2020. 2. 19.
[파이썬을 이용한 토픽모델링] : step2. 웹크롤링 툴 (Octoparse) 을 이용해 데이터 수집하기 Octoparse 가입, Standard Free Trial (14일) 등록 후 다운로드 https://www.octoparse.com/ 위 링크에서 회원가입 후 (이메일 verification 단계 있음) Free Trial 중 Standard 형식을 선택 다운로드 받은 zip 파일을 풀고 OctoparseSetup.msi 파일을 더블클릭한다. instruction 에 따라간 후 설치가 완료되면 Octoparse 계정으로 로그인한다. 2. Task 만들기 로그인 후 나오는 첫 화면에서 Advanced Mode 의 +Task 버튼을 클릭한다. 데이터를 크롤링하고 싶은 사이트의 링크를 복사하여 Website 란에 붙여넣는다. 이 매뉴얼에서는 Web of Science 사이트에서 2016-2020년동안 발행.. 2020. 1. 29.
[파이썬을 이용한 토픽모델링] step 1. Python, Jupyter Notebook 설치 토픽 모델링 (Topic Modeling) 이란? 자연어처리 (NLP:natural language processing) 에서 대표적인 텍스트 마이닝 기법 중 하나인 토픽 모델링은, 주어진 다량의 문서에서 주제를 뽑아내는 작업이다. 대표적인 예시로, 정해진 기간동안의 소셜 미디어에서 여론이 어떻게 형성되어 있는지 확인하거나, 다량의 고객 컴플레인 메일에서 주요 문제점들을 뽑아내고 싶을 때 토픽 모델링을 사용할 수 있다. 일일히 문서를 읽고 주제를 직접 알아내는 수고를 덜어주는 유용한 모델이다. 이 매뉴얼에서는 Latent Dirichlet Allocation (LDA) 라는 아주 대표적인 모델을 활용하여 2000년부터 2020년까지의 ‘재난’ 관련 영어 논문들의 연구주제 동향을 감지하고 분석 결과를 HT.. 2020. 1. 29.
반응형