프로그래밍6 TimeSeries Forecasting (2) 시계열 분석 데이터 Stationarity check - 파이썬으로 데이터의 계절성/주기성 파악하기 ACF, PACF 플롯 그리고 해석하기 TimeSeries Forecasting (1) 시계열 분석 데이터 Stationarity check - 파이썬으로 데이터의 계절성/주기성 파악하기 ACF, PACF 플롯 그리고 해석하기 맨땅에 헤딩하듯 시계열예측 모델을 공부하다 보니 알게된 매우 중요한 팁. 예측 모델은 가지고 있는 시계열 데이터의 통계적 특성을 확인하는 것에서 시작해야 한다는 점이다. 현재의 값이 과거의 값들과 어느정도 correlate할까? 데이터의 계절마다의 특성은 뭘까? 데이터는 주기성이 없을까? 이러한 물음에 스스로 답하기 위해서 Stationarity Check을 할 필요가 있다. 데이터의 특성에 따라 정확도가 높고 효율이 좋은 모델이 달라지기 때문이다. 이 포스팅에서는 Autocorrelation Function (ACF).. 2022. 1. 22. [R] Tidycensus를 이용해 미국 통계자료 불러오기 - 미국 Census 사용법 [R] Tidycensus를 이용해 미국 통계자료 불러오기 - 미국 Census 자료 사용법 미국에서 도시계획을 공부하다보면 미국의 통계청이라고 볼 수 있는 U.S. Census Bureau 에서 자료를 다운로드 받아 활용해야 하는 경우가 많이 생긴다. Census 홈페이지에서 원하는 파일형식으로 직접 다운로드 받을 수도 있지만 R을 사용해서 개발환경 내에서 다운로드 받을 수도 있다. 그 과정에서 유용하게 쓰일 tidycensus 라이브러리에 대해 간략하게 정리하려고 한다. (작년에 R 조교를 하면서 공부했던 자료를 참고하여 정리했다. UIUC MUP UP494 Data Science for Planners) 라이브러리를 다운로드 받기 전에 먼저 준비해야 할 것은 아래 4가지! 1. 센서스 API 키 -.. 2021. 1. 20. [R 기초] Loop Function: lapply, sapply, tapply [R 기초] Loop Function: lapply, sapply, tapply 구분 1. lapply 두가지 argument가 필요하다. List x와 list x 에 적용할 function y. lapply를 이용하면 list x 에 있는 요소에 function y 를 한번에 적용할 수 있다. input의 자료형에 관계없이 무조건 list를 반환한다. 예를 들어, 아래와 같은 리스트 a 에 들어있는 리스트 요소들에게 한번에 mean/max 등의 함수를 적용할 수 있다. x s s a b c 2.5 7.8 10.5 > class(s) [1] "numeric" 3. tapply tapply는 vector의 subset들에 한번에 function 을 적용한다. 그래서 lapply, sapply보다 하나의 .. 2021. 1. 20. [R 기초] 기초 연산자와 데이터 타입/자료형의 종류 R 기초 연산자와 데이터 타입/자료형의 종류 지난 학기 R조교를 하며 배운 R 기초 연산자와 자료형에 대해 정리해보았습니다. 파이썬이나 자바, C언어와 비슷하면서도 factor의 사용 같이 조금 생소한 부분도 있었습니다. ㅠ 처음 접하시는 분들에게는 한번 쭉 따라해보는 것이 기초 데이터 타입의 이해에 큰 도움이 되리라 생각합니다. (자료형은 데이터타입을 직역한 것으로 한국어로는 자료형이라고도 많이 말해요!) 1. 기초 연산자 (+ - * / ) 1. 기초 연산자 (+ - * / ) 각 데이터 타입의 특징을 알기 위해서는 기초 연산자에 대한 이해가 선행되어야 합니다. 콘솔에 아래 코드를 한 줄씩 입력해보면 기초 연산자가 어떤 역할을 하는지 바로 알 수 있는데, 아래 예시로 +-*/ 는 각각 덧셈, 뺄셈, .. 2020. 12. 26. [R기초] R 설치, Rstudio 설치하기 Windows 10 Rstudio는 R 사용을 용이하게 하는 오픈소스 IDE (Integrated Development Environment)이다. 사용을 위해서는 먼저 R을 설치한 후, Rstudio를 설치해야 한다. 이 매뉴얼은 Windows, R 4.0.2 버전을 기준으로 작성하였다. 1) R 설치하기 1. https://cran.r-project.org/ 접속 2. Download R for Windows 클릭 3. Install R for the first time 클릭 4. Download R 4.0.2 for Windows 클릭 5. 다운받은 파일을 더블클릭해서 설치를 시작하고, 설정은 모두 default로 한 뒤 마친다. 2) Rstudio 설치하기 * R을 설치하면 R과 Rstudio를 모두 사용할 수 있지.. 2020. 10. 21. [파이썬을 이용한 토픽모델링] step3. Gensim 과 Mallet 을 활용한 LDA 모델링 (Python) 아래 step 2 까지 성공적으로 수행했다면 자신이 분석하고 싶은 텍스트 뭉터기의 json 파일이 있을 것이다. [파이썬을 이용한 토픽모델링] : step2. 웹크롤링 툴 (Octoparse) 을 이용해 데이터 수집하기 Octoparse 가입, Standard Free Trial (14일) 등록 후 다운로드 https://www.octoparse.com/ 위 링크에서 회원가입 후 (이메일 verification 단계 있음) Free Trial 중 Standard 형식을 선택 다운로드 받은 zip.. happy-chipmunk.tistory.com 이제 본격적으로 토픽모델링을 돌려보자. 데이터 업로드 jupyter notebook 을 실행시킨 후, Upload 버튼을 눌러 토픽모델링을 할 데이터를 jupy.. 2020. 2. 19. 이전 1 다음