본문 바로가기

컴퓨터 COMPUTER/Urban Data Analytics 데이터분석16

[Multilevel Regression] 다층 회귀 분석 in R (1) 개념, 데이터 전처리, lme4 패키지, Null Model 돌리기 작년 말 나를 괴롭게 했던 다층회귀분석. 석사까지는 어떻게 통계 개념 허술해도 대충 아는 척하고 넘어갈 수 있었는데, 박사 과정에 오고나니 허술하면 들통날 수 밖에 없다. 교수님들과 계속 내 분석을 공유해야하고 그 과정에서 대차게 까일 수 있으니 말이다.. ㅠㅠ 물박사가 될 바엔 학생일 때 좀 괴로운 게 낫다고 생각해서 꾸역꾸역 공부했다. 하고싶은 것만 할 수는 없지! 그리고 통계를 제대로 모르면 사실 딥러닝 모델을 이해하고 개선시키는 데에도 큰 한계가 있다는 걸 느꼈다. 요즘 모델 돌리기는 너무 쉽지만, '좋은' 모델을 만드는 것은 여전히 어렵다. 결국 머신러닝 모델을 잘 만들기 위해서는 어떤 요소가 모델링에 중요한가를 알아야하는데, 이걸 알기 위해 정통 통계만큼 정확한 것이 없다. Jumping ri.. 2024. 3. 21.
Time Series Forecasting (3) 파이썬을 이용한 시계열 예측 모델링 - ARIMA (Auto regressive-integrated-moving average), Auto ARIMA Time Series Forecasting (2) 파이썬을 이용한 시계열 예측 모델링 - ARIMA (Auto regressive-integrated-moving average), Auto ARIMA ARIMA 모델은 지나고보니... 가장 traditional하고 오래된만큼 여러 분야의 시계열 연구에 많이 쓰이고, 오래됐음에도 정확도가 나쁘지 않은 편인 것 같다. 공부하는 입장에서 이 모델의 최대 장점은 많이 쓰인만큼 자료가 많다는거다. 땡큐 슨배님들 계속해서 많은 자료를 남겨줘,,, 그럼에도 역시나 한국어 자료는 비교적 적다. 내가 1년에 몇개 안되지만 생각날때마다 개발 포스팅을 남기는 이유! 1. 데이터 계절성 체크하기. ARIMA 모델을 공부하기 전에 제발 내가 미리 알았더라면 좋았을 건. 이 모델.. 2022. 2. 17.
TimeSeries Forecasting (2) 시계열 분석 데이터 Stationarity check - 파이썬으로 데이터의 계절성/주기성 파악하기 ACF, PACF 플롯 그리고 해석하기 TimeSeries Forecasting (1) 시계열 분석 데이터 Stationarity check - 파이썬으로 데이터의 계절성/주기성 파악하기 ACF, PACF 플롯 그리고 해석하기 맨땅에 헤딩하듯 시계열예측 모델을 공부하다 보니 알게된 매우 중요한 팁. 예측 모델은 가지고 있는 시계열 데이터의 통계적 특성을 확인하는 것에서 시작해야 한다는 점이다. 현재의 값이 과거의 값들과 어느정도 correlate할까? 데이터의 계절마다의 특성은 뭘까? 데이터는 주기성이 없을까? 이러한 물음에 스스로 답하기 위해서 Stationarity Check을 할 필요가 있다. 데이터의 특성에 따라 정확도가 높고 효율이 좋은 모델이 달라지기 때문이다. 이 포스팅에서는 Autocorrelation Function (ACF).. 2022. 1. 22.
Time Series Forecasting (1) Anaconda 를 통해 Jupyter Notebook 환경 만들고 fbprophet 패키지 설치하는 법 Time Series Forecasting (1) Anaconda 를 통해 Jupyter Notebook 환경 만들고 fbprophet 패키지 설치하는 법 간만에 본업 포스팅! Facebook 에서 제공하는 fbprophet time-series forecasting 패키지를 사용하려는데 pip로는 몇 시간 째 설치를 할 수 없었다. 계속 아래와 같은 에러가 나는 것이야.. Running ser.py for wheel... Running set.py for pystan... Wheel 과 pystan을 따로따로 설치해보았지만 wheel은 설치가 되는 반면 pystan은 설치되지 않음. 구글링을 좀 해보니 fbprophet은 아나콘다 프롬프트를 이용해서 설치해야한다고; 그저께 노트북 공장초기화해서 아나콘다.. 2021. 10. 2.
[R] Tidycensus를 이용해 미국 통계자료 불러오기 - 미국 Census 사용법 [R] Tidycensus를 이용해 미국 통계자료 불러오기 - 미국 Census 자료 사용법 미국에서 도시계획을 공부하다보면 미국의 통계청이라고 볼 수 있는 U.S. Census Bureau 에서 자료를 다운로드 받아 활용해야 하는 경우가 많이 생긴다. Census 홈페이지에서 원하는 파일형식으로 직접 다운로드 받을 수도 있지만 R을 사용해서 개발환경 내에서 다운로드 받을 수도 있다. 그 과정에서 유용하게 쓰일 tidycensus 라이브러리에 대해 간략하게 정리하려고 한다. (작년에 R 조교를 하면서 공부했던 자료를 참고하여 정리했다. UIUC MUP UP494 Data Science for Planners) 라이브러리를 다운로드 받기 전에 먼저 준비해야 할 것은 아래 4가지! 1. 센서스 API 키 -.. 2021. 1. 20.
[R 기초] Loop Function: lapply, sapply, tapply [R 기초] Loop Function: lapply, sapply, tapply 구분 1. lapply 두가지 argument가 필요하다. List x와 list x 에 적용할 function y. lapply를 이용하면 list x 에 있는 요소에 function y 를 한번에 적용할 수 있다. input의 자료형에 관계없이 무조건 list를 반환한다. 예를 들어, 아래와 같은 리스트 a 에 들어있는 리스트 요소들에게 한번에 mean/max 등의 함수를 적용할 수 있다. x s s a b c 2.5 7.8 10.5 > class(s) [1] "numeric" 3. tapply tapply는 vector의 subset들에 한번에 function 을 적용한다. 그래서 lapply, sapply보다 하나의 .. 2021. 1. 20.