본문 바로가기

컴퓨터 COMPUTER33

[Multilevel Regression] 다층 회귀 분석 in R (1) 개념, 데이터 전처리, lme4 패키지, Null Model 돌리기 작년 말 나를 괴롭게 했던 다층회귀분석. 석사까지는 어떻게 통계 개념 허술해도 대충 아는 척하고 넘어갈 수 있었는데, 박사 과정에 오고나니 허술하면 들통날 수 밖에 없다. 교수님들과 계속 내 분석을 공유해야하고 그 과정에서 대차게 까일 수 있으니 말이다.. ㅠㅠ 물박사가 될 바엔 학생일 때 좀 괴로운 게 낫다고 생각해서 꾸역꾸역 공부했다. 하고싶은 것만 할 수는 없지! 그리고 통계를 제대로 모르면 사실 딥러닝 모델을 이해하고 개선시키는 데에도 큰 한계가 있다는 걸 느꼈다. 요즘 모델 돌리기는 너무 쉽지만, '좋은' 모델을 만드는 것은 여전히 어렵다. 결국 머신러닝 모델을 잘 만들기 위해서는 어떤 요소가 모델링에 중요한가를 알아야하는데, 이걸 알기 위해 정통 통계만큼 정확한 것이 없다. Jumping ri.. 2024. 3. 21.
[지도시각화] Kepler.gl 사용법, 저장 방법 및 접속 링크 지도시각화 툴 Kepler.gl 사용법 전공 특성상 지도 시각화를 할 일이 많은데 매번 ArcGIS나 QGIS를 쓰기에는 너무 느리고 소프트웨어 자체가 헤비해서 부담스러울 때가 있다. 그래서 우리는 회의할 때 바로바로 데이터를 시각화하기 위해서 Kepler.gl을 많이 사용한다. 디자인 선택지가 많은 건 아니지만 그래도 흔히 쓰는 light, dark 테마와 Arc/Line 도 점을 연결하는 네트워크 지도, Point 만 있는 지도, Heatmap, Polygon, Place marker 등을 클릭 드래그 드롭으로 빠르게 시각화할 수 있다는 점에서 자주 손이 가는 툴이다. Kepler.gl 접속 링크 Large-scale WebGL-powered Geospatial Data Visualization To.. 2023. 6. 30.
SSH 서버 (Ubuntu 22.04.2) 에 Jupyter Notebook 원격으로 열기 SSH 서버 (Ubuntu 22.04.2) 에 Jupyter Notebook 원격으로 열기 리눅스 카테고리에 글을 다시 올리는 날이 오다니. 4년 만이다!!!!! 요즘 연구실에 성능이 아주아주 빵빵한 비싼 데탑을 새로 들였다. 협력하는 다른 사람들이 꼭 리눅스로 깔아줬으면 좋겟다고 해서 오랜만에 리눅스를 다시 쓰기 시작했다 ㅎㅎ.. 리눅스 왤케 좋아하는겨 VSCode를 연결해서 쓸 수는 있지만 개인적으로 jupyter notebook을 자주 쓰기도 하고 파일 다운로드/업로드가 편할 것 같아서 jupyter 를 연결하기로 결정. 생각보다 너무 쉽지만 머리에 외우고 다닐 캐파가 없으므로 기록하자면 단 쓰리스텝으로 원격 개발이 가능하다. 1. 터미널에서 SSH로 일단 서버 연결하기 ssh @ 2. 터미널에서 .. 2023. 6. 25.
GeoJSON 데이터 포맷 이해하기 GeoJSON 데이터 포맷 이해하기 GeoJSON 이란? GeoJSON 은 웹매핑을 하기 위한 지리 데이터를 저장하는 파일 포맷으로, JavaScript 로 reading, parsing, editing, querying 이 모두 가능한 데이터 포맷이다. Geo-visualization을 하는 나와 같은 분들에게는 필수로 알아두어야 하는, 그리고 당연히 쓸 일이 많은 형식이다. GeoJSON 파일은 .json 혹은 .geojson 확장자로 저장된다. GeoJSON은 기본 지리형태로는 Point, LineString, Polygon, 복잡한 지리형태로는 MultiPoint, MultiLineString, MultiPolygon, GeometryCollection 데이터 타입을 저장할 수 있다. 여러가지 지.. 2022. 4. 19.
Time Series Forecasting (3) 파이썬을 이용한 시계열 예측 모델링 - ARIMA (Auto regressive-integrated-moving average), Auto ARIMA Time Series Forecasting (2) 파이썬을 이용한 시계열 예측 모델링 - ARIMA (Auto regressive-integrated-moving average), Auto ARIMA ARIMA 모델은 지나고보니... 가장 traditional하고 오래된만큼 여러 분야의 시계열 연구에 많이 쓰이고, 오래됐음에도 정확도가 나쁘지 않은 편인 것 같다. 공부하는 입장에서 이 모델의 최대 장점은 많이 쓰인만큼 자료가 많다는거다. 땡큐 슨배님들 계속해서 많은 자료를 남겨줘,,, 그럼에도 역시나 한국어 자료는 비교적 적다. 내가 1년에 몇개 안되지만 생각날때마다 개발 포스팅을 남기는 이유! 1. 데이터 계절성 체크하기. ARIMA 모델을 공부하기 전에 제발 내가 미리 알았더라면 좋았을 건. 이 모델.. 2022. 2. 17.
TimeSeries Forecasting (2) 시계열 분석 데이터 Stationarity check - 파이썬으로 데이터의 계절성/주기성 파악하기 ACF, PACF 플롯 그리고 해석하기 TimeSeries Forecasting (1) 시계열 분석 데이터 Stationarity check - 파이썬으로 데이터의 계절성/주기성 파악하기 ACF, PACF 플롯 그리고 해석하기 맨땅에 헤딩하듯 시계열예측 모델을 공부하다 보니 알게된 매우 중요한 팁. 예측 모델은 가지고 있는 시계열 데이터의 통계적 특성을 확인하는 것에서 시작해야 한다는 점이다. 현재의 값이 과거의 값들과 어느정도 correlate할까? 데이터의 계절마다의 특성은 뭘까? 데이터는 주기성이 없을까? 이러한 물음에 스스로 답하기 위해서 Stationarity Check을 할 필요가 있다. 데이터의 특성에 따라 정확도가 높고 효율이 좋은 모델이 달라지기 때문이다. 이 포스팅에서는 Autocorrelation Function (ACF).. 2022. 1. 22.