본문 바로가기

컴퓨터 COMPUTER33

[Multilevel Regression] 다층 회귀 분석 in R (1) 개념, 데이터 전처리, lme4 패키지, Null Model 돌리기 작년 말 나를 괴롭게 했던 다층회귀분석. 석사까지는 어떻게 통계 개념 허술해도 대충 아는 척하고 넘어갈 수 있었는데, 박사 과정에 오고나니 허술하면 들통날 수 밖에 없다. 교수님들과 계속 내 분석을 공유해야하고 그 과정에서 대차게 까일 수 있으니 말이다.. ㅠㅠ 물박사가 될 바엔 학생일 때 좀 괴로운 게 낫다고 생각해서 꾸역꾸역 공부했다. 하고싶은 것만 할 수는 없지! 그리고 통계를 제대로 모르면 사실 딥러닝 모델을 이해하고 개선시키는 데에도 큰 한계가 있다는 걸 느꼈다. 요즘 모델 돌리기는 너무 쉽지만, '좋은' 모델을 만드는 것은 여전히 어렵다. 결국 머신러닝 모델을 잘 만들기 위해서는 어떤 요소가 모델링에 중요한가를 알아야하는데, 이걸 알기 위해 정통 통계만큼 정확한 것이 없다. Jumping ri.. 2024. 3. 21.
[지도시각화] Kepler.gl 사용법, 저장 방법 및 접속 링크 지도시각화 툴 Kepler.gl 사용법 전공 특성상 지도 시각화를 할 일이 많은데 매번 ArcGIS나 QGIS를 쓰기에는 너무 느리고 소프트웨어 자체가 헤비해서 부담스러울 때가 있다. 그래서 우리는 회의할 때 바로바로 데이터를 시각화하기 위해서 Kepler.gl을 많이 사용한다. 디자인 선택지가 많은 건 아니지만 그래도 흔히 쓰는 light, dark 테마와 Arc/Line 도 점을 연결하는 네트워크 지도, Point 만 있는 지도, Heatmap, Polygon, Place marker 등을 클릭 드래그 드롭으로 빠르게 시각화할 수 있다는 점에서 자주 손이 가는 툴이다. Kepler.gl 접속 링크 Large-scale WebGL-powered Geospatial Data Visualization To.. 2023. 6. 30.
SSH 서버 (Ubuntu 22.04.2) 에 Jupyter Notebook 원격으로 열기 SSH 서버 (Ubuntu 22.04.2) 에 Jupyter Notebook 원격으로 열기 리눅스 카테고리에 글을 다시 올리는 날이 오다니. 4년 만이다!!!!! 요즘 연구실에 성능이 아주아주 빵빵한 비싼 데탑을 새로 들였다. 협력하는 다른 사람들이 꼭 리눅스로 깔아줬으면 좋겟다고 해서 오랜만에 리눅스를 다시 쓰기 시작했다 ㅎㅎ.. 리눅스 왤케 좋아하는겨 VSCode를 연결해서 쓸 수는 있지만 개인적으로 jupyter notebook을 자주 쓰기도 하고 파일 다운로드/업로드가 편할 것 같아서 jupyter 를 연결하기로 결정. 생각보다 너무 쉽지만 머리에 외우고 다닐 캐파가 없으므로 기록하자면 단 쓰리스텝으로 원격 개발이 가능하다. 1. 터미널에서 SSH로 일단 서버 연결하기 ssh @ 2. 터미널에서 .. 2023. 6. 25.
GeoJSON 데이터 포맷 이해하기 GeoJSON 데이터 포맷 이해하기 GeoJSON 이란? GeoJSON 은 웹매핑을 하기 위한 지리 데이터를 저장하는 파일 포맷으로, JavaScript 로 reading, parsing, editing, querying 이 모두 가능한 데이터 포맷이다. Geo-visualization을 하는 나와 같은 분들에게는 필수로 알아두어야 하는, 그리고 당연히 쓸 일이 많은 형식이다. GeoJSON 파일은 .json 혹은 .geojson 확장자로 저장된다. GeoJSON은 기본 지리형태로는 Point, LineString, Polygon, 복잡한 지리형태로는 MultiPoint, MultiLineString, MultiPolygon, GeometryCollection 데이터 타입을 저장할 수 있다. 여러가지 지.. 2022. 4. 19.
Time Series Forecasting (3) 파이썬을 이용한 시계열 예측 모델링 - ARIMA (Auto regressive-integrated-moving average), Auto ARIMA Time Series Forecasting (2) 파이썬을 이용한 시계열 예측 모델링 - ARIMA (Auto regressive-integrated-moving average), Auto ARIMA ARIMA 모델은 지나고보니... 가장 traditional하고 오래된만큼 여러 분야의 시계열 연구에 많이 쓰이고, 오래됐음에도 정확도가 나쁘지 않은 편인 것 같다. 공부하는 입장에서 이 모델의 최대 장점은 많이 쓰인만큼 자료가 많다는거다. 땡큐 슨배님들 계속해서 많은 자료를 남겨줘,,, 그럼에도 역시나 한국어 자료는 비교적 적다. 내가 1년에 몇개 안되지만 생각날때마다 개발 포스팅을 남기는 이유! 1. 데이터 계절성 체크하기. ARIMA 모델을 공부하기 전에 제발 내가 미리 알았더라면 좋았을 건. 이 모델.. 2022. 2. 17.
TimeSeries Forecasting (2) 시계열 분석 데이터 Stationarity check - 파이썬으로 데이터의 계절성/주기성 파악하기 ACF, PACF 플롯 그리고 해석하기 TimeSeries Forecasting (1) 시계열 분석 데이터 Stationarity check - 파이썬으로 데이터의 계절성/주기성 파악하기 ACF, PACF 플롯 그리고 해석하기 맨땅에 헤딩하듯 시계열예측 모델을 공부하다 보니 알게된 매우 중요한 팁. 예측 모델은 가지고 있는 시계열 데이터의 통계적 특성을 확인하는 것에서 시작해야 한다는 점이다. 현재의 값이 과거의 값들과 어느정도 correlate할까? 데이터의 계절마다의 특성은 뭘까? 데이터는 주기성이 없을까? 이러한 물음에 스스로 답하기 위해서 Stationarity Check을 할 필요가 있다. 데이터의 특성에 따라 정확도가 높고 효율이 좋은 모델이 달라지기 때문이다. 이 포스팅에서는 Autocorrelation Function (ACF).. 2022. 1. 22.
Time Series Forecasting (1) Anaconda 를 통해 Jupyter Notebook 환경 만들고 fbprophet 패키지 설치하는 법 Time Series Forecasting (1) Anaconda 를 통해 Jupyter Notebook 환경 만들고 fbprophet 패키지 설치하는 법 간만에 본업 포스팅! Facebook 에서 제공하는 fbprophet time-series forecasting 패키지를 사용하려는데 pip로는 몇 시간 째 설치를 할 수 없었다. 계속 아래와 같은 에러가 나는 것이야.. Running ser.py for wheel... Running set.py for pystan... Wheel 과 pystan을 따로따로 설치해보았지만 wheel은 설치가 되는 반면 pystan은 설치되지 않음. 구글링을 좀 해보니 fbprophet은 아나콘다 프롬프트를 이용해서 설치해야한다고; 그저께 노트북 공장초기화해서 아나콘다.. 2021. 10. 2.
[R] Tidycensus를 이용해 미국 통계자료 불러오기 - 미국 Census 사용법 [R] Tidycensus를 이용해 미국 통계자료 불러오기 - 미국 Census 자료 사용법 미국에서 도시계획을 공부하다보면 미국의 통계청이라고 볼 수 있는 U.S. Census Bureau 에서 자료를 다운로드 받아 활용해야 하는 경우가 많이 생긴다. Census 홈페이지에서 원하는 파일형식으로 직접 다운로드 받을 수도 있지만 R을 사용해서 개발환경 내에서 다운로드 받을 수도 있다. 그 과정에서 유용하게 쓰일 tidycensus 라이브러리에 대해 간략하게 정리하려고 한다. (작년에 R 조교를 하면서 공부했던 자료를 참고하여 정리했다. UIUC MUP UP494 Data Science for Planners) 라이브러리를 다운로드 받기 전에 먼저 준비해야 할 것은 아래 4가지! 1. 센서스 API 키 -.. 2021. 1. 20.
[R 기초] Loop Function: lapply, sapply, tapply [R 기초] Loop Function: lapply, sapply, tapply 구분 1. lapply 두가지 argument가 필요하다. List x와 list x 에 적용할 function y. lapply를 이용하면 list x 에 있는 요소에 function y 를 한번에 적용할 수 있다. input의 자료형에 관계없이 무조건 list를 반환한다. 예를 들어, 아래와 같은 리스트 a 에 들어있는 리스트 요소들에게 한번에 mean/max 등의 함수를 적용할 수 있다. x s s a b c 2.5 7.8 10.5 > class(s) [1] "numeric" 3. tapply tapply는 vector의 subset들에 한번에 function 을 적용한다. 그래서 lapply, sapply보다 하나의 .. 2021. 1. 20.
[R 기초] 기초 연산자와 데이터 타입/자료형의 종류 R 기초 연산자와 데이터 타입/자료형의 종류 지난 학기 R조교를 하며 배운 R 기초 연산자와 자료형에 대해 정리해보았습니다. 파이썬이나 자바, C언어와 비슷하면서도 factor의 사용 같이 조금 생소한 부분도 있었습니다. ㅠ 처음 접하시는 분들에게는 한번 쭉 따라해보는 것이 기초 데이터 타입의 이해에 큰 도움이 되리라 생각합니다. (자료형은 데이터타입을 직역한 것으로 한국어로는 자료형이라고도 많이 말해요!) 1. 기초 연산자 (+ - * / ) 1. 기초 연산자 (+ - * / ) 각 데이터 타입의 특징을 알기 위해서는 기초 연산자에 대한 이해가 선행되어야 합니다. 콘솔에 아래 코드를 한 줄씩 입력해보면 기초 연산자가 어떤 역할을 하는지 바로 알 수 있는데, 아래 예시로 +-*/ 는 각각 덧셈, 뺄셈, .. 2020. 12. 26.
[R기초] R 설치, Rstudio 설치하기 Windows 10 Rstudio는 R 사용을 용이하게 하는 오픈소스 IDE (Integrated Development Environment)이다. 사용을 위해서는 먼저 R을 설치한 후, Rstudio를 설치해야 한다. 이 매뉴얼은 Windows, R 4.0.2 버전을 기준으로 작성하였다. 1) R 설치하기 1. https://cran.r-project.org/ 접속 2. Download R for Windows 클릭 3. Install R for the first time 클릭 4. Download R 4.0.2 for Windows 클릭 5. 다운받은 파일을 더블클릭해서 설치를 시작하고, 설정은 모두 default로 한 뒤 마친다. 2) Rstudio 설치하기 * R을 설치하면 R과 Rstudio를 모두 사용할 수 있지.. 2020. 10. 21.
[파이썬을 이용한 웹크롤링] Twitter API 트위터 크롤링 데이터를 활용한 감성분석 이 프로젝트에서는 트위터의 텍스트 데이터 (Tweet) 를 이용하여 감성 분석을 하고 텍스트가 작성된 점 공간과 감성 분석의 결과를 지도에 나타내 볼 것이다. 감성 분석 (혹은 감정 분석, Sentiment Analysis) 은 주어진 이미지나 텍스트, 음성 파일 등의 자료를 바탕으로 작성자의 기분과 감정을 파악하는 분석기법이다. 감성 분석은 주로 특정 서비스나 제품을 출시한 후 사람들의 리뷰를 분석해봄으로써 대중이 제품을 어떻게 받아들이는지 쉽게 파악하기 위해 쓰인다. 예를 들어, 개봉 직후 영화를 본 시청자들의 리뷰를 분석하여 영화의 흥망을 예측할 수 있다. 아래 그림은 감성 분석의 원리를 추상화하여 나타낸 것이다. 분석 결과로 내고자 하는 데이터와 감정 카테고리의 분류가 다 되어 있는 Labeled.. 2020. 10. 11.