본문 바로가기

텍스트마이닝8

[R 기초] Loop Function: lapply, sapply, tapply [R 기초] Loop Function: lapply, sapply, tapply 구분 1. lapply 두가지 argument가 필요하다. List x와 list x 에 적용할 function y. lapply를 이용하면 list x 에 있는 요소에 function y 를 한번에 적용할 수 있다. input의 자료형에 관계없이 무조건 list를 반환한다. 예를 들어, 아래와 같은 리스트 a 에 들어있는 리스트 요소들에게 한번에 mean/max 등의 함수를 적용할 수 있다. x s s a b c 2.5 7.8 10.5 > class(s) [1] "numeric" 3. tapply tapply는 vector의 subset들에 한번에 function 을 적용한다. 그래서 lapply, sapply보다 하나의 .. 2021. 1. 20.
[R 기초] 기초 연산자와 데이터 타입/자료형의 종류 R 기초 연산자와 데이터 타입/자료형의 종류 지난 학기 R조교를 하며 배운 R 기초 연산자와 자료형에 대해 정리해보았습니다. 파이썬이나 자바, C언어와 비슷하면서도 factor의 사용 같이 조금 생소한 부분도 있었습니다. ㅠ 처음 접하시는 분들에게는 한번 쭉 따라해보는 것이 기초 데이터 타입의 이해에 큰 도움이 되리라 생각합니다. (자료형은 데이터타입을 직역한 것으로 한국어로는 자료형이라고도 많이 말해요!) 1. 기초 연산자 (+ - * / ) 1. 기초 연산자 (+ - * / ) 각 데이터 타입의 특징을 알기 위해서는 기초 연산자에 대한 이해가 선행되어야 합니다. 콘솔에 아래 코드를 한 줄씩 입력해보면 기초 연산자가 어떤 역할을 하는지 바로 알 수 있는데, 아래 예시로 +-*/ 는 각각 덧셈, 뺄셈, .. 2020. 12. 26.
[R기초] R 설치, Rstudio 설치하기 Windows 10 Rstudio는 R 사용을 용이하게 하는 오픈소스 IDE (Integrated Development Environment)이다. 사용을 위해서는 먼저 R을 설치한 후, Rstudio를 설치해야 한다. 이 매뉴얼은 Windows, R 4.0.2 버전을 기준으로 작성하였다. 1) R 설치하기 1. https://cran.r-project.org/ 접속 2. Download R for Windows 클릭 3. Install R for the first time 클릭 4. Download R 4.0.2 for Windows 클릭 5. 다운받은 파일을 더블클릭해서 설치를 시작하고, 설정은 모두 default로 한 뒤 마친다. 2) Rstudio 설치하기 * R을 설치하면 R과 Rstudio를 모두 사용할 수 있지.. 2020. 10. 21.
[파이썬을 이용한 웹크롤링] Twitter API 트위터 크롤링 데이터를 활용한 감성분석 이 프로젝트에서는 트위터의 텍스트 데이터 (Tweet) 를 이용하여 감성 분석을 하고 텍스트가 작성된 점 공간과 감성 분석의 결과를 지도에 나타내 볼 것이다. 감성 분석 (혹은 감정 분석, Sentiment Analysis) 은 주어진 이미지나 텍스트, 음성 파일 등의 자료를 바탕으로 작성자의 기분과 감정을 파악하는 분석기법이다. 감성 분석은 주로 특정 서비스나 제품을 출시한 후 사람들의 리뷰를 분석해봄으로써 대중이 제품을 어떻게 받아들이는지 쉽게 파악하기 위해 쓰인다. 예를 들어, 개봉 직후 영화를 본 시청자들의 리뷰를 분석하여 영화의 흥망을 예측할 수 있다. 아래 그림은 감성 분석의 원리를 추상화하여 나타낸 것이다. 분석 결과로 내고자 하는 데이터와 감정 카테고리의 분류가 다 되어 있는 Labeled.. 2020. 10. 11.
[파이썬을 이용한 웹크롤링] Twitter 트위터 데이터 크롤링 (TwitterScraper) 트위터에서는 플랫폼을 적극적으로 활용할 수 있도록 관련 API 를 제공하는데, Twitter API (*API 란? https://medium.com/@dydrlaks/api-%EB%9E%80-c0fd6222d34c) 를 이용하면 원하는 정보에 거의 다 접근할 수 있기 때문에 흔히 쓰인다. 하지만 트위터 서버의 과부하를 방지하기 위해 이용 규모에 엄격한 제한이 있어 1주일 이상 지난 트윗을 크롤링할 수 없으며 15 분에 000 트윗 이상 크롤링할 수 없다. 때문에 많은 트윗을 모아와야 하는 프로젝트에는 적합하지 않다. 따라서, 우리는 이와 비슷한 고민을 먼저 한 개발자가 오픈 소스 (*오픈 소스: 소프트웨어 혹은 하드웨어 제작자의 권리를 지키면서 원시 코드를 누구나 열람할 수 있도록 한 소프트웨어)로 개.. 2020. 7. 20.
[파이썬을 이용한 토픽모델링] step3. Gensim 과 Mallet 을 활용한 LDA 모델링 (Python) 아래 step 2 까지 성공적으로 수행했다면 자신이 분석하고 싶은 텍스트 뭉터기의 json 파일이 있을 것이다. [파이썬을 이용한 토픽모델링] : step2. 웹크롤링 툴 (Octoparse) 을 이용해 데이터 수집하기 Octoparse 가입, Standard Free Trial (14일) 등록 후 다운로드 https://www.octoparse.com/ 위 링크에서 회원가입 후 (이메일 verification 단계 있음) Free Trial 중 Standard 형식을 선택 다운로드 받은 zip.. happy-chipmunk.tistory.com 이제 본격적으로 토픽모델링을 돌려보자. 데이터 업로드 jupyter notebook 을 실행시킨 후, Upload 버튼을 눌러 토픽모델링을 할 데이터를 jupy.. 2020. 2. 19.