[0] 데이터 분석 과정
1. 데이터 수집 (설문, 평가, 실험결과, 텍스트 등)
2. 데이터 전처리 (Cleaning - 중복, 이상, 결측치 처리 / Handling - 선택, 변환, 생성 등)
3. 데이터 분석 (시각화 / 통계 - 차이, 관계 / 머신러닝 - 분류, 회귀 등)
rstudio.cloud 사용 예정
Log In - New Project - New RStudio Project - Upload
[1] 데이터 로딩 및 기술통계
걍 머 다 같은 의미다 이런?
Run으로 라인 하나씩 실행한 결과들임.
table()을 통해 교차표를 만들기 가능
[3] tidyverse의 파이프 연산자 (%>%)
: ~하고, ~해라! (ctrl + shift + M)
library(tidyverse) # 패키지 설치
diagnose_category(data1) # data1을 분석해라
data1 %>% diagnose_category(.) # .은 파이프 연산자 앞에 있는 것을 의미함. 즉, data1을 .으로 넘긴 것. 결국 같은 의미
data1 %>% diagnose_category() # .은 생략도 가능!
data1 %>%
diagnose_category()
실행 결과임. 위의 4가지 표현 방법은 모두 동일하게 작동함. 맨 아래 방법을 보통 선호.
분석 결과 저장
1. 프로그래머 st ..?
data <- diagnose_category(data1)
write.csv(data, "기술통계_범주형.csv") # 분석 결과를 csv 파일로 만들어줌.
2. 좀 더 직관적인 st
data1 %>%
diagnose_category() %>% # data1에서 불러와서
write.csv("기술통계_번주형.csv") # 저장해라
[4] tidyverse의 select()
# 친구에서 혼자까지의 데이터를 선택하고, describe하고, 결과를 csv 파일로 저장
# data1에서 성별과 연령을 선택하고, table 생성. 각각 행과 열을 의미함.
실행 결과, 오른쪽 하단에 csv 파일이 생성된 것을 확인 가능.
※ 참고: 2022년 R을 활용한 빅데이터기반 창의교육연수