컴퓨터/R 공부 7

[혼공학습단 10기] 혼자 공부하는 R 데이터 분석 Chapter 06

Chapter 06 데이터 시각화 : ggplot2 패키지 06-1 그래프 그리기 데이터 시각화 복잡해보이는 수치 데이터를 이미지화하여 누구나 쉽게 내용을 이해할 수 있도록 시각적으로 전달하는 것 ggplot 패키지 : reshape2 패키지, dplyr 패키지를 만든 해들리 위컴이 만든 R 시각화 1순위 패키지 :: ggplot() 함수를 이용하여 그래프 틀을 만들고, 그 안에 다양한 이미지 객체 레이어를 계속 포개는 방식으로 그래프를 표현함 그래프 기본 틀 만들기 : ggplot() 함수 ggplot(데이터 세트, aes(데이터 속성)) 시각화의 3 요소 1. 데이터 (Data) 2. 시각적 맵핑 (Aesthetic mapping) 맵핑(mapping) : 어떤 시각적 특성을 사용할 것인가? x, y..

컴퓨터/R 공부 2023.08.20

[혼공학습단 10기] 혼자 공부하는 R 데이터 분석 Chapter 05

Chapter 05 데이터 가공하기 05-1 dplyr 패키지 dplyr 패키지 plyr 패키지 + C++언어 : 사용자 친화적으로 빠르게 데이터 프레임을 조작할 수 있는 패키지 dplyr 패키지 설치 및 로드하기 # dplyr 패키지 설치 및 로드하기 install.packages(“dplyr”) library(dplyr) 데이터 추출 및 정렬하기 ® 행 추출하기 : filter() 함수 filter(“원시 데이터”, 조건) ® 열 추출하기 : select() 함수 select(“원시 데이터”, 조건) ® 정렬하기 : arrange() 함수 arrange(“원시 데이터”, 조건) 데이터 추가 및 중복 데이터 제거하기 ® 열 추가하기 : mutate() 함수 mutate(“원시 데이터”, 추가할 변수 이..

컴퓨터/R 공부 2023.08.03

(코드 오류와 해결 기록) dcast() : Aggregation function missing: defaulting to length

혼공R이 p254 풀던 중 예시와 달리 앞 챕터에서 만든 데이터프레임을 dcast() 함수에 집어넣었더니 Aggregation function missing: defaulting to length 이런 오류가 나왔다 (티스토리는 이게 오류 코드인지 그냥 코드인지는 인식 못하고 그냥 글자대로만 인식하는 걸까?) chat GPT한테도 물어봤는데 표면적으로만 해결하고 본질적인 문제는 해결하지 못해서 결국 추가적으로 공부를 하게 되었다. 오류의 원인을 알기 위해서는 (1) aggregation 함수, (2) length 함수, (3) "wind"와 "day"의 차이를 알아야하고 또 코드를 조금씩 바꿔서 실행해본 결과를 비교해서 오류를 해결할 수 있다. 오류의 원인 : 기본 지식 (1) aggregation() ..

컴퓨터/R 공부 2023.07.19

[혼공학습단 10기] 혼자 공부하는 R 데이터분석 Chapter 04

Chapter 04 데이터 다루기 04-1 데이터 수집하기 데이터 수집 데이터 수집 : 분석할 데이터를 준비하는 과정 데이터 원천 설명 직접 입력 벡터나 데이터 프레임을 R에 함수로 입력하는 방법 외부 데이터 가져오기 *.txt, *.csv, *.xlsx 직접 입력 # 데이터 입력 : 벡터 만들기, 데이터 프레임 만들기와 동일 변수명 stem(z, scale=2) > stem(z, scale=3) #결과가 같음 1 | 0 2 | 0 3 | 0 4 | 0 5 | 0 6 | 0 7 | 0 8 | 00 9 | 00 >stem(z, scale=0.5) >stem(z, scale=0.8) #결과가 같음 0 | 1234 0 | 5678899 산점도 plot(x, y) -- plot(변수명) 으로 입력시 전체 산점도..

컴퓨터/R 공부 2023.07.12

[혼공학습단 10기] 혼자 공부하는 R 데이터분석 Chapter 02

Chapter 02 데이터 분석을 위한 기본 다지기 02-1 데이터 분석과정 1단계 : 데이터 분석 설계하기 방향성 기획 + 방법론 검토 + 가설 설정 단계 목표 예시 1 주제 설정하기 아침식사 여부와 건강의 상관관계 2 가설 설정하기 [여러 개를 만들어 놓고 나중에 데이터를 확보하는 과정에서 제외한다] (가설1) 아침식사 빈도수가 적을수록 고혈압의 위험이 높을 것이다. (가설2) 아침식사 빈도수가 적을수록 우울증의 위험이 높을 것이다. (가설3) 아침식사 빈도수가 적을수록 삶의 질 지표가 낮을 것이다. 3 분석 가능 변수, 파생 변수 구성 4 분석 항목 결정 빈도분석 (카이제곱 검정) 상관분석 회귀분석 (선형회귀 또는 로지스틱회귀) 2단계 : 데이터 준비하기 1) 직접 입력하는 방법 (ex. ID ty..

컴퓨터/R 공부 2023.07.05

[혼공학습단 10기] 혼자 공부하는 R 데이터분석 Chapter 01

Chapter 01 빅데이터와 R 01-1 빅데이터와 R 언어 빅데이터와 데이터과학 빅데이터는 기존의 방식으로는 처리할 수 없는 많은 양의 데이터. 보통 특징으로 정의된다 그러나 아직 개념이 제대로 정의되지는 않아서 V들이 계속 추가되고 있다 (5V, 6V) 데이터 과학은 데이터를 수집, 가공, 해석하는 학문 3V 양(Volume) 많아야 (물리적인 양) 테라바이트 수준 속도(Velocity) 빨라야 (처리 속도) 적시성있는 분석을 위한 실시간 처리 다양성(Velocity) 높아야 (형태적 다양성) 정형/비정형의 다양한 형태 4V 정확성(Veracity) 또는 가치(Value) 분석할 가치가 있어야 (유의미함) 데이터에서 추출한 패턴이 의미있는지 R 언어의 특징 Robert Gentleman 과 Ross..

컴퓨터/R 공부 2023.07.03