컴퓨터/R 공부

[혼공학습단 10기] 혼자 공부하는 R 데이터분석 Chapter 01

방구석의 개굴이 2023. 7. 3. 00:34

Chapter 01 빅데이터와 R

01-1 빅데이터와 R 언어
  • 빅데이터와 데이터과학
  • 빅데이터는 기존의 방식으로는 처리할 수 없는 많은 양의 데이터. 보통 특징으로 정의된다
  • 그러나 아직 개념이 제대로 정의되지는 않아서 V들이 계속 추가되고 있다 (5V, 6V)
  • 데이터 과학은 데이터를 수집, 가공, 해석하는 학문
3V (Volume) 많아야 (물리적인 양) 테라바이트 수준
속도(Velocity) 빨라야 (처리 속도) 적시성있는 분석을 위한 실시간 처리
다양성(Velocity) 높아야 (형태적 다양성) 정형/비정형의 다양한 형태
4V 정확성(Veracity)
또는
가치(Value)
분석할 가치가 있어야 (유의미함) 데이터에서 추출한 패턴이 의미있는지

  • R 언어의 특징
  • Robert Gentleman 과 Ross Ihaka 가 발명
  • 파이썬과 함께 가장 대중적으로 쓰이는 데이터분석 도구
특징 R 파이썬
비용 무료 무료
유연성 통계분석에 특화 범용 프로그래밍 언어
데이터 처리 속도 느림 R에 비해 빠름
시각화 강력한 시각화 R에 비해 난해한 시각화
학습 난이도 쉬움 쉬움
개발 도구 RGui, R studio 파이참, visual studio code

 

R 언어의 장점 R 언어의 단점
통계 분석에 활용 가능한 패키지 수가 많다
사용자 간 커뮤니티가 활성화 되어있다
무료이다
다양한 운영체제에서 동작한다
아무리 쉬워도 프로그래밍 언어이다
처리 속도가 느리다
문제를 스스로 해결해야 한다

 

01-2 개발 환경 설치

 

  • R과 RGui
  • R : 프로그래밍 언어 [한국어]
  • RGui : R을 실행할 수 있는 통합개발환경(Integrated Development Environment)
  • R studio : R을 효과적으로 활용할 수 있는 Gui 프로그램 (즉 IDE의 일종)
  • R studio cloud : 설치없이 인터넷에서 사용하는 클라우드 버전의 R studio

 

01-3 R 스튜디오 인터페이스와 환경설정

 

Script

실행할 코드를 작성하는 영역
(enter는 줄 띄우기 ctrl+enter가 실행)

한 번에 여러 코드를 실행할 수 있다

#은 코드실행에 영향을 미치지 않음
Environment

Environment : 실행한 데이터세트 모음

History : 실행한 코드 모음

Connections : 데이터베이스와 연결

Tutorial : 튜토리얼
Console

Console : 실행한 코드의 결과 표시
(또는 Console 탭에서 직접 코드 실행)

Terminal : 운영체제와 연결

Jobs : 동시에 여러 작업을 수행하면서 IDE사용가능
(백그라운드에서 오래 걸리는 작업 수행)
Files

Files : 파일탐색기와 동일한 기능

Plots : R 함수로 실행한 그래프 출력

Packages : 패키지 설치 및 관리

Help : 도움말 검색

Viewer : R 코드를 웹브라우저로 출력
 
혼공 미션
  • 기본 미션

p. 64의 01번 "Hello World!"를 R 스튜디오에서 출력하고 인증하기

  • 선택미션

p. 65의 03번 코드 실행하고 인증하기

 

정리본 PDF

Chapter 01 빅데이터와 R.pdf
0.08MB