Chapter 01 빅데이터와 R
01-1 빅데이터와 R 언어 |
- 빅데이터와 데이터과학
- 빅데이터는 기존의 방식으로는 처리할 수 없는 많은 양의 데이터. 보통 특징으로 정의된다
- 그러나 아직 개념이 제대로 정의되지는 않아서 V들이 계속 추가되고 있다 (5V, 6V)
- 데이터 과학은 데이터를 수집, 가공, 해석하는 학문
3V | 양(Volume) | 많아야 (물리적인 양) | 테라바이트 수준 |
속도(Velocity) | 빨라야 (처리 속도) | 적시성있는 분석을 위한 실시간 처리 | |
다양성(Velocity) | 높아야 (형태적 다양성) | 정형/비정형의 다양한 형태 | |
4V | 정확성(Veracity) 또는 가치(Value) |
분석할 가치가 있어야 (유의미함) | 데이터에서 추출한 패턴이 의미있는지 |
- R 언어의 특징
- Robert Gentleman 과 Ross Ihaka 가 발명
- 파이썬과 함께 가장 대중적으로 쓰이는 데이터분석 도구
특징 | R | 파이썬 |
비용 | 무료 | 무료 |
유연성 | 통계분석에 특화 | 범용 프로그래밍 언어 |
데이터 처리 속도 | 느림 | R에 비해 빠름 |
시각화 | 강력한 시각화 | R에 비해 난해한 시각화 |
학습 난이도 | 쉬움 | 쉬움 |
개발 도구 | RGui, R studio | 파이참, visual studio code |
R 언어의 장점 | R 언어의 단점 |
통계 분석에 활용 가능한 패키지 수가 많다 사용자 간 커뮤니티가 활성화 되어있다 무료이다 다양한 운영체제에서 동작한다 |
아무리 쉬워도 프로그래밍 언어이다 처리 속도가 느리다 문제를 스스로 해결해야 한다 |
01-2 개발 환경 설치 |
- R과 RGui
- R : 프로그래밍 언어 [한국어]
- RGui : R을 실행할 수 있는 통합개발환경(Integrated Development Environment)
- R studio : R을 효과적으로 활용할 수 있는 Gui 프로그램 (즉 IDE의 일종)
- R studio cloud : 설치없이 인터넷에서 사용하는 클라우드 버전의 R studio
01-3 R 스튜디오 인터페이스와 환경설정 |
Script 실행할 코드를 작성하는 영역 (enter는 줄 띄우기 ctrl+enter가 실행) 한 번에 여러 코드를 실행할 수 있다 #은 코드실행에 영향을 미치지 않음 |
Environment Environment : 실행한 데이터세트 모음 History : 실행한 코드 모음 Connections : 데이터베이스와 연결 Tutorial : 튜토리얼 |
Console Console : 실행한 코드의 결과 표시 (또는 Console 탭에서 직접 코드 실행) Terminal : 운영체제와 연결 Jobs : 동시에 여러 작업을 수행하면서 IDE사용가능 (백그라운드에서 오래 걸리는 작업 수행) |
Files Files : 파일탐색기와 동일한 기능 Plots : R 함수로 실행한 그래프 출력 Packages : 패키지 설치 및 관리 Help : 도움말 검색 Viewer : R 코드를 웹브라우저로 출력 |
혼공 미션 |
- 기본 미션
- 선택미션
정리본 PDF |
'프로그래밍 > R 공부' 카테고리의 다른 글
[혼공학습단 10기] 혼자 공부하는 R 데이터 분석 Chapter 05 (2) | 2023.08.03 |
---|---|
(코드 오류와 해결 기록) dcast() : Aggregation function missing: defaulting to length (0) | 2023.07.19 |
[혼공학습단 10기] 혼자 공부하는 R 데이터분석 Chapter 04 (8) | 2023.07.12 |
[혼공 학습단 10기] 혼자 공부하는 R 데이터분석 Chapter 03 (0) | 2023.07.11 |
[혼공학습단 10기] 혼자 공부하는 R 데이터분석 Chapter 02 (0) | 2023.07.05 |