혼공 6

[혼공학습단 10기] 혼자 공부하는 R 데이터분석 Chapter 04

Chapter 04 데이터 다루기 04-1 데이터 수집하기 데이터 수집 데이터 수집 : 분석할 데이터를 준비하는 과정 데이터 원천 설명 직접 입력 벡터나 데이터 프레임을 R에 함수로 입력하는 방법 외부 데이터 가져오기 *.txt, *.csv, *.xlsx 직접 입력 # 데이터 입력 : 벡터 만들기, 데이터 프레임 만들기와 동일 변수명 stem(z, scale=2) > stem(z, scale=3) #결과가 같음 1 | 0 2 | 0 3 | 0 4 | 0 5 | 0 6 | 0 7 | 0 8 | 00 9 | 00 >stem(z, scale=0.5) >stem(z, scale=0.8) #결과가 같음 0 | 1234 0 | 5678899 산점도 plot(x, y) -- plot(변수명) 으로 입력시 전체 산점도..

컴퓨터/R 공부 2023.07.12

(스터디 1-2주차) 혼자 공부하는 SQL Chapter 02 (진행중)

Chapter 02 실전용 SQL 미리 맛보기 02-1 건물을 짓기 위한 설계도 : 데이터베이스 모델링 데이터베이스 모델링이란? 데이터베이스 모델링 : 테이블의 구조를 미리 설계하는 것 테이블의 구조는 데이터베이스에서 가장 중요한 객체 현실 세계의 개체와 작업을 DBMS의 데이터베이스로 옮기는 과정 폭포수 모델 : 대표적으로 사용되는 프로젝트 진행 방식 (소프트웨어 개발 절차) 프로젝트는 현실 세계에서 일어나는 업무를 시스템으로 옮겨놓는 과정 (소프트웨어 개발)포수 모델 프로젝트 계획 : 온라인 쇼핑몰 구상 업무 분석 : 재고의 출납, 결제 방식 등 필요한 모든 업무 나열 및 정리 시스템 설계 : 정리한 업무를 컴퓨터에 적용할 수 있는 형태로 재설계 프로그램 구현 : 설계한 시스템을 프로그래밍 언어로 코..

(스터디 1주차) 혼자 공부하는 SQL Chapter 01

Chapter 01 데이터베이스와 SQL 01-1 데이터베이스 알아보기 데이터베이스의 개념 데이터베이스(Database, DB) : 데이터의 집합 데이터베이스 관리시스템(Database Management System, DBMS) 데이터베이스를 관리하고 운영하는 소프트웨어 데이터의 집합을 관리 + 대용량의 데이터 + 여러 사용자와 공유 예) MySQL, Oracle, SQL server, Maria DB Excel 은 DBMS가 아니다 구조화된 질의 언어 (Structured Query Language, SQL) DBMS에 데이터를 구축, 관리하고 활용하기 위해서 사용되는 언어 국제 표준화기구에서 정한 표준 SQL + 각 제품별 특징을 반영한 기능 표준 SQL : RDBMS에서 사용되는 언어 DBMS의 ..

[혼공학습단 10기] 혼자 공부하는 R 데이터분석 Chapter 02

Chapter 02 데이터 분석을 위한 기본 다지기 02-1 데이터 분석과정 1단계 : 데이터 분석 설계하기 방향성 기획 + 방법론 검토 + 가설 설정 단계 목표 예시 1 주제 설정하기 아침식사 여부와 건강의 상관관계 2 가설 설정하기 [여러 개를 만들어 놓고 나중에 데이터를 확보하는 과정에서 제외한다] (가설1) 아침식사 빈도수가 적을수록 고혈압의 위험이 높을 것이다. (가설2) 아침식사 빈도수가 적을수록 우울증의 위험이 높을 것이다. (가설3) 아침식사 빈도수가 적을수록 삶의 질 지표가 낮을 것이다. 3 분석 가능 변수, 파생 변수 구성 4 분석 항목 결정 빈도분석 (카이제곱 검정) 상관분석 회귀분석 (선형회귀 또는 로지스틱회귀) 2단계 : 데이터 준비하기 1) 직접 입력하는 방법 (ex. ID ty..

컴퓨터/R 공부 2023.07.05

[혼공학습단 10기] 혼자 공부하는 R 데이터분석 Chapter 01

Chapter 01 빅데이터와 R 01-1 빅데이터와 R 언어 빅데이터와 데이터과학 빅데이터는 기존의 방식으로는 처리할 수 없는 많은 양의 데이터. 보통 특징으로 정의된다 그러나 아직 개념이 제대로 정의되지는 않아서 V들이 계속 추가되고 있다 (5V, 6V) 데이터 과학은 데이터를 수집, 가공, 해석하는 학문 3V 양(Volume) 많아야 (물리적인 양) 테라바이트 수준 속도(Velocity) 빨라야 (처리 속도) 적시성있는 분석을 위한 실시간 처리 다양성(Velocity) 높아야 (형태적 다양성) 정형/비정형의 다양한 형태 4V 정확성(Veracity) 또는 가치(Value) 분석할 가치가 있어야 (유의미함) 데이터에서 추출한 패턴이 의미있는지 R 언어의 특징 Robert Gentleman 과 Ross..

컴퓨터/R 공부 2023.07.03