1. 정형화된 데이터의 요소
데이터 과학에서 가장 중요한 도전은 폭발적인 원시 데이터를 활용 가능한 형태의 정보로 변환(정형화)하는 것
아래는 정형 데이터의 종류임
연속형 Continuous |
일정 범위 안에서 어떤 값이든 취할 수 있는 데이터(구간형, 실수형, 수치형...) |
이산 Discrete |
정수 값만 취할 수 있는 데이터(정수형, 횟수...) |
범주형 Categorical |
가능한 범주 안 값만 취할 수 있는 데이터(목록, 열거, 요인, 명목, 다항형...) |
이진 Binary |
두 개의 값만을 가지는 특수한 범주형 데이터(이항적, 논리형, 지표, 불리언...) |
순서형 Ordinal |
값들 사이에 분명한 순서가 있는 데이터(정렬된 요인 데이터...) |
시각화, 해석, 통계 모델 결정 등에 데이터의 종류는 가장 중요한 역할을 함
데이터의 종류를 정하는 것은 해당 데이터를 어떻게 처리할지 결정하는 것과 같음
2. 테이블 데이터 Rectangular Data
데이터 분석에서 가장 대표적으로 사용되는 객체의 형태는 테이블 데이터(Rectangular Data)
테이블 데이터는 각 레코드를 나타내는 행(Row)와 피처를 나타내는 열(Column)으로 이루어진 이차원 행렬
데이터 분석이나 모델링을 위해서는 데이터를 테이블 데이터 형태로 변환해야 함
데이터 프레임 Data frame |
테이블 형태의 데이터 구조 |
피처 Feature |
특징, 속성, 입력, 예측변수, 변수 등을 의미 |
결과 Outcome |
데이터 분석 프로젝트의 목표는 어떤 결과를 예측하는 데에 있음 실험이나 연구에서 결과를 예측하기 위헤 피처 사용 즉, 결과는 종속변수, 응답, 목표, 출력 등을 의미 |
레코드 Record |
기록값, 사건, 사례, 예제, 관측값, 패턴, 샘플 등을 의미 |
테이블 형식이 아닌, 시계열 데이터, 공간 데이터, 그래프(네트워크) 데이터 등도 존재
3. 위치 추정
주어진 데이터를 살펴보는 가장 기초적인 단계는 갹 피처의 대푯값(typical value)을 구하여 중심경향성(대부분 값이 어디쯤 위치하는지)을 살펴보는 것
평균 mean, average | 모든 값의 총합을 개수로 나눈 값 |
가중평균 weighted mean | 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값 |
중간값 median | 데이터에서 가장 중간에 위치한 값(50번째 백분위수) |
가중 중간값 weighted median | 데이터를 정렬한 후, 각 가중치 값을 위에서부터 더할 때, 총합의 중간에 위치한 값 |
절사 평균값 trimmed mean | 정해진 개수의 극단값(extreme value)를 제외한 나머지 값들의 평균 |
로버스트하다 robust | 극단값들에 민감하지 않다 |
특잇값 outlier | 대부분의 값과 매우 다른 데이터 값(극단값) |
3-1. 평균
평균은 가장 기본적인 위치 추정 방법
모집단 표본의 평균은 $$\bar{x} = \frac{\sum_{i}^{n}x_{i}}{n}$$
이때, n은 관측값의 개수를 의미
절사평균은 값을 정렬하고 양끝에서 일정 개수의 값들을 삭제한 후 구함
절사평균은 $$\bar{x} = \frac{\sum_{i=p+1}^{n-p}x_{(i)}}{n-2p}$$
이때 $x_{(1)}, x_{(2)}, ..., x_{(n)}$은 오름차순으로 정렬되어 있음($x_{(n)}$이 가장 큼)
따라서 절사평균은 극단값의 영향을 제거할 수 있음
가중평균은 $$\bar{x}_{w} = \frac{\sum_{i=1}^{n}w_{i}x_{i}}{\sum_{i}^{n}w_{i}}$$어떤 값들이 본래 다른 값들에 비해 큰 변화량을 가져 낮은 가중치를 주거나,
데이터가 부족한 소수 그룹에 더 높은 가중치를 적용하는 등으로 활용 가능
3-2. 중간값과 로버스트 추정
중간값은 한가운데에 위치하는 값을 취하며, 만약 데이터 수가 짝수라면 가운데 두 값의 평균을 취함
정렬된 데이터의 가운데 값들만 사용하므로, 결과를 왜곡할 수 있는 특잇값의 영향을 받지 않아 로버스트한 위치 추정법
가중 중간값은 어떤 위치를 기준으로 상위 절반의 가중치의 합이 하위 절반의 가중치의 합과 동일한 위치의 값
중간값과 마찬가지로 특잇값에 로버스트함
4. R 실습: 인구에 따른 살인 비율의 위치 추정
# 데이터 불러오기
state <- read.csv(file="./state.csv")
head(state)
# 평균 mean
mean(state[["Population"]])
# 절사평균 trimmed mean
mean(state[["Population"]], trim=0.1) # 가장 큰 5개 주와 가장 작은 5개 주의 인구 제외
# 중간값 median
median(state[["Population"]])
가중평균이나 가중 중간값을 구하기 위해선 'matrixStats' 패키지가 필요
# 패키지 설치
install.packages("matrixStats")
# 가중평균 weighted mean
library("matrixStats")
weighted.mean(state[["Murder.Rate"]], w=state[["Population"]])
# 가중 중간값 weighted median
weightedMedian(state[["Murder.Rate"]], w=state[["Population"]])
싸니까 믿으니까 인터파크도서
데이터 분석에서 머신러닝까지 50가지 핵심 개념 데이터 과학에 필요한 만큼만 배우는 족집게 통계학 통계 기법은 데이터 과학의 핵심이지만, 전공자가 아닌 이상 정식으로 통계를 공부하고 데
book.interpark.com