IT

[데이터 과학을 위한 통계] 1. 탐색적 데이터 분석 Exploratory Data Analysis(1)

bsj54 2021. 3. 14. 14:24

1. 정형화된 데이터의 요소

데이터 과학에서 가장 중요한 도전은 폭발적인 원시 데이터를 활용 가능한 형태의 정보로 변환(정형화)하는 것

 

아래는 정형 데이터의 종류임

연속형 Continuous

일정 범위 안에서 어떤 값이든 취할 수 있는 데이터(구간형, 실수형, 수치형...)

이산 Discrete

정수 값만 취할 수 있는 데이터(정수형, 횟수...)

범주형 Categorical

가능한 범주 안 값만 취할 수 있는 데이터(목록, 열거, 요인, 명목, 다항형...)

이진 Binary

두 개의 값만을 가지는 특수한 범주형 데이터(이항적, 논리형, 지표, 불리언...)

순서형 Ordinal

값들 사이에 분명한 순서가 있는 데이터(정렬된 요인 데이터...)

 

시각화, 해석, 통계 모델 결정 등에 데이터의 종류는 가장 중요한 역할을 함

데이터의 종류를 정하는 것은 해당 데이터를 어떻게 처리할지 결정하는 것과 같음

 

 

 

2. 테이블 데이터 Rectangular Data

데이터 분석에서 가장 대표적으로 사용되는 객체의 형태는 테이블 데이터(Rectangular Data)

테이블 데이터는 각 레코드를 나타내는 행(Row)와 피처를 나타내는 열(Column)으로 이루어진 이차원 행렬

데이터 분석이나 모델링을 위해서는 데이터를 테이블 데이터 형태로 변환해야 함

 

데이터 프레임 Data frame

테이블 형태의 데이터 구조

피처 Feature

특징, 속성, 입력, 예측변수, 변수 등을 의미

결과 Outcome

데이터 분석 프로젝트의 목표는 어떤 결과를 예측하는 데에 있음

실험이나 연구에서 결과를 예측하기 위헤 피처 사용

즉, 결과는 종속변수, 응답, 목표, 출력 등을 의미

레코드 Record

기록값, 사건, 사례, 예제, 관측값, 패턴, 샘플 등을 의미

 

 

데이터 프레임의 예시(출처: 데이터과학을위한통계, 앤드루 부르스 저, 한빛미디어) 

 

테이블 형식이 아닌, 시계열 데이터, 공간 데이터, 그래프(네트워크) 데이터 등도 존재

 

 

 

3. 위치 추정

주어진 데이터를 살펴보는 가장 기초적인 단계는 갹 피처의 대푯값(typical value)을 구하여 중심경향성(대부분 값이 어디쯤 위치하는지)을 살펴보는 것

 

평균 mean, average 모든 값의 총합을 개수로 나눈 값
가중평균 weighted mean 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값
중간값 median 데이터에서 가장 중간에 위치한 값(50번째 백분위수)
가중 중간값 weighted median 데이터를 정렬한 후, 각 가중치 값을 위에서부터 더할 때, 총합의 중간에 위치한 값
절사 평균값 trimmed mean 정해진 개수의 극단값(extreme value)를 제외한 나머지 값들의 평균
로버스트하다 robust 극단값들에 민감하지 않다
특잇값 outlier 대부분의 값과 매우 다른 데이터 값(극단값)

 

 

3-1. 평균

평균은 가장 기본적인 위치 추정 방법

 

모집단 표본의 평균은 $$\bar{x} = \frac{\sum_{i}^{n}x_{i}}{n}$$

이때, n은 관측값의 개수를 의미

 

 

절사평균은 값을 정렬하고 양끝에서 일정 개수의 값들을 삭제한 후 구함

절사평균은 $$\bar{x} = \frac{\sum_{i=p+1}^{n-p}x_{(i)}}{n-2p}$$

이때 $x_{(1)}, x_{(2)}, ..., x_{(n)}$은 오름차순으로 정렬되어 있음($x_{(n)}$이 가장 큼)

따라서 절사평균은 극단값의 영향을 제거할 수 있음

 

 

가중평균은 $$\bar{x}_{w} = \frac{\sum_{i=1}^{n}w_{i}x_{i}}{\sum_{i}^{n}w_{i}}$$어떤 값들이 본래 다른 값들에 비해 큰 변화량을 가져 낮은 가중치를 주거나,

데이터가 부족한 소수 그룹에 더 높은 가중치를 적용하는 등으로 활용 가능

 

 

 

3-2. 중간값과 로버스트 추정

중간값은 한가운데에 위치하는 값을 취하며, 만약 데이터 수가 짝수라면 가운데 두 값의 평균을 취함

정렬된 데이터의 가운데 값들만 사용하므로, 결과를 왜곡할 수 있는 특잇값의 영향을 받지 않아 로버스트한 위치 추정법

 

가중 중간값은 어떤 위치를 기준으로 상위 절반의 가중치의 합이 하위 절반의 가중치의 합과 동일한 위치의 값

중간값과 마찬가지로 특잇값에 로버스트함

 

 

 

4. R 실습: 인구에 따른 살인 비율의 위치 추정

 

state.csv
0.00MB

 

# 데이터 불러오기
state <- read.csv(file="./state.csv")

head(state)

 

# 평균 mean
mean(state[["Population"]])
# 절사평균 trimmed mean
mean(state[["Population"]], trim=0.1) # 가장 큰 5개 주와 가장 작은 5개 주의 인구 제외
# 중간값 median
median(state[["Population"]])

 

가중평균이나 가중 중간값을 구하기 위해선 'matrixStats' 패키지가 필요

# 패키지 설치
install.packages("matrixStats")

 

# 가중평균 weighted mean
library("matrixStats")

weighted.mean(state[["Murder.Rate"]], w=state[["Population"]])
# 가중 중간값 weighted median
weightedMedian(state[["Murder.Rate"]], w=state[["Population"]])

 

 

 

 

Textbook used: book.interpark.com/product/BookDisplay.do?_method=detail&sc.prdNo=292640810&gclid=CjwKCAiA4rGCBhAQEiwAelVti4d5c0t5OEqryD2KurpuFLZHRC0jpUYponnQ_tjM91voKeFQffHWkBoCoDQQAvD_BwE 

 

싸니까 믿으니까 인터파크도서

데이터 분석에서 머신러닝까지 50가지 핵심 개념 데이터 과학에 필요한 만큼만 배우는 족집게 통계학 통계 기법은 데이터 과학의 핵심이지만, 전공자가 아닌 이상 정식으로 통계를 공부하고 데

book.interpark.com