'테이블 형식이 아닌 데이터 구조' 태그의 글 목록

테이블 형식이 아닌 데이터 구조

chapter1. 탐색적 데이터 분석 2020.11.09

chapter1. 탐색적 데이터 분석

2020. 11. 9. 22:25

실험계획법과 최대우도추정의 핵심 개념

탐색적 데이터 분석 exploratory data analysis(EDA)

추론, 즉 적은 표본(샘플)을 가지고 더 큰 모집단에 대한 결론을 도축하기 위한 일련의 복잡한 과정에 관해 주로 다루었다.

데이터 분석

1.1 정형화된 데이터의 요소

사물 인터넷Internet of things(IoT) 은 끊임없이 정보를 실시간으로 쏟아내고 있다.

대부분은 정형화되지 않은 상태이다.

용어 정리

연속형: 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터 (유의어 : 구간형, 실수형, 수치형 데이터) => 수치데이터에는 풍속이나 지속 시간 같은 데이터

이산 : 횟수와 같은 정수 값만 취할 수 있다.(유의어: 정수형 ,횟수 데이터) => 사건의 발생 빈도 같은 데이터

범주형: 가능한 범주 안의 값만을 취할 수 있다.(유의어: 목록 , 열거 , 요인 , 명목, 다향형 데이터)

이진: 두 개의 값(0/1 혹은 참/거짓) 만을 갖는 범주형 데이터의 특수한 경우다.(유의어: 이항적, 논리형 , 지표 , ㅂㄹ러언 데이터)

순서형: 값들 사에에 분명한 순위가 있는 범주형 데이터다.(유의어: 정렬된 요인 데이터)

1.1.1 더 읽을 거리

1.2 테이블 데이터

대표적 : 객체의 형태는 엑셀 스프레드시트나 데이터베이스의 테이블과 같은 테이블 데이터이다.

데이터 프레임

피처 : 일반적으로 테이블의 각 열이 하나의 피처를 의미한다.

결과 :

레코드 : 행

테이블 데이터는 기본적으로 각 레코드(사건)를 나타내는 행과 , 피처 (변수)를 나타내는 열로 이루어진 이차원 행렬이라고 할 수 있다.

1.2.1 데이터 프레임과 인덱스

data.frame 내부적으로 행번호에 따라 정수로 된 인덱스를 갖고 있다.

row.names 속성을 조정하면 사용자강 원하는 키를 만들 수 도 있다.

하지만 r의 DATA.FRAME은 기본적으로 다중 인덱슬르 지원하지 않는다.

data.table과 dplyr

1.2.2 테이블 형식이 아닌 데이터 구조

객체

필드

1.3 위치 추정

대푯값 typical value

평균: 모든 값의 총합을 개수로 나눈값

가중 평균: 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈값

중간값: 데이터에서 가장 가운데 위치한 값

가중 중간값: 데이터를 정렬한 후 , 각 가중치 값을 위에서부터 더할 때 , 총합의 중간이 위치하는 데이터 값

절사 평균:정해진 개수의 극단값을 제외한 나머지 값들의 평균

로버스트하다: 극단값들에 민감하지 않다는 것을 의미한다.(저항성 있다.)

특잇값: 대부분의 값과 매우 다른 데이터값(극단값)

1.3.1 평균

가장 기본적인 위치 추정 방법이다.

평균은 모든 값의 총합을 값의 개수로 나눈 값이다.

평균을 조금 변형한 것 중 하나로 절사평균이 있다.

절사평균은 값들을 크기 순으로 정렬한 후 , 양끝에서 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균을 말한다.

절사평균은 극단값의 영향을 제거한다.

1.3.2 중간값과 로버스트 추정

중간값: 데이터를 일렬로 정렬했을 때 , 한가운데에 위치하는 값을 중간값이라고 한다.

데이터 정렬

특잇값:

중간값은 결과를 왜곡할 수도 있는데 특잇값(극단값)들의 영향을 받지 않으므로 로버스트한 위치 추정 방법이라고 알려져 있다.

mean 평균

median 중간값

1.4 변이 추정

위치는 데이터의 특징을 요약하는 다양한 요소들 중 하나이다.

두번 때 요소인 변이는 데이터 값이 얼마나 밀집해 있ㄴ느지 퍼져 있는지를 나타내는 산포도를 나타낸다.

편차: 관측값과 위치 추정값사이의 차이

분산: 평균과의 편차를 제곱한 값들의 합을 n-1로 나눈값, n은 데이터개수

표준편차 : 분산의 제곱근

평균절대편차 : 평균과의 편차의 절대값의 평균

중간값의 중위절대편차: 중간값과의 편차의 절댓값의 중간값

범위: 데이터의 최댓값과 최솟값의 차이

순서통계량: 최소에서 최대까지 정렬된 데이터 값에 따른 계량형

백분위수: 어떤 값들의 p퍼센트가 이 값 혹은 더 작은 값을 갖고 , (100-p) 퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값

사분위범위 : 75번쨰 백분위수와 25번쨰 백분위수 사이의 차이

1.4.1 표준편차와 관련 추정값들

가장 대표적으로 사용하는 변위 추정들은 관측 데이터와 위치 추정값 사이의 차이, 즉 편차를 기본으로 한다.

1.4.2 백분위수에 기초한 추정

변위를 추정하는 또 다른 접근은 정렬된 데이터가 얼마나 퍼져 있는지를 보는 것이다.

정렬(순위)데이터를 나타내는 통계량을 순서통계량이라고 부른다.

여기서 가장 기본이 되는 측돈느 가장 큰 값과 작은 값의 차이를 나타내는 범위이다.

1.5 데이터 분포 탐색하기

상자그림: 투키가 데이터의 분포를 시각화하기 위한 간단한 방법으로 소개한 그림

도수분포표: 어떤 구간에 해당하는 수치 데이터 값들의 빈도를 나타내는 기록

히스트그램: x축은 구간들을 , y축은 빈도수를 나타내는 도수 테이블의 그림

밀도 그림: 히스트그램을 부드러운 곡선으로 나타낸 그림, 커널밀도 추정을 주로 사용한다.

1.5.1 백분위수와 상자그림

quantile함수

상자그림 boxplot

1.5.2 도수분포표와 히스토그램

hist

1.5.3 밀도 추정

커널밀도추정: 데이터로부터 직접 계산한다.

1.6 이진 데이터와 범주 데이터 탐색하기

최빈값: 데이터에서 가장 자주 등장하는 범주 혹은 값

기댓값: 범주에 해당하는 어떤 수치가 있을 떄 , 범주의 출현 확률에 따른 평균

막대도표 : 각 범주의 빈도수 혹은 비율을 막대로 나타낸 그림

파이그림 : 각 범주의 빈도수 혹은 비율을 원의 부채꼴 모양으로 나타낸 그림

1.6.1 최빈값

데이터에서 가장 자주 등장하는 값 혹은 값들(여러 값들의 최다 빈도수가 같을 경우)을 의미한다.

1.6.2 기댓값

1. 각 결괏값과 발생 확률을 곱한다.

2. 이 값들을 모두 더한다.

1.7 상관관계

상관계수 : 수치적 변수들 간에 어떤 관계가 있는지를 나타내기 위해 사용되는 측정량(-1에서 +1 까지의 범위)

상관행렬: 행과 열이 변수들을 의미하는 표를 말하며 , 각 셀은 그 행과 열에 해당하는 변수들 간의 상관관계를 의미한다.

산점도 : x측과 y측이 서로 다른 두개의 변수를 나타내는 도표

1.7.1 산점도

두 변수 사이의 관계를 시각화하는 가장 기본적인 방법

1.8 두개 이상의 변수 탐색하기

분할표: 두가지 이상의 범주형 변수의 빈도수를 기록한 표

육각형 구간: 두 변수를 육각형 모양의 구간으로 나눈 그림

등고 도표 : 지도상에 같은 높이의 지점을 등고선으로 나타내는 것처럼 , 두 변수의 밀도를 등고선으로 표시한 도표

바이올린 도표 : 상자그림과 비슷하지만 밀도 추정을 함께 보여준다.

1.8.1 육각형 구간과 등고선(수치형 변수 대 수치형 변수를 시각화)

육각형 구간 그림은 킹 카운티에 위치한 집들의 과세 평가액과 크기 사이의 관계를 나타낸다.

1.8.2 범주형 변수 대 범주형 변수

분할표로 표시

1.8.3 범주형 벼수 대 수치형 변수

바이올린 도표 geom_violin()

1.8.4 다변수 시각화하기

조건화라는 개념을 통해 두 변수 비교용 도표(산점도 , 육각형 구간, 상자그림)를 더 여러 변수를 비교하는 용도로 확장하여 활용할 수도 있다.

'책 > 데이터 과학을 위한 통계' 카테고리의 다른 글

04. 회귀와 예측 05. 분류 06. 통계적 머신러닝 07. 비지도 학습 (0)	2020.11.29
03. 통계적 실험과 유의성 검정 (0)	2020.11.21
02. 데이터와 표본분포 (0)	2020.11.14

PREV 1 NEXT

NAIAHD