'책/데이터 과학을 위한 통계' 카테고리의 글 목록

책/데이터 과학을 위한 통계

04. 회귀와 예측 05. 분류 06. 통계적 머신러닝 07. 비지도 학습 2020.11.29
03. 통계적 실험과 유의성 검정 2020.11.21
02. 데이터와 표본분포 2020.11.14
chapter1. 탐색적 데이터 분석 2020.11.09

04. 회귀와 예측 05. 분류 06. 통계적 머신러닝 07. 비지도 학습

2020. 11. 29. 20:48

728x90

01. 단순선형회귀

단순선형회귀 :X,y 한 변수와 또 다른 변수의 크기 사이에 어떤 관계

선형 모형 linear model

독립변수 혹은 예측변수

응답변수 혹은 종속변수

02. 다중선형회귁귀

제곱근 평균제곱오차 : 회귀시 평균제곱오차의 제곱근. 회귀 모형을 평가하는 데 가장 널리 사용되는 측정 지표다.

03. 회귀를 이용한 예측

외삽법: 모델링에 사용된 데이터 범위를 벗어난 부분까지 모델을 확장하는 것

04. 회귀에서의 요인변수

범주형 변수

05. 회귀방정식 해석

종속변수를 예측

06. 가정 검정: 회귀 진단

여러 측정 지표들을 고려하여 , 매 단계마다 모델이 데이터에 얼마나 적합한지를 평가한다.

07. 다항회귀와 스플라인 회귀

스플라인 회귀 : 다항 구간들을 부드러운 곡선 형태로 피팅한다.

05. 분류

범주의 개수

01. 나이브 베이즈

주어진 결과에 대해 예측변수 값을 관찰할 확률을 사용하여 예측변수 값을 관찰할 확률을 사용하여 ,예측변수가 주어졌을 때 , 결과 Y = i를 관찰할 확률을 추정하한다.

02. 판별 분석

초창기의 통계분류 방법이다.

공분산: 하나의 변수가 다른 변수와 함께 변화하는 정도(유사한 크기와 방향)를 측정하는 지표

판변함수 : 예측 변수에 적용했을 때 , 클래스 구분을 최대화하는 함수

03. 로지스틱 회귀

이진형 변수라는 점만 빼면 다중선형회귀와 유사하다.

04. 분류 모델 평가하기

예측 모델링에서 , 수많은 모델을 시도해보고 각각에 홀드아웃 표본(시험 표본 혹은 타당성 검사 표본이라고도 부른다.)

혼동행렬: 분류 결과를 나타내는 가장 대표적인 행렬이다.

05. 불균형 데이터 다루기

과소표본추출(다움샘플링)을 해서 모델링할 때 0과 1의 데이터 개수에 균형을 맞출 수 있다.

06. 통계적 머신러닝

앙상블 학습

의사결정 트리

6.1 k최근접 이웃:

특징들이 가장 유사한 k개의 레코드를 찾는다.

분류

예측

두 벡터 사이에 가장 많이 사용되는 지표는 유클리드 거리이다.

맨하탄거리

6.2 트리 메돌

회귀 및 분석트리 , 의사결정 트리 , 혹은 단순히 그냥 트리라도고 불리며

6.3 배깅과 랜덤 포레스트

랜덤 포레스트 : 의사 결정 트리 모델에 기반을 둔 배깅 추정 모델

배깅 : 데이터를 부트스트래핑해서 여러 모델을 만드는 일반적인 방법

6.4 부스팅

앙상블 형태

에이다부스트, 그레이디언트 부스팅, 확률적 그레이디언트 부스팅

07. 비지도 학습

레이블이 달린 데이터를 이용해 모델을 학습하는 과정 없이

7.1 주성분분석 : 예측 변수들의 선형 결합

7.2 K평균 클러스터링 : 서로 유사한 레코드들의 집합

7.3 계층적 클러스터링 :k평균보다 유연하고 , 수치형 변수가 아니어도 쉽게 적용이 가능하다.

7.4 모델 기반 클러스터링

7.5 스케일링과 범주형 변수

스케일링: 데이터의 범위를 늘리거나 줄이는 방식으로 여러 변수들이 같은 스케일에 오도록 하는 것

'책 > 데이터 과학을 위한 통계' 카테고리의 다른 글

03. 통계적 실험과 유의성 검정 (0)	2020.11.21
02. 데이터와 표본분포 (0)	2020.11.14
chapter1. 탐색적 데이터 분석 (0)	2020.11.09

03. 통계적 실험과 유의성 검정

2020. 11. 21. 19:04

728x90

가설 확인하거나 기각하기 위해 목표를 가짐

추론; 제한된 데이터로 주어진 실험 결과를 더 큰 과정 또는 모집단에 적용하려는 의도를 반영

3.1 A/B검증

A/B검증 두 처리 방법, 제품 , 혹은 절차 중 어느 쪽이 다른 쪽보다 더 우월하다는 것을 입증하기 위해 실험군을 두 그룹으로 나누어 진행하는 실험

대조군

처리군

무작위로 실험

3.2 가설검정

가설검정 혹은 유의성 검증

귀무가설 =

대립가설 < > !=

3.3 재표본 추출

랜덤한 변동성을 알아보자는 일반적인 목표를 가지고 , 관찰된 데이터의 값에서 표본을 반복적으로 추출하는 것

순열검정

3.4 통계적 유이성과 P값

우연히 일어난 것인지 아니면 우연히 일어날 수 없는 극단적인 것인지를 판단하는 방법

3.5 t검증

유의성 검증 방법

t분포

3.6 다중검증

제1종 오류: 어떤 효과가 통계적으로 유의미하다고 잘못된 결론을 내린다.

p vlaue 조정: 동일한 데이터에 대해 다중검정을 수행하는 경우에 필요하다.

과대적합(오버피팅) overfitting

거짓 발견 비율: 다중검정에서 1종 오류가 발생하는 비율

원래 주어진 여러 개의 가설검정들 가운데 하나가 유의미한 효과가 있다고 잘못 판단하는 비율을 나타내는데 사용되었다.

'중복도' 같은 일반적인 무제를 포함하여 여러 가지 이류로 , 더 많은 연구가 반드시 더 나은 연구를 의미하는 것이 아니다.

3.7 자유도

자유도: 표본 데이터에서 계산된 통계량에 적용되며 변화가 가능한 값들의 개수를 나타낸다.

df : 자유도

해당 데이터에서 관측값의 개수

3.8 분산분석

여러 그룹간의 통계적으로 유의미한 차이를 검정하는 통계적 절차

F통계량 : 그룹 평균 간의 차이가 랜덤 모델에서 예상되는 것보다 벗어나는 정도를 측정하는 표준화된 통계량

3.9 카이제곱 검정

카이제곱 검정 횟수 관련 데이ㅓ에 주로 사용되며 예상되는 분포에 얼마나 잘 맞는지를 검정한다.

카이제곱 통계량: 기댓값으로부터 어떤 관찰 값까지의 거리를 나타내는 측정치

기댓값: 어떤 가정(보통 귀무가설)으로부터 데이터가 발생할 때, 그에 대해 기대하는 정도

3.10 멀티암드 밴딧 알고리즘

실험설계에 대한 전통적인 통계쩍 접근 방식보다 명시적인 최적화와 좀 더 빠른 의사 결정을 가능하게 하며 , 여러 테스트 ,특히 웹 테스트를 위해 이를 사용한다.

3.11 검정력과 표본크기

검정력이란 주어진 표보크기로 주어진 효과 크기를 알아낼 확률

유의수준: 검증시 사용할 통계 우의 수준

'책 > 데이터 과학을 위한 통계' 카테고리의 다른 글

04. 회귀와 예측 05. 분류 06. 통계적 머신러닝 07. 비지도 학습 (0)	2020.11.29
02. 데이터와 표본분포 (0)	2020.11.14
chapter1. 탐색적 데이터 분석 (0)	2020.11.09

02. 데이터와 표본분포

2020. 11. 14. 19:34

728x90

표본추출(표집, 샘플링)

다양한 데이터를 효과적으로 다루고 데이터 편향을 최소화하기 위한 방법으로 표본추출의 필요성이 더 커지고 있다.

미지의 분포

2.1 램덤표본추출과 표본편향

표본은 더 큰 데이터 집합으로 부터 얻은 데이터의 부분집합이다.

통계학자들은 이 큰 데이터 집합을 모집단이라고 부른다.

표본 : 더 큰 데이터 집합으로 부터 얻은 부분집합

모집단: 어떤 데이터 집합을 구성하는 전체 대상 혹은 전체 집합

N(n) : 모집단(표본)의 크기

임의 표집(랜덤 표본추출): 무작위로 표본을 추출하는 것

층화표집(층화 표본추출): 모집단을 층으로 나눈 뒤 , 각 층에서 무작위로 표본을 추출하는 것

단순임의 표본(단순랜덤 표본): 모집단 층화 없이 랜덤 표본 추출로 얻은 표본

표본편향: 모딥단을 잘못 대표하는 부분

랜덤표본추출은 대상이 되는 모집단 내의 선택 가능한 원소들을 무작위로 추출하는 과저을 말하며, 각 추첨에서 모든 원소는 동일한 확률로 뽑히게 된다.

복원추출: 중복 추출이 가능하도록 해당 샘픙를 다시 모집단에 포함시키는

비복원추출: 한번 뽑힌 원소는 추후 추첨에 사용하지 않는 것

대표성:

2.1.1 편향

통계적 편향은 측정 과정 혹은 표본추출 과정에서 발생하는 계통적인 오차를 의미한다.

2.1.2 랜덤 선택

층화표본추출: 모집단을 여러 층으로 나누고 각 층에서 무작위로 샘플을 추출한다.

2.1.3 크기와 품질 : 크기는 언제 중요해질까?

빅데이터가 가치 있을 것이다는 일반적인 예상은 데이터가 크고 동시에 희박할 때이다.

2.1.4 표본평균과 모평균

2.2 선택 편향

편향 : 계통적 오차

데이터 스누핑: 뭔가 흥미로운 것을 찾아 광범위하게 데이터를 살피는 것

방대한 검색 효과 : 중복 데이터 모델링이나 너무 많은 예측 변수를 고려하는 모델링에서 비롯되는 편향 혹은 비재현성

2.2.1 평균으로의 회귀

평균으로의 회귀란 주어진 어떤 변수를 연속적으로 측정했을 때 나타내는 현상이다.

2.3 통계학에서의 표본분포

표본통계량: 더 큰 모집단에서 추출된 표본 데이터들로부터 얻은 측정 지표

데이터 분포 : 어떤 데이터 집합에서의 각 개별 값의 도수분포

표본분포: 여러 표본들 혹은 재표본들로부터 얻은 표본통계량의 도수분포

중심극한 정리 : 표본크기가 커질수록 표본분포가 정규분포를 따르는 경향

표준오차 : 여러 표본들로부터 얻은 표본통계량의 변량

2.3.1 중심극한정리

2.3.2 표준오차

표준오차 통계에 대한 표본분포의 변동성을 한마디로 말해주는 단일 측정 지표이다.

2.4 부트스트랩

부트스트랩표본: 관측 데이터 집합으로붜 얻은 복원추출 표본

재표집(재표본추출, 리샘플링): 관측 데이터로부터 반복해서 표본추출하는 과정, 부트스트랩과 순열(셔플링)과정을 포함한다.

복원추출: 다시 넣어서 관측할 경우

배깅 : 여러 부트스트랩 샘플을 가지고 트리를 여러 개 만든 다음 각 트리에서 나온 예측값을 평균 내는 것이 일반적으로 단일 트리를 사용하는 것보다 효과적이다.

2.4.1재표본 추출 대 부트스트래핑

부트스르탭(데이터로부터 복원추출)은 표본통계량의 변동성을 평가하는 강력한 도구이다.

부스트르랩은 표본분포의 수학적 근사치에 대한 엄청난 연구 없이도 다양한 환경에서 유사한 방식으로 적용될 수 있다.

2.5 신뢰구간

신뢰수준: 같ㅇㄴ 모집단으로 부터 같은 방식으로 얻은 ,관심 포함할 것으로 예쌍되는 신뢰구간의 백분율

구간 끝점: 신뢰구간의 최상위 , 최하위 끝점

신뢰수준

t-분포

2.6 정규분포

오차 : 데이터 포인트와 예측값 혹은 평균 사이의 차이

표준화 : 평균을 빼고 표준편차로 나눈다.

z-점수: 개별 데이터 포인트를 정규화한 결과

표준정규분포 : 평균 =0 , 표준편차 =1인 정규분포

qq그림 : 표본분포가 정규분포에 얼마나 가까운지를 보여준느 그림

2.6.1 표준 정규분포

Z분포

2.7 긴꼬리 분포

꼬리 : 적은 수의 극단값이 주로 존재하는 , 도수분포의 길고 좁은 부분

왜도 : 분포의 한쪽 꼬리가 반대쪽 다른 꼬리보다 긴 정도

정규분포로 예측되는 것보다 훨씬 더 자주 일어날 수 있다고 예측하는 흑고니이론을 제안했다.

2.8 스튜던트의 t분포

t분포는 정규분포와 생김새가 비슷하지만, 꼬리 부분이 약간 더 두껍고 길다.

n 표본크기

자유도 : 다른 표본크기 , 통계량 , 그룹의 수에 따라 t분포를 조절하는 변수

2.9 이항분포

시행: 독립된 결과를 가져오는 하나의 사건

성공:

이항식 : 두가지 결과 ->이진 결과

이항시행: 구가지 결과를 가져오는 시행

이항분포 : x번 시행에서 성공한 횟수에 대한 분포

=>R에서는 dbinom 이항 확률을 계산 할때 사용한다.

시행회수 n

성공한 횟수 : x

성공 확률 p

2.10 푸아송 분포와 그외 관련 분포들

람다: 단위 시간이나 단위 면적당 사건이 발생하는 비율

푸아송 분포 : 표집단 단위 시간 혹은 단위 영역에서 발생한 사건의 도수분포

지수분포 : 한 사건에서 그 다음 사건까지의 시간이나 영역에 대한 도수분포

베이불 분포 : 사건 발생률이 시간에 따라 변화하는 , 지수분포의 일반화된 버전

푸아송 분포의 핵심 파라미터는 람다이다.

rpois함수

지수분포

rexp

n 난수 발생 개수

rate 비율

고장률 추정

드물게 일어나는 사건에 대한 것

베이불 분포

사건이 지나감에 따라 일정하지 않다.

예를 들면 베터리 처럼 사용하면 할 수 록 수명이 짧아진다.

rweibull

'책 > 데이터 과학을 위한 통계' 카테고리의 다른 글

04. 회귀와 예측 05. 분류 06. 통계적 머신러닝 07. 비지도 학습 (0)	2020.11.29
03. 통계적 실험과 유의성 검정 (0)	2020.11.21
chapter1. 탐색적 데이터 분석 (0)	2020.11.09

chapter1. 탐색적 데이터 분석

2020. 11. 9. 22:25

728x90

실험계획법과 최대우도추정의 핵심 개념

탐색적 데이터 분석 exploratory data analysis(EDA)

추론, 즉 적은 표본(샘플)을 가지고 더 큰 모집단에 대한 결론을 도축하기 위한 일련의 복잡한 과정에 관해 주로 다루었다.

데이터 분석

1.1 정형화된 데이터의 요소

사물 인터넷Internet of things(IoT) 은 끊임없이 정보를 실시간으로 쏟아내고 있다.

대부분은 정형화되지 않은 상태이다.

용어 정리

연속형: 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터 (유의어 : 구간형, 실수형, 수치형 데이터) => 수치데이터에는 풍속이나 지속 시간 같은 데이터

이산 : 횟수와 같은 정수 값만 취할 수 있다.(유의어: 정수형 ,횟수 데이터) => 사건의 발생 빈도 같은 데이터

범주형: 가능한 범주 안의 값만을 취할 수 있다.(유의어: 목록 , 열거 , 요인 , 명목, 다향형 데이터)

이진: 두 개의 값(0/1 혹은 참/거짓) 만을 갖는 범주형 데이터의 특수한 경우다.(유의어: 이항적, 논리형 , 지표 , ㅂㄹ러언 데이터)

순서형: 값들 사에에 분명한 순위가 있는 범주형 데이터다.(유의어: 정렬된 요인 데이터)

1.1.1 더 읽을 거리

1.2 테이블 데이터

대표적 : 객체의 형태는 엑셀 스프레드시트나 데이터베이스의 테이블과 같은 테이블 데이터이다.

데이터 프레임

피처 : 일반적으로 테이블의 각 열이 하나의 피처를 의미한다.

결과 :

레코드 : 행

테이블 데이터는 기본적으로 각 레코드(사건)를 나타내는 행과 , 피처 (변수)를 나타내는 열로 이루어진 이차원 행렬이라고 할 수 있다.

1.2.1 데이터 프레임과 인덱스

data.frame 내부적으로 행번호에 따라 정수로 된 인덱스를 갖고 있다.

row.names 속성을 조정하면 사용자강 원하는 키를 만들 수 도 있다.

하지만 r의 DATA.FRAME은 기본적으로 다중 인덱슬르 지원하지 않는다.

data.table과 dplyr

1.2.2 테이블 형식이 아닌 데이터 구조

객체

필드

1.3 위치 추정

대푯값 typical value

평균: 모든 값의 총합을 개수로 나눈값

가중 평균: 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈값

중간값: 데이터에서 가장 가운데 위치한 값

가중 중간값: 데이터를 정렬한 후 , 각 가중치 값을 위에서부터 더할 때 , 총합의 중간이 위치하는 데이터 값

절사 평균:정해진 개수의 극단값을 제외한 나머지 값들의 평균

로버스트하다: 극단값들에 민감하지 않다는 것을 의미한다.(저항성 있다.)

특잇값: 대부분의 값과 매우 다른 데이터값(극단값)

1.3.1 평균

가장 기본적인 위치 추정 방법이다.

평균은 모든 값의 총합을 값의 개수로 나눈 값이다.

평균을 조금 변형한 것 중 하나로 절사평균이 있다.

절사평균은 값들을 크기 순으로 정렬한 후 , 양끝에서 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균을 말한다.

절사평균은 극단값의 영향을 제거한다.

1.3.2 중간값과 로버스트 추정

중간값: 데이터를 일렬로 정렬했을 때 , 한가운데에 위치하는 값을 중간값이라고 한다.

데이터 정렬

특잇값:

중간값은 결과를 왜곡할 수도 있는데 특잇값(극단값)들의 영향을 받지 않으므로 로버스트한 위치 추정 방법이라고 알려져 있다.

mean 평균

median 중간값

1.4 변이 추정

위치는 데이터의 특징을 요약하는 다양한 요소들 중 하나이다.

두번 때 요소인 변이는 데이터 값이 얼마나 밀집해 있ㄴ느지 퍼져 있는지를 나타내는 산포도를 나타낸다.

편차: 관측값과 위치 추정값사이의 차이

분산: 평균과의 편차를 제곱한 값들의 합을 n-1로 나눈값, n은 데이터개수

표준편차 : 분산의 제곱근

평균절대편차 : 평균과의 편차의 절대값의 평균

중간값의 중위절대편차: 중간값과의 편차의 절댓값의 중간값

범위: 데이터의 최댓값과 최솟값의 차이

순서통계량: 최소에서 최대까지 정렬된 데이터 값에 따른 계량형

백분위수: 어떤 값들의 p퍼센트가 이 값 혹은 더 작은 값을 갖고 , (100-p) 퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값

사분위범위 : 75번쨰 백분위수와 25번쨰 백분위수 사이의 차이

1.4.1 표준편차와 관련 추정값들

가장 대표적으로 사용하는 변위 추정들은 관측 데이터와 위치 추정값 사이의 차이, 즉 편차를 기본으로 한다.

1.4.2 백분위수에 기초한 추정

변위를 추정하는 또 다른 접근은 정렬된 데이터가 얼마나 퍼져 있는지를 보는 것이다.

정렬(순위)데이터를 나타내는 통계량을 순서통계량이라고 부른다.

여기서 가장 기본이 되는 측돈느 가장 큰 값과 작은 값의 차이를 나타내는 범위이다.

1.5 데이터 분포 탐색하기

상자그림: 투키가 데이터의 분포를 시각화하기 위한 간단한 방법으로 소개한 그림

도수분포표: 어떤 구간에 해당하는 수치 데이터 값들의 빈도를 나타내는 기록

히스트그램: x축은 구간들을 , y축은 빈도수를 나타내는 도수 테이블의 그림

밀도 그림: 히스트그램을 부드러운 곡선으로 나타낸 그림, 커널밀도 추정을 주로 사용한다.

1.5.1 백분위수와 상자그림

quantile함수

상자그림 boxplot

1.5.2 도수분포표와 히스토그램

hist

1.5.3 밀도 추정

커널밀도추정: 데이터로부터 직접 계산한다.

1.6 이진 데이터와 범주 데이터 탐색하기

최빈값: 데이터에서 가장 자주 등장하는 범주 혹은 값

기댓값: 범주에 해당하는 어떤 수치가 있을 떄 , 범주의 출현 확률에 따른 평균

막대도표 : 각 범주의 빈도수 혹은 비율을 막대로 나타낸 그림

파이그림 : 각 범주의 빈도수 혹은 비율을 원의 부채꼴 모양으로 나타낸 그림

1.6.1 최빈값

데이터에서 가장 자주 등장하는 값 혹은 값들(여러 값들의 최다 빈도수가 같을 경우)을 의미한다.

1.6.2 기댓값

1. 각 결괏값과 발생 확률을 곱한다.

2. 이 값들을 모두 더한다.

1.7 상관관계

상관계수 : 수치적 변수들 간에 어떤 관계가 있는지를 나타내기 위해 사용되는 측정량(-1에서 +1 까지의 범위)

상관행렬: 행과 열이 변수들을 의미하는 표를 말하며 , 각 셀은 그 행과 열에 해당하는 변수들 간의 상관관계를 의미한다.

산점도 : x측과 y측이 서로 다른 두개의 변수를 나타내는 도표

1.7.1 산점도

두 변수 사이의 관계를 시각화하는 가장 기본적인 방법

1.8 두개 이상의 변수 탐색하기

분할표: 두가지 이상의 범주형 변수의 빈도수를 기록한 표

육각형 구간: 두 변수를 육각형 모양의 구간으로 나눈 그림

등고 도표 : 지도상에 같은 높이의 지점을 등고선으로 나타내는 것처럼 , 두 변수의 밀도를 등고선으로 표시한 도표

바이올린 도표 : 상자그림과 비슷하지만 밀도 추정을 함께 보여준다.

1.8.1 육각형 구간과 등고선(수치형 변수 대 수치형 변수를 시각화)

육각형 구간 그림은 킹 카운티에 위치한 집들의 과세 평가액과 크기 사이의 관계를 나타낸다.

1.8.2 범주형 변수 대 범주형 변수

분할표로 표시

1.8.3 범주형 벼수 대 수치형 변수

바이올린 도표 geom_violin()

1.8.4 다변수 시각화하기

조건화라는 개념을 통해 두 변수 비교용 도표(산점도 , 육각형 구간, 상자그림)를 더 여러 변수를 비교하는 용도로 확장하여 활용할 수도 있다.

'책 > 데이터 과학을 위한 통계' 카테고리의 다른 글

04. 회귀와 예측 05. 분류 06. 통계적 머신러닝 07. 비지도 학습 (0)	2020.11.29
03. 통계적 실험과 유의성 검정 (0)	2020.11.21
02. 데이터와 표본분포 (0)	2020.11.14

PREV 1 NEXT

NAIAHD