반응형

01. 단순선형회귀

단순선형회귀 :X,y  한 변수와 또 다른 변수의 크기 사이에 어떤 관계 

선형 모형 linear model

독립변수 혹은 예측변수

응답변수 혹은 종속변수

 

 

02. 다중선형회귁귀

제곱근 평균제곱오차 : 회귀시 평균제곱오차의 제곱근. 회귀 모형을 평가하는 데 가장 널리 사용되는 측정 지표다.

 

03. 회귀를 이용한 예측

외삽법: 모델링에 사용된 데이터 범위를 벗어난 부분까지 모델을 확장하는 것

 

04. 회귀에서의 요인변수

범주형 변수

 

05. 회귀방정식 해석

종속변수를 예측 

 

06. 가정 검정: 회귀 진단

여러 측정 지표들을 고려하여 , 매 단계마다 모델이 데이터에 얼마나 적합한지를 평가한다.

 

07. 다항회귀와 스플라인 회귀

스플라인 회귀 : 다항 구간들을 부드러운 곡선 형태로 피팅한다.

 

05. 분류

범주의 개수

 

01. 나이브 베이즈

주어진 결과에 대해 예측변수 값을 관찰할 확률을 사용하여 예측변수 값을 관찰할 확률을 사용하여  ,예측변수가 주어졌을 때 , 결과 Y = i를 관찰할 확률을 추정하한다.

 

02. 판별 분석

초창기의 통계분류 방법이다.

공분산: 하나의 변수가 다른 변수와 함께 변화하는 정도(유사한 크기와 방향)를 측정하는 지표

판변함수 : 예측 변수에 적용했을 때 , 클래스 구분을 최대화하는 함수

 

03. 로지스틱 회귀

이진형 변수라는 점만 빼면 다중선형회귀와 유사하다.

 

04. 분류 모델 평가하기

예측 모델링에서 , 수많은 모델을 시도해보고 각각에 홀드아웃 표본(시험 표본 혹은 타당성 검사 표본이라고도 부른다.)

혼동행렬: 분류 결과를 나타내는 가장 대표적인 행렬이다.

 

05. 불균형 데이터 다루기

과소표본추출(다움샘플링)을 해서 모델링할 때 0과 1의 데이터 개수에 균형을 맞출 수 있다.

 

06. 통계적 머신러닝

앙상블 학습

의사결정 트리

 

6.1 k최근접 이웃:

특징들이 가장 유사한 k개의 레코드를 찾는다.

분류 

예측

 

 두 벡터 사이에 가장 많이 사용되는 지표는 유클리드 거리이다.

맨하탄거리

 

6.2 트리 메돌

회귀 및 분석트리 , 의사결정 트리 , 혹은 단순히 그냥 트리라도고 불리며 

 

6.3 배깅과 랜덤 포레스트

랜덤 포레스트 : 의사 결정 트리 모델에 기반을 둔 배깅 추정 모델

배깅 : 데이터를 부트스트래핑해서 여러 모델을 만드는 일반적인 방법

 

6.4 부스팅

앙상블 형태

에이다부스트, 그레이디언트 부스팅, 확률적 그레이디언트 부스팅

 

 

07. 비지도 학습 

레이블이 달린 데이터를 이용해 모델을 학습하는 과정 없이 

 

7.1 주성분분석 : 예측 변수들의 선형 결합

7.2 K평균 클러스터링 : 서로 유사한 레코드들의 집합

7.3 계층적 클러스터링 :k평균보다 유연하고 , 수치형 변수가 아니어도 쉽게 적용이 가능하다.

7.4 모델 기반 클러스터링

7.5 스케일링과 범주형 변수

스케일링: 데이터의 범위를 늘리거나 줄이는 방식으로 여러 변수들이 같은 스케일에 오도록 하는 것

 

반응형
반응형

가설 확인하거나 기각하기 위해 목표를 가짐

 

추론; 제한된 데이터로 주어진 실험 결과를 더 큰 과정 또는 모집단에 적용하려는 의도를 반영

 

3.1 A/B검증

 

A/B검증 두 처리 방법, 제품 , 혹은 절차 중 어느 쪽이 다른 쪽보다 더 우월하다는 것을 입증하기 위해 실험군을 두 그룹으로 나누어 진행하는 실험

대조군

처리군

 

무작위로 실험

 

 

3.2 가설검정 

가설검정 혹은 유의성 검증 

 

귀무가설  = 

대립가설  < > !=

 

3.3 재표본 추출

랜덤한 변동성을 알아보자는 일반적인 목표를 가지고 , 관찰된 데이터의 값에서 표본을 반복적으로 추출하는 것

순열검정

 

 

3.4 통계적 유이성과 P값

우연히 일어난 것인지 아니면 우연히 일어날 수 없는 극단적인 것인지를 판단하는 방법

 

 

3.5 t검증

유의성 검증 방법 

t분포

 

 

3.6 다중검증

제1종 오류: 어떤 효과가 통계적으로 유의미하다고 잘못된 결론을 내린다.

p vlaue 조정: 동일한 데이터에 대해 다중검정을 수행하는 경우에 필요하다.

과대적합(오버피팅) overfitting

거짓 발견 비율: 다중검정에서 1종 오류가 발생하는 비율  

  원래 주어진 여러 개의 가설검정들 가운데 하나가 유의미한 효과가 있다고 잘못 판단하는 비율을 나타내는데 사용되었다.

 

'중복도' 같은 일반적인 무제를 포함하여 여러 가지 이류로 , 더 많은 연구가 반드시 더 나은 연구를 의미하는 것이 아니다.

 

 

3.7 자유도

자유도: 표본 데이터에서 계산된 통계량에 적용되며 변화가 가능한 값들의 개수를 나타낸다.

df : 자유도 

해당 데이터에서 관측값의 개수

 

3.8 분산분석

여러 그룹간의 통계적으로 유의미한 차이를 검정하는 통계적 절차

 

F통계량 : 그룹 평균 간의 차이가 랜덤 모델에서 예상되는 것보다 벗어나는 정도를 측정하는 표준화된 통계량

 

 

3.9 카이제곱 검정

카이제곱 검정 횟수 관련 데이ㅓ에 주로 사용되며 예상되는 분포에 얼마나 잘 맞는지를 검정한다.

카이제곱 통계량: 기댓값으로부터 어떤 관찰 값까지의 거리를 나타내는 측정치

기댓값: 어떤 가정(보통 귀무가설)으로부터 데이터가 발생할 때, 그에 대해 기대하는 정도

 

3.10 멀티암드 밴딧 알고리즘

실험설계에 대한 전통적인 통계쩍 접근 방식보다 명시적인 최적화와 좀 더 빠른 의사 결정을 가능하게 하며 , 여러 테스트 ,특히 웹 테스트를 위해 이를 사용한다.

 

 

 

3.11 검정력과 표본크기

검정력이란 주어진 표보크기로 주어진 효과 크기를 알아낼 확률

유의수준: 검증시 사용할 통계 우의 수준

 

 

반응형
반응형

표본추출(표집, 샘플링)

다양한 데이터를 효과적으로 다루고 데이터 편향을 최소화하기 위한 방법으로 표본추출의 필요성이 더 커지고 있다.

미지의 분포

 

2.1 램덤표본추출과 표본편향

표본은 더 큰 데이터 집합으로 부터 얻은 데이터의 부분집합이다. 

통계학자들은 이 큰 데이터 집합을 모집단이라고 부른다.

 

표본 : 더 큰 데이터 집합으로 부터 얻은 부분집합

모집단: 어떤 데이터 집합을 구성하는 전체 대상 혹은 전체 집합

N(n) : 모집단(표본)의 크기

임의 표집(랜덤 표본추출): 무작위로 표본을 추출하는 것

층화표집(층화 표본추출): 모집단을 층으로 나눈 뒤 , 각 층에서 무작위로 표본을 추출하는 것

단순임의 표본(단순랜덤 표본): 모집단 층화 없이 랜덤 표본 추출로 얻은 표본

표본편향: 모딥단을 잘못 대표하는 부분

 

랜덤표본추출은 대상이 되는 모집단 내의 선택 가능한 원소들을 무작위로 추출하는 과저을 말하며, 각 추첨에서 모든 원소는 동일한 확률로 뽑히게 된다.

복원추출: 중복 추출이 가능하도록 해당 샘픙를 다시 모집단에 포함시키는 

비복원추출: 한번 뽑힌 원소는 추후 추첨에 사용하지 않는 것

 

대표성:

 

2.1.1 편향

통계적 편향은 측정 과정 혹은 표본추출 과정에서 발생하는 계통적인 오차를 의미한다.

 

2.1.2 랜덤 선택

층화표본추출: 모집단을 여러 층으로 나누고 각 층에서 무작위로 샘플을 추출한다.

 

2.1.3 크기와 품질 : 크기는 언제 중요해질까?

빅데이터가 가치 있을 것이다는 일반적인 예상은 데이터가 크고 동시에 희박할 때이다.

 

2.1.4 표본평균과 모평균

 

2.2 선택 편향

편향 : 계통적 오차

데이터 스누핑: 뭔가 흥미로운 것을 찾아 광범위하게 데이터를 살피는 것

방대한 검색 효과 : 중복 데이터 모델링이나 너무 많은 예측 변수를 고려하는 모델링에서 비롯되는 편향 혹은 비재현성

 

2.2.1 평균으로의 회귀

평균으로의 회귀란 주어진 어떤 변수를 연속적으로 측정했을 때 나타내는 현상이다.

 

2.3 통계학에서의 표본분포

표본통계량: 더 큰 모집단에서 추출된 표본 데이터들로부터 얻은 측정 지표

데이터 분포 : 어떤 데이터 집합에서의 각 개별 값의 도수분포

표본분포: 여러 표본들 혹은 재표본들로부터 얻은 표본통계량의 도수분포

중심극한 정리 : 표본크기가 커질수록 표본분포가 정규분포를 따르는 경향

표준오차 : 여러 표본들로부터 얻은 표본통계량의 변량

 

2.3.1 중심극한정리

2.3.2 표준오차

표준오차 통계에 대한 표본분포의 변동성을 한마디로 말해주는 단일 측정 지표이다.

 

 

2.4 부트스트랩

부트스트랩표본: 관측 데이터 집합으로붜 얻은 복원추출 표본

재표집(재표본추출, 리샘플링): 관측 데이터로부터 반복해서 표본추출하는 과정, 부트스트랩과 순열(셔플링)과정을 포함한다.

복원추출: 다시 넣어서 관측할 경우

 

배깅  : 여러 부트스트랩 샘플을 가지고 트리를 여러 개 만든 다음 각 트리에서 나온 예측값을 평균 내는 것이 일반적으로 단일 트리를 사용하는 것보다 효과적이다.

 

2.4.1재표본 추출 대 부트스트래핑

부트스르탭(데이터로부터 복원추출)은 표본통계량의 변동성을 평가하는 강력한 도구이다.

부스트르랩은 표본분포의 수학적 근사치에 대한 엄청난 연구 없이도 다양한 환경에서 유사한 방식으로 적용될 수 있다.

 

 

2.5 신뢰구간

신뢰수준: 같ㅇㄴ 모집단으로 부터 같은 방식으로 얻은 ,관심 포함할 것으로 예쌍되는 신뢰구간의 백분율

구간 끝점: 신뢰구간의 최상위 , 최하위 끝점

 

신뢰수준

t-분포

 

2.6 정규분포 

오차 : 데이터 포인트와 예측값 혹은 평균 사이의 차이

표준화 : 평균을 빼고 표준편차로 나눈다.

z-점수: 개별 데이터 포인트를 정규화한 결과 

표준정규분포 : 평균 =0 , 표준편차 =1인 정규분포

qq그림 : 표본분포가 정규분포에 얼마나 가까운지를 보여준느 그림

 

2.6.1 표준 정규분포

Z분포

 

 

2.7 긴꼬리 분포

꼬리 : 적은 수의 극단값이 주로 존재하는 , 도수분포의 길고 좁은 부분

왜도 : 분포의 한쪽 꼬리가 반대쪽 다른 꼬리보다 긴 정도

 

정규분포로 예측되는 것보다 훨씬 더 자주 일어날 수 있다고 예측하는 흑고니이론을 제안했다. 

 

 

2.8 스튜던트의 t분포

t분포는 정규분포와 생김새가 비슷하지만, 꼬리 부분이 약간 더 두껍고 길다. 

n 표본크기

자유도 : 다른 표본크기 , 통계량 , 그룹의 수에 따라 t분포를 조절하는 변수

 

 

2.9 이항분포 

시행: 독립된 결과를 가져오는 하나의 사건

성공:

이항식 : 두가지 결과  ->이진 결과 

이항시행: 구가지 결과를 가져오는 시행

이항분포 : x번 시행에서 성공한 횟수에 대한 분포

 

=>R에서는 dbinom 이항 확률을 계산 할때 사용한다.

시행회수 n

성공한 횟수 : x

성공 확률 p

 

 

2.10 푸아송 분포와 그외 관련 분포들

람다: 단위 시간이나 단위 면적당 사건이 발생하는 비율

푸아송 분포 : 표집단 단위 시간 혹은 단위 영역에서 발생한 사건의 도수분포

지수분포 : 한 사건에서 그 다음 사건까지의 시간이나 영역에 대한 도수분포

베이불 분포 : 사건 발생률이 시간에 따라 변화하는 , 지수분포의 일반화된 버전

 

푸아송 분포의 핵심 파라미터는 람다이다.

rpois함수

 

지수분포 

rexp

n 난수 발생 개수

rate 비율

 

고장률 추정

드물게 일어나는 사건에 대한 것

 

 

베이불 분포

사건이 지나감에 따라 일정하지 않다.

예를 들면 베터리 처럼 사용하면 할 수 록 수명이 짧아진다.

 

 rweibull 

 

 

 

 

 

반응형
반응형

실험계획법과 최대우도추정의 핵심 개념

탐색적 데이터 분석 exploratory data analysis(EDA) 

추론, 즉 적은 표본(샘플)을 가지고 더 큰 모집단에 대한 결론을 도축하기 위한 일련의 복잡한 과정에 관해 주로 다루었다.

데이터 분석

 

1.1 정형화된 데이터의 요소

사물 인터넷Internet of things(IoT) 은 끊임없이 정보를 실시간으로 쏟아내고 있다. 

대부분은 정형화되지 않은 상태이다.

 

 

용어 정리

연속형: 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터 (유의어 : 구간형, 실수형, 수치형 데이터) => 수치데이터에는 풍속이나 지속 시간 같은 데이터 

이산 : 횟수와 같은 정수 값만 취할 수 있다.(유의어: 정수형 ,횟수 데이터) => 사건의 발생 빈도 같은 데이터 

범주형: 가능한 범주 안의 값만을 취할 수 있다.(유의어: 목록 , 열거 , 요인 , 명목, 다향형 데이터) 

이진: 두 개의 값(0/1 혹은 참/거짓) 만을 갖는 범주형 데이터의 특수한 경우다.(유의어: 이항적, 논리형 , 지표 , ㅂㄹ러언 데이터)

순서형: 값들 사에에 분명한 순위가 있는 범주형 데이터다.(유의어: 정렬된 요인 데이터)

 

1.1.1 더 읽을 거리

 

1.2 테이블 데이터 

대표적 : 객체의 형태는 엑셀 스프레드시트나 데이터베이스의 테이블과 같은 테이블 데이터이다.

 

데이터 프레임

피처 : 일반적으로 테이블의 각 열이 하나의 피처를 의미한다.

결과 :

레코드 : 행

 

테이블 데이터는 기본적으로 각 레코드(사건)를 나타내는 행과 , 피처 (변수)를 나타내는 열로 이루어진 이차원 행렬이라고 할 수 있다.

1.2.1 데이터 프레임과 인덱스

data.frame 내부적으로 행번호에 따라 정수로 된 인덱스를 갖고 있다.

row.names 속성을 조정하면 사용자강 원하는 키를 만들 수 도 있다.

하지만 r의 DATA.FRAME은 기본적으로 다중 인덱슬르 지원하지 않는다.

data.table과 dplyr 

 

1.2.2 테이블 형식이 아닌 데이터 구조

객체 

필드

 

1.3 위치 추정

대푯값 typical value 

평균: 모든 값의 총합을 개수로 나눈값

가중 평균: 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈값

중간값: 데이터에서 가장 가운데 위치한 값

가중 중간값: 데이터를 정렬한 후 , 각 가중치 값을 위에서부터 더할 때 , 총합의 중간이 위치하는 데이터 값

절사 평균:정해진 개수의 극단값을 제외한 나머지 값들의 평균

로버스트하다: 극단값들에 민감하지 않다는 것을 의미한다.(저항성 있다.)

특잇값: 대부분의 값과 매우 다른 데이터값(극단값)

 

 

1.3.1 평균

가장 기본적인 위치 추정 방법이다.

평균은 모든 값의 총합을 값의 개수로 나눈 값이다.

 

평균을 조금 변형한 것 중 하나로 절사평균이 있다.

절사평균은 값들을 크기 순으로 정렬한 후 , 양끝에서 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균을 말한다.

절사평균은 극단값의 영향을 제거한다.

 

1.3.2 중간값과 로버스트 추정

중간값: 데이터를 일렬로 정렬했을 때 , 한가운데에 위치하는 값을 중간값이라고 한다.

데이터 정렬

 

 

특잇값: 

중간값은 결과를 왜곡할 수도 있는데 특잇값(극단값)들의 영향을 받지 않으므로 로버스트한 위치 추정 방법이라고 알려져 있다.

 

mean 평균

median 중간값

 

1.4 변이 추정

 

위치는 데이터의 특징을 요약하는 다양한 요소들 중 하나이다.

두번 때 요소인 변이는 데이터 값이 얼마나 밀집해 있ㄴ느지 퍼져 있는지를 나타내는 산포도를 나타낸다.

편차: 관측값과 위치 추정값사이의 차이 

분산: 평균과의 편차를 제곱한 값들의 합을 n-1로 나눈값, n은 데이터개수

표준편차 : 분산의 제곱근

평균절대편차 : 평균과의 편차의 절대값의 평균

중간값의 중위절대편차: 중간값과의 편차의 절댓값의 중간값

범위: 데이터의 최댓값과 최솟값의 차이

순서통계량: 최소에서 최대까지 정렬된 데이터 값에 따른 계량형

백분위수: 어떤 값들의 p퍼센트가 이 값 혹은 더 작은 값을 갖고 , (100-p) 퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값

사분위범위 : 75번쨰 백분위수와 25번쨰 백분위수 사이의 차이

 

1.4.1 표준편차와 관련 추정값들

가장 대표적으로 사용하는 변위 추정들은 관측 데이터와 위치 추정값 사이의 차이, 즉 편차를 기본으로 한다.

 

1.4.2 백분위수에 기초한 추정

변위를 추정하는 또 다른 접근은 정렬된 데이터가 얼마나 퍼져 있는지를 보는 것이다.

정렬(순위)데이터를 나타내는 통계량을 순서통계량이라고 부른다.

여기서 가장 기본이 되는 측돈느 가장 큰 값과 작은 값의 차이를 나타내는 범위이다.

 

1.5 데이터 분포 탐색하기 

상자그림: 투키가 데이터의 분포를 시각화하기 위한 간단한 방법으로 소개한 그림

도수분포표: 어떤 구간에 해당하는 수치 데이터 값들의 빈도를 나타내는 기록

히스트그램: x축은 구간들을 , y축은 빈도수를 나타내는 도수 테이블의 그림

밀도 그림: 히스트그램을 부드러운 곡선으로 나타낸 그림, 커널밀도 추정을 주로 사용한다.

 

1.5.1 백분위수와 상자그림

quantile함수

 

상자그림 boxplot

 

1.5.2 도수분포표와 히스토그램

hist

1.5.3 밀도 추정

커널밀도추정: 데이터로부터 직접 계산한다.

 

1.6 이진 데이터와 범주 데이터 탐색하기

최빈값: 데이터에서 가장 자주 등장하는 범주 혹은 값

기댓값: 범주에 해당하는 어떤 수치가 있을 떄 , 범주의 출현 확률에 따른 평균

막대도표 : 각 범주의 빈도수 혹은 비율을 막대로 나타낸 그림

파이그림 : 각 범주의 빈도수 혹은 비율을 원의 부채꼴 모양으로 나타낸 그림

1.6.1 최빈값

데이터에서 가장 자주 등장하는 값 혹은 값들(여러 값들의 최다 빈도수가 같을 경우)을 의미한다.

 

1.6.2 기댓값

1. 각 결괏값과 발생 확률을 곱한다.

2. 이 값들을 모두 더한다.

 

1.7 상관관계

상관계수 : 수치적 변수들 간에 어떤 관계가 있는지를 나타내기 위해 사용되는 측정량(-1에서 +1 까지의 범위)

상관행렬: 행과 열이 변수들을 의미하는 표를 말하며 , 각 셀은 그 행과 열에 해당하는 변수들 간의 상관관계를 의미한다.

산점도 : x측과 y측이 서로 다른 두개의 변수를 나타내는 도표 

 

 

1.7.1 산점도 

두 변수 사이의 관계를 시각화하는 가장 기본적인 방법

 

1.8 두개 이상의 변수 탐색하기

분할표: 두가지 이상의 범주형 변수의 빈도수를 기록한 표

육각형 구간: 두 변수를 육각형 모양의 구간으로 나눈 그림

등고 도표 : 지도상에 같은 높이의 지점을 등고선으로 나타내는 것처럼  , 두 변수의 밀도를 등고선으로 표시한 도표

바이올린 도표 : 상자그림과 비슷하지만 밀도 추정을 함께 보여준다.

 

1.8.1 육각형 구간과 등고선(수치형 변수 대 수치형 변수를 시각화)

육각형 구간 그림은 킹 카운티에 위치한 집들의 과세 평가액과 크기 사이의 관계를 나타낸다.

1.8.2 범주형 변수 대 범주형 변수

분할표로 표시

1.8.3 범주형 벼수 대 수치형 변수

바이올린 도표   geom_violin()

1.8.4 다변수 시각화하기

조건화라는 개념을 통해 두 변수 비교용 도표(산점도 , 육각형 구간, 상자그림)를 더 여러 변수를 비교하는 용도로 확장하여 활용할 수도 있다.

 

 

 

 

 

 

 

반응형

+ Recent posts