반응형

표본추출(표집, 샘플링)

다양한 데이터를 효과적으로 다루고 데이터 편향을 최소화하기 위한 방법으로 표본추출의 필요성이 더 커지고 있다.

미지의 분포

 

2.1 램덤표본추출과 표본편향

표본은 더 큰 데이터 집합으로 부터 얻은 데이터의 부분집합이다. 

통계학자들은 이 큰 데이터 집합을 모집단이라고 부른다.

 

표본 : 더 큰 데이터 집합으로 부터 얻은 부분집합

모집단: 어떤 데이터 집합을 구성하는 전체 대상 혹은 전체 집합

N(n) : 모집단(표본)의 크기

임의 표집(랜덤 표본추출): 무작위로 표본을 추출하는 것

층화표집(층화 표본추출): 모집단을 층으로 나눈 뒤 , 각 층에서 무작위로 표본을 추출하는 것

단순임의 표본(단순랜덤 표본): 모집단 층화 없이 랜덤 표본 추출로 얻은 표본

표본편향: 모딥단을 잘못 대표하는 부분

 

랜덤표본추출은 대상이 되는 모집단 내의 선택 가능한 원소들을 무작위로 추출하는 과저을 말하며, 각 추첨에서 모든 원소는 동일한 확률로 뽑히게 된다.

복원추출: 중복 추출이 가능하도록 해당 샘픙를 다시 모집단에 포함시키는 

비복원추출: 한번 뽑힌 원소는 추후 추첨에 사용하지 않는 것

 

대표성:

 

2.1.1 편향

통계적 편향은 측정 과정 혹은 표본추출 과정에서 발생하는 계통적인 오차를 의미한다.

 

2.1.2 랜덤 선택

층화표본추출: 모집단을 여러 층으로 나누고 각 층에서 무작위로 샘플을 추출한다.

 

2.1.3 크기와 품질 : 크기는 언제 중요해질까?

빅데이터가 가치 있을 것이다는 일반적인 예상은 데이터가 크고 동시에 희박할 때이다.

 

2.1.4 표본평균과 모평균

 

2.2 선택 편향

편향 : 계통적 오차

데이터 스누핑: 뭔가 흥미로운 것을 찾아 광범위하게 데이터를 살피는 것

방대한 검색 효과 : 중복 데이터 모델링이나 너무 많은 예측 변수를 고려하는 모델링에서 비롯되는 편향 혹은 비재현성

 

2.2.1 평균으로의 회귀

평균으로의 회귀란 주어진 어떤 변수를 연속적으로 측정했을 때 나타내는 현상이다.

 

2.3 통계학에서의 표본분포

표본통계량: 더 큰 모집단에서 추출된 표본 데이터들로부터 얻은 측정 지표

데이터 분포 : 어떤 데이터 집합에서의 각 개별 값의 도수분포

표본분포: 여러 표본들 혹은 재표본들로부터 얻은 표본통계량의 도수분포

중심극한 정리 : 표본크기가 커질수록 표본분포가 정규분포를 따르는 경향

표준오차 : 여러 표본들로부터 얻은 표본통계량의 변량

 

2.3.1 중심극한정리

2.3.2 표준오차

표준오차 통계에 대한 표본분포의 변동성을 한마디로 말해주는 단일 측정 지표이다.

 

 

2.4 부트스트랩

부트스트랩표본: 관측 데이터 집합으로붜 얻은 복원추출 표본

재표집(재표본추출, 리샘플링): 관측 데이터로부터 반복해서 표본추출하는 과정, 부트스트랩과 순열(셔플링)과정을 포함한다.

복원추출: 다시 넣어서 관측할 경우

 

배깅  : 여러 부트스트랩 샘플을 가지고 트리를 여러 개 만든 다음 각 트리에서 나온 예측값을 평균 내는 것이 일반적으로 단일 트리를 사용하는 것보다 효과적이다.

 

2.4.1재표본 추출 대 부트스트래핑

부트스르탭(데이터로부터 복원추출)은 표본통계량의 변동성을 평가하는 강력한 도구이다.

부스트르랩은 표본분포의 수학적 근사치에 대한 엄청난 연구 없이도 다양한 환경에서 유사한 방식으로 적용될 수 있다.

 

 

2.5 신뢰구간

신뢰수준: 같ㅇㄴ 모집단으로 부터 같은 방식으로 얻은 ,관심 포함할 것으로 예쌍되는 신뢰구간의 백분율

구간 끝점: 신뢰구간의 최상위 , 최하위 끝점

 

신뢰수준

t-분포

 

2.6 정규분포 

오차 : 데이터 포인트와 예측값 혹은 평균 사이의 차이

표준화 : 평균을 빼고 표준편차로 나눈다.

z-점수: 개별 데이터 포인트를 정규화한 결과 

표준정규분포 : 평균 =0 , 표준편차 =1인 정규분포

qq그림 : 표본분포가 정규분포에 얼마나 가까운지를 보여준느 그림

 

2.6.1 표준 정규분포

Z분포

 

 

2.7 긴꼬리 분포

꼬리 : 적은 수의 극단값이 주로 존재하는 , 도수분포의 길고 좁은 부분

왜도 : 분포의 한쪽 꼬리가 반대쪽 다른 꼬리보다 긴 정도

 

정규분포로 예측되는 것보다 훨씬 더 자주 일어날 수 있다고 예측하는 흑고니이론을 제안했다. 

 

 

2.8 스튜던트의 t분포

t분포는 정규분포와 생김새가 비슷하지만, 꼬리 부분이 약간 더 두껍고 길다. 

n 표본크기

자유도 : 다른 표본크기 , 통계량 , 그룹의 수에 따라 t분포를 조절하는 변수

 

 

2.9 이항분포 

시행: 독립된 결과를 가져오는 하나의 사건

성공:

이항식 : 두가지 결과  ->이진 결과 

이항시행: 구가지 결과를 가져오는 시행

이항분포 : x번 시행에서 성공한 횟수에 대한 분포

 

=>R에서는 dbinom 이항 확률을 계산 할때 사용한다.

시행회수 n

성공한 횟수 : x

성공 확률 p

 

 

2.10 푸아송 분포와 그외 관련 분포들

람다: 단위 시간이나 단위 면적당 사건이 발생하는 비율

푸아송 분포 : 표집단 단위 시간 혹은 단위 영역에서 발생한 사건의 도수분포

지수분포 : 한 사건에서 그 다음 사건까지의 시간이나 영역에 대한 도수분포

베이불 분포 : 사건 발생률이 시간에 따라 변화하는 , 지수분포의 일반화된 버전

 

푸아송 분포의 핵심 파라미터는 람다이다.

rpois함수

 

지수분포 

rexp

n 난수 발생 개수

rate 비율

 

고장률 추정

드물게 일어나는 사건에 대한 것

 

 

베이불 분포

사건이 지나감에 따라 일정하지 않다.

예를 들면 베터리 처럼 사용하면 할 수 록 수명이 짧아진다.

 

 rweibull 

 

 

 

 

 

반응형

+ Recent posts