가설 확인하거나 기각하기 위해 목표를 가짐
추론; 제한된 데이터로 주어진 실험 결과를 더 큰 과정 또는 모집단에 적용하려는 의도를 반영
3.1 A/B검증
A/B검증 두 처리 방법, 제품 , 혹은 절차 중 어느 쪽이 다른 쪽보다 더 우월하다는 것을 입증하기 위해 실험군을 두 그룹으로 나누어 진행하는 실험
대조군
처리군
무작위로 실험
3.2 가설검정
가설검정 혹은 유의성 검증
귀무가설 =
대립가설 < > !=
3.3 재표본 추출
랜덤한 변동성을 알아보자는 일반적인 목표를 가지고 , 관찰된 데이터의 값에서 표본을 반복적으로 추출하는 것
순열검정
3.4 통계적 유이성과 P값
우연히 일어난 것인지 아니면 우연히 일어날 수 없는 극단적인 것인지를 판단하는 방법
3.5 t검증
유의성 검증 방법
t분포
3.6 다중검증
제1종 오류: 어떤 효과가 통계적으로 유의미하다고 잘못된 결론을 내린다.
p vlaue 조정: 동일한 데이터에 대해 다중검정을 수행하는 경우에 필요하다.
과대적합(오버피팅) overfitting
거짓 발견 비율: 다중검정에서 1종 오류가 발생하는 비율
원래 주어진 여러 개의 가설검정들 가운데 하나가 유의미한 효과가 있다고 잘못 판단하는 비율을 나타내는데 사용되었다.
'중복도' 같은 일반적인 무제를 포함하여 여러 가지 이류로 , 더 많은 연구가 반드시 더 나은 연구를 의미하는 것이 아니다.
3.7 자유도
자유도: 표본 데이터에서 계산된 통계량에 적용되며 변화가 가능한 값들의 개수를 나타낸다.
df : 자유도
해당 데이터에서 관측값의 개수
3.8 분산분석
여러 그룹간의 통계적으로 유의미한 차이를 검정하는 통계적 절차
F통계량 : 그룹 평균 간의 차이가 랜덤 모델에서 예상되는 것보다 벗어나는 정도를 측정하는 표준화된 통계량
3.9 카이제곱 검정
카이제곱 검정 횟수 관련 데이ㅓ에 주로 사용되며 예상되는 분포에 얼마나 잘 맞는지를 검정한다.
카이제곱 통계량: 기댓값으로부터 어떤 관찰 값까지의 거리를 나타내는 측정치
기댓값: 어떤 가정(보통 귀무가설)으로부터 데이터가 발생할 때, 그에 대해 기대하는 정도
3.10 멀티암드 밴딧 알고리즘
실험설계에 대한 전통적인 통계쩍 접근 방식보다 명시적인 최적화와 좀 더 빠른 의사 결정을 가능하게 하며 , 여러 테스트 ,특히 웹 테스트를 위해 이를 사용한다.
3.11 검정력과 표본크기
검정력이란 주어진 표보크기로 주어진 효과 크기를 알아낼 확률
유의수준: 검증시 사용할 통계 우의 수준
'책 > 데이터 과학을 위한 통계' 카테고리의 다른 글
04. 회귀와 예측 05. 분류 06. 통계적 머신러닝 07. 비지도 학습 (0) | 2020.11.29 |
---|---|
02. 데이터와 표본분포 (0) | 2020.11.14 |
chapter1. 탐색적 데이터 분석 (0) | 2020.11.09 |