기술통계량
summary()함수는 본격적인 분석에 들어가기 전에 여러분의 데이터를 살펴보는 데 매우 유용하다.
mean(), median(), min(), max(), quantile()등
probs
round()
by()
자료의 변이 정도
모집단
표본분산
표본분산은 제곱합을 자유도로 나누어 계산한다.
신뢰구간
측정값의 신뢰도를 평균에 대한 신뢰구간을 이용해 평가 할 수도 있다.
해당 실험이나 시행이 반복적으로 이우러진다고 가정할 때 평균값이 속할 것 으로 예상되는 구간을 추정한 것이다.
확률분포
통계적 실험 결과와 그 결과가 발생할 확률을 연결시켜주는 표 또는 수식이라고 이해하면 된다.
각 활률분포에 대해 확률질량함수 또는 확률밀도함수를 계산해 주는 함수는 해당 분포의 R이름 앞에 d를 , 누적분포함수는 p를 , 분위수함수는 q를 덧붙이면 얻을 수 있다.
가설검증
귀무가설:
가설검증:
p-value이 0.05보다 작기 때문에 대립가설 즉 , 가설을 채택하게 된다.
t-검증: t.test()
두 분포의 평균을 비교하는 대신, f-검증을 통해 분산을 비교하고 싶을 수 있다.
var.test()
p-value이 0.05보다 크기 때문에 귀무가설을 기각할 수 없으며 ,
비율에 대한 검증
z-test과 이항검증
prop.test()함수에 명시적으로 correct = FALSE와 같이 지정하면 Z-값을 구하는 과정에서 연속성 수정이 적용되지 않게 된다
이항검정을 시행 binom.test()함수
두 표본을 비교하기 위한 검정들
t.test()
두 표본의 짝을 이루고 있다면 대응 t-test paired TRUE로 지정
P-VLAUR가 0.05보다 작은 값을 가지므로 귀무가설을 기각
회귀분석: 연속형 변수들 사이의 연관성을 추정하는 데 사용되는 통계적 방법이다.
선형회귀
절편값
기울기값
분산분석
모든 설명변수가 범주형 변수일 때 선형모형을 적합시키는 방법이다
일반화선형모형 선형회귀에 대한 대안으로써 오차항의 분포가 정규분포가 아닌 겨우를 허용하는 방법이다.
일반화가법모형: glm의 비모수적 확장으로 , 선형 예측자가 예측변수의 부드러운 함수에 선형 의존성을 갖는 모형이다.
선형판별분석: 데이터셋 내의 그룹 정볼르 가장 잘 구별해 낼 수 있는 설명분수의 선형결합을 찾는데 사용된다.
주성분분석이 그룹별로 자료를 분류하는 문제에 활용 가능한 또다른 탐색적 방법이다.
pca는 상관관계가 있을 것으로 예상되는 관측 변수들을 주성분이라 불리는 선형족속성이 없는 새로운 변수들로 변환해 준다.
k-평균 군집분석: 데이터를 군집의 기준점 역할을 하는 평균값에 가까운 관측치들로 이루어진 k개의 군집으로 쪼개는 데 사용하는 비지도 방법이다.
'책 > 빅데이터 통계분석과 R' 카테고리의 다른 글
04 (0) | 2021.01.01 |
---|---|
02 (0) | 2020.12.22 |
01 (0) | 2020.12.20 |