반응형

기술통계량

summary()함수는 본격적인 분석에 들어가기 전에 여러분의 데이터를 살펴보는 데 매우 유용하다.

mean(), median(), min(), max(), quantile()등

probs 

round()

by()

 

자료의 변이 정도

모집단

표본분산

표본분산은 제곱합을 자유도로 나누어 계산한다.

 

신뢰구간

측정값의 신뢰도를 평균에 대한 신뢰구간을 이용해 평가 할 수도 있다.

해당 실험이나 시행이 반복적으로 이우러진다고 가정할 때 평균값이 속할 것 으로 예상되는 구간을 추정한 것이다.

 

확률분포

통계적 실험 결과와 그 결과가 발생할 확률을 연결시켜주는 표 또는 수식이라고 이해하면 된다.

각 활률분포에 대해 확률질량함수 또는 확률밀도함수를 계산해 주는 함수는 해당 분포의 R이름 앞에 d를 , 누적분포함수는 p를 , 분위수함수는 q를 덧붙이면 얻을 수 있다.

 

가설검증

귀무가설:

가설검증:

p-value이 0.05보다 작기 때문에 대립가설 즉 , 가설을 채택하게 된다.

 

t-검증: t.test()

 

두 분포의 평균을 비교하는 대신, f-검증을 통해 분산을 비교하고 싶을 수 있다.

var.test()

 

p-value이 0.05보다 크기 때문에 귀무가설을 기각할 수 없으며 , 

 

비율에 대한 검증

z-test과 이항검증

prop.test()함수에 명시적으로 correct = FALSE와 같이 지정하면 Z-값을 구하는 과정에서 연속성 수정이 적용되지 않게 된다

 

이항검정을 시행 binom.test()함수

 

두 표본을 비교하기 위한 검정들 

t.test()

두 표본의 짝을 이루고 있다면 대응 t-test paired TRUE로 지정

 

P-VLAUR가 0.05보다 작은 값을 가지므로 귀무가설을 기각

 

회귀분석: 연속형 변수들 사이의 연관성을 추정하는 데 사용되는 통계적 방법이다.

선형회귀

절편값

기울기값

 

분산분석

모든 설명변수가 범주형 변수일 때 선형모형을 적합시키는 방법이다

 

일반화선형모형 선형회귀에 대한 대안으로써 오차항의 분포가 정규분포가 아닌 겨우를 허용하는 방법이다.

일반화가법모형: glm의 비모수적 확장으로 , 선형 예측자가 예측변수의 부드러운 함수에 선형 의존성을 갖는 모형이다.

선형판별분석: 데이터셋 내의 그룹 정볼르 가장 잘 구별해 낼 수 있는 설명분수의 선형결합을 찾는데 사용된다.

주성분분석이 그룹별로 자료를 분류하는 문제에 활용 가능한 또다른 탐색적 방법이다.

pca는 상관관계가 있을 것으로 예상되는 관측 변수들을 주성분이라 불리는 선형족속성이 없는 새로운 변수들로 변환해 준다.

k-평균 군집분석: 데이터를 군집의 기준점 역할을 하는 평균값에 가까운 관측치들로 이루어진 k개의 군집으로 쪼개는 데 사용하는 비지도 방법이다.

 

 

반응형

' > 빅데이터 통계분석과 R' 카테고리의 다른 글

04  (0) 2021.01.01
02  (0) 2020.12.22
01  (0) 2020.12.20

+ Recent posts