• 04 2021.01.01
  • 03 2020.12.30
  • 02 2020.12.22
  • 01 2020.12.20
반응형

통계적으로 유의한 차이가 있는 지를 알아보기 위한 '모수적'검정은 표존의 분포에 대해 모수적 모형을 가정한다는 것을 의미한다.

 

'모수적'이라는 용어가 회귀분석에 적욜될 떄에는 자료의 분포가 아닌 퐁계 모형에 대한 것이다.

 

흡착은 가스가 물체의 표면에 집중되는 현상이다.

 

다항회귀는 선형 프레임워크를 비선형 관계로 확장하는 관계로 확장하는 가장 간단한 방법이다.

 

회귀진단을 위한 시각화 벙법을 사용해도 같은 결론을 얻을 수 있다.

 

커널 회귀는 비선형 자료에 부드러운 함수를 적합시키게 해주는 유연한 방법론이다.

 

전치(transposition)라는 가장 간단한 행렬 연산 중 하나로써 , 행과 열을 다음과 같이 바꾸는 것을 의미한다.

a b c

d e f

 

a d

b e

c f

 

행렬의 분해 

QR 분해 QR decomposition: 주어진 행렬 M 을 서로 다른 두 행렬 Q와 R의 곱 M = QR로 분해하는 방법들 중의 하나이다.

고유값 붆: 정방행렬에만 적용 가능하다. 이 분해는 고유값들과 각 고유값에 대응하는 고유벡터로 구성된 행렬을 통해 표현된다.

LU분해: 주어진 행렬을 하삼각행렬과 상삼각행렬의 곱으로 분해하는 것을 이르는 말이다.

촐레스키 분해 : 정방행렬에 적용 가능한 행렬 분해법 중의 하나이다.

특이값 분해: 정밥행렬 뿐 아니라 직사각형 행렬에도 적용 가능한 행렬 분해법이다.

 

공분산은 두 변수 간의 선형 종속성에 대한 측도이고 , 상관계수는 공분산을 두 변수의 표준편차의 곱으로 나눈 값이다.

 

PCA 기본 아이디어는 다차원 데이터에 대해 보다 낮은 차원으로의 효과적인 모델링이 가능하지 알아보는 것이다.

주성분분석  PCA

형성적 구성개념:여러개의 개별 특질들로 구성된 합성변수로써 형성되는 일반적인 특질을 가리키는 말이다.

반영적 구성개념:일반적인 특질이 근저에 깔려 있으면서 개별 특질의 원인이 됨을 가정한다.

 

모의실험은 고급 수준의 모델링을 통한 예측 또는 실험계획 등을 위해 사용된다.

 

확률변수:

베르누이 확률변수: 두가지의 가능한 결과 즉, 성공 또는 실패만 관측하게 되는 시행이다.

이항 확률변수: 모의실험 하려면 rbinom()함수를 사용한다. 베르누이 확률변수는 한번 시행만 결과를 나타내지만, 이항 확률변수는 베르누이 시행을 반복 시행만 결과를 나타낸다.

포아송 확률변수: 보통 주어진 시구간 내에서 관측된 특정 사건의 발생횟수를 모델링하는 데 사용된다.

지수분포 확률변수: 지수분포는 특정 사건이 발생할 때 까지 대기 시간을 모델링할 때 자주 사용한다..

 

일차원 최적화

황금분할법 은 구간을 축소해가는 전략인데, 매번 황금비율을 축소 비율로 사용한다.

 

반응형

' > 빅데이터 통계분석과 R' 카테고리의 다른 글

03  (0) 2020.12.30
02  (0) 2020.12.22
01  (0) 2020.12.20
반응형

기술통계량

summary()함수는 본격적인 분석에 들어가기 전에 여러분의 데이터를 살펴보는 데 매우 유용하다.

mean(), median(), min(), max(), quantile()등

probs 

round()

by()

 

자료의 변이 정도

모집단

표본분산

표본분산은 제곱합을 자유도로 나누어 계산한다.

 

신뢰구간

측정값의 신뢰도를 평균에 대한 신뢰구간을 이용해 평가 할 수도 있다.

해당 실험이나 시행이 반복적으로 이우러진다고 가정할 때 평균값이 속할 것 으로 예상되는 구간을 추정한 것이다.

 

확률분포

통계적 실험 결과와 그 결과가 발생할 확률을 연결시켜주는 표 또는 수식이라고 이해하면 된다.

각 활률분포에 대해 확률질량함수 또는 확률밀도함수를 계산해 주는 함수는 해당 분포의 R이름 앞에 d를 , 누적분포함수는 p를 , 분위수함수는 q를 덧붙이면 얻을 수 있다.

 

가설검증

귀무가설:

가설검증:

p-value이 0.05보다 작기 때문에 대립가설 즉 , 가설을 채택하게 된다.

 

t-검증: t.test()

 

두 분포의 평균을 비교하는 대신, f-검증을 통해 분산을 비교하고 싶을 수 있다.

var.test()

 

p-value이 0.05보다 크기 때문에 귀무가설을 기각할 수 없으며 , 

 

비율에 대한 검증

z-test과 이항검증

prop.test()함수에 명시적으로 correct = FALSE와 같이 지정하면 Z-값을 구하는 과정에서 연속성 수정이 적용되지 않게 된다

 

이항검정을 시행 binom.test()함수

 

두 표본을 비교하기 위한 검정들 

t.test()

두 표본의 짝을 이루고 있다면 대응 t-test paired TRUE로 지정

 

P-VLAUR가 0.05보다 작은 값을 가지므로 귀무가설을 기각

 

회귀분석: 연속형 변수들 사이의 연관성을 추정하는 데 사용되는 통계적 방법이다.

선형회귀

절편값

기울기값

 

분산분석

모든 설명변수가 범주형 변수일 때 선형모형을 적합시키는 방법이다

 

일반화선형모형 선형회귀에 대한 대안으로써 오차항의 분포가 정규분포가 아닌 겨우를 허용하는 방법이다.

일반화가법모형: glm의 비모수적 확장으로 , 선형 예측자가 예측변수의 부드러운 함수에 선형 의존성을 갖는 모형이다.

선형판별분석: 데이터셋 내의 그룹 정볼르 가장 잘 구별해 낼 수 있는 설명분수의 선형결합을 찾는데 사용된다.

주성분분석이 그룹별로 자료를 분류하는 문제에 활용 가능한 또다른 탐색적 방법이다.

pca는 상관관계가 있을 것으로 예상되는 관측 변수들을 주성분이라 불리는 선형족속성이 없는 새로운 변수들로 변환해 준다.

k-평균 군집분석: 데이터를 군집의 기준점 역할을 하는 평균값에 가까운 관측치들로 이루어진 k개의 군집으로 쪼개는 데 사용하는 비지도 방법이다.

 

 

반응형

' > 빅데이터 통계분석과 R' 카테고리의 다른 글

04  (0) 2021.01.01
02  (0) 2020.12.22
01  (0) 2020.12.20
반응형

인수 (factor) :

문자형 데이터를 저장하는 새로운 방식의 프레임워크를 제공한다.

수준(level):

특정한 값만을 포함하는 특별한 벡터이다.

 

factor() 함수의 levels옵션을 이용해 새로운 수준값을 인수에 추가해야 한다.

 

다차원 배열:

일반 백터를 생성 한 후 차원들을 부여해 만들어진다.

array() 

일반 벡터는 1차원 배열로 

dim() 다차원 배열로 바꾸려면

 

행렬(matrix)은 2차원 배열의 특별한 경우로 주로 matrix()함수 이용

nrow

ncol

cbind() rbind()

 

dimnames()

rownames()

colnames()

 

is.array()

is.matrix()

 

데이터프레임

data.frame()

as.data.frame()

stringAsFactors 옵션

stringAsFactors= FALSE  지정하지 않으면 문자열을 포함한 열들을 인수로 변환해 저장한다.

transform()함수를 사용해 문자형으로 저장하고 싶은 열들을 지정하려면 as.character()또는 as.factor()함수를 사용하면 된다.

 

 

R로 데이터 로드하기

install.packages()

library()또는 require()

getwd() 파일 입출력의 기본이 될 위치를 알 수 있다.

setwd() 위치 변동

 

데이터프레임 저장하기

write.table() 함수

write.csv()

 

기본도표 및 ggplot2패키지

히스트그램 과 선점도

hist()

plot()

curve()함수를 사용하면 단변량 수학 함수의 그래프를 from과 to값으로 지정된 구간에서 작성할 수 있다.

expr인수는 수치 벡터 또는 수치 벡터를 리턴하는 함수를 출력물로 지정할 수 있게 해 준다.

pie()함수로 원형 차트를 그릴 수 있다.

boxplot()함수를 이용하면 상자그림을 그릴 수 있다.

 

 

제어문

for(i in vector){commands}

 

apply()함수를 행렬 또는 배열에 대해 행 방향이나 열 방향으로 , 또는 양 방향으로 반복적으로 함수를 적용할 수 있게 해주는데 , for()루프에 대한 좋은 대안이 된다.

apply()  두번째 인수인 MARGIN의 값이 1인 경우는 행 방향으로 , 2인 경우는 열 방향으로 , c(1,2) 인 경우에는 양 방향으로 지정된 함수를 반복 적용한다.

  FUN: 마지막 인수 함수 mean()이나 function(x) x+3

 

if문

if(condition){commands}

else if(condition){commands}

else{commands}

 

while()루프

while(condition){commands}

 

repeat{}, break문

repeat{commands} while와 유사한데 , break문을 포함시키지 않으면 계속 코드를 문한히 반복 실행하게 된다.

 

함수 function

특정 작업을 수행하고 그 결과를 출력하거나 객체 형태로 리턴해 주는 짧은 코드들을 의미한다.

help()함수로 함수 내용을 확인한다.

??mean

na.rm = TRUE

반응형

' > 빅데이터 통계분석과 R' 카테고리의 다른 글

04  (0) 2021.01.01
03  (0) 2020.12.30
01  (0) 2020.12.20
반응형

과학 계산은 수리 모형 및 주어진 문제를 해석하고 시각화해 해법을 찾는 계량 분석 기법을 이용해 정보과학적으로 문제를 해결하는 접근법이다. 

 

R의 자료구조

동질적 : 객체가 모두 같은 데이터 타입인 성분들로 구성되었을 때

   백터 

   행렬

   배열 

이질적: 객체가 다른 데이터 타입의 성분들로 구성되었을 때 

   리스트

   데이터프레임

 

백터

백터는 일반 벡터와 리스트를 포괄하는 개념으로써 R에서 기본이 되는 데이터 구조이다.

일반 벡터: 논리값(logical), 숫자(double), 정수(integer), 문자(character), 복소수(complex) 등 단일 속성

 

c() 원소들을 벡터로 묶는다. combine

정수 생성 L

논리값 벡터 TRUE, T와 FALSE,또는 F

 

R은 반복되는 원소들로 이뤄진 벡트를 만들 수 있는 REP()함수 와 수열을 생성해주는 SEQ()함수를 제공한다.

seq(1,12,by = 3) by 생략 가능 

rep(3,12) => 3을 12번 중복한다. 

 

most flexible(가장 유연한 ) ->least flexible

character ->numeric->integer -> logical

 

ls()함수 : 현재 작업공간 또는 환경하에 있는 객체들의 이름으로 구성된 벡터를 얻게 된다. 

 

새로운 환경 생성 new.env()

 

백터간 연산 

벡터들의 길이가 서로 달은 경우 , 길이가 짧은 벡터를 첫 번째 원소부터 다시 재사용해 길이를 늘여서 긴 벡터의 길이와 같아지도록 맞춘 후 계산한다.

 

%% 나눗셈의 나머지

정수 나눗셈의 몫을 계싼 %/%

 

리스트

list()

일바 벡터를 리스트로 강제 변환하려면 as.list()

 

속성 attr()

객체가 원래 갖고 있는 속성에 추가적인 속성을 부여할 수 있는 것 

class(), dim(), names()등의 함수에 의해 부여되는 내장속성이 있다.

부여된 원소 이름을 제거하고 싶으면 unname()함수를 이용하거나 이름을 NULL로 대체 하면 된다. 

반응형

' > 빅데이터 통계분석과 R' 카테고리의 다른 글

04  (0) 2021.01.01
03  (0) 2020.12.30
02  (0) 2020.12.22

+ Recent posts