반응형

01. 단순선형회귀

단순선형회귀 :X,y  한 변수와 또 다른 변수의 크기 사이에 어떤 관계 

선형 모형 linear model

독립변수 혹은 예측변수

응답변수 혹은 종속변수

 

 

02. 다중선형회귁귀

제곱근 평균제곱오차 : 회귀시 평균제곱오차의 제곱근. 회귀 모형을 평가하는 데 가장 널리 사용되는 측정 지표다.

 

03. 회귀를 이용한 예측

외삽법: 모델링에 사용된 데이터 범위를 벗어난 부분까지 모델을 확장하는 것

 

04. 회귀에서의 요인변수

범주형 변수

 

05. 회귀방정식 해석

종속변수를 예측 

 

06. 가정 검정: 회귀 진단

여러 측정 지표들을 고려하여 , 매 단계마다 모델이 데이터에 얼마나 적합한지를 평가한다.

 

07. 다항회귀와 스플라인 회귀

스플라인 회귀 : 다항 구간들을 부드러운 곡선 형태로 피팅한다.

 

05. 분류

범주의 개수

 

01. 나이브 베이즈

주어진 결과에 대해 예측변수 값을 관찰할 확률을 사용하여 예측변수 값을 관찰할 확률을 사용하여  ,예측변수가 주어졌을 때 , 결과 Y = i를 관찰할 확률을 추정하한다.

 

02. 판별 분석

초창기의 통계분류 방법이다.

공분산: 하나의 변수가 다른 변수와 함께 변화하는 정도(유사한 크기와 방향)를 측정하는 지표

판변함수 : 예측 변수에 적용했을 때 , 클래스 구분을 최대화하는 함수

 

03. 로지스틱 회귀

이진형 변수라는 점만 빼면 다중선형회귀와 유사하다.

 

04. 분류 모델 평가하기

예측 모델링에서 , 수많은 모델을 시도해보고 각각에 홀드아웃 표본(시험 표본 혹은 타당성 검사 표본이라고도 부른다.)

혼동행렬: 분류 결과를 나타내는 가장 대표적인 행렬이다.

 

05. 불균형 데이터 다루기

과소표본추출(다움샘플링)을 해서 모델링할 때 0과 1의 데이터 개수에 균형을 맞출 수 있다.

 

06. 통계적 머신러닝

앙상블 학습

의사결정 트리

 

6.1 k최근접 이웃:

특징들이 가장 유사한 k개의 레코드를 찾는다.

분류 

예측

 

 두 벡터 사이에 가장 많이 사용되는 지표는 유클리드 거리이다.

맨하탄거리

 

6.2 트리 메돌

회귀 및 분석트리 , 의사결정 트리 , 혹은 단순히 그냥 트리라도고 불리며 

 

6.3 배깅과 랜덤 포레스트

랜덤 포레스트 : 의사 결정 트리 모델에 기반을 둔 배깅 추정 모델

배깅 : 데이터를 부트스트래핑해서 여러 모델을 만드는 일반적인 방법

 

6.4 부스팅

앙상블 형태

에이다부스트, 그레이디언트 부스팅, 확률적 그레이디언트 부스팅

 

 

07. 비지도 학습 

레이블이 달린 데이터를 이용해 모델을 학습하는 과정 없이 

 

7.1 주성분분석 : 예측 변수들의 선형 결합

7.2 K평균 클러스터링 : 서로 유사한 레코드들의 집합

7.3 계층적 클러스터링 :k평균보다 유연하고 , 수치형 변수가 아니어도 쉽게 적용이 가능하다.

7.4 모델 기반 클러스터링

7.5 스케일링과 범주형 변수

스케일링: 데이터의 범위를 늘리거나 줄이는 방식으로 여러 변수들이 같은 스케일에 오도록 하는 것

 

반응형

+ Recent posts