반응형

13.1 pandas와 모델 코드의 인터페이스

모델 개발 

특징을 선택하고 추출하는 피처 엔지니어링인데 원시 데이터셋으로부터 모델링에서 유용할 수 있는 정보를 추출하는 변환이나 분석 과정을 일컫는다.

.values속성

.columns 

loc 을 이용해서 values속성에 접근하기 바란다.

'category'컬럼을 더미값으로 치환하고 싶다면 더미값을 생성하고 'category'컬럼을 삭제한 다음 결과와 합쳐야한다.

 

13.2 Patsy를 이용해서 모델 생성하기

Pasty는 통계모델 (특히 선형 모델)을 위한 파이썬 라이브러리이며 R이나 S통계 프로그래밍 언어에서 사용하는 수식 문법과 비슷한 형식의 문자열 기반 '수식 문법'을 제공한다.

Pasty는 통계 모델에서 선형 모델을 잘 지원하므로 이해를 돕기 위해 주요 기능 중 일부만 살펴

Pasty의 수식 문법은 다음과 같은 특수한 형태의 문자열이다.

y ~ x0 + x1

배열을 설계

patsy.dmatrices함수

최소자승회귀분석 numpy.linalg.lstsq같은 알고리즘

 

13.2.1 Pasty용법으로 데이터 변환하기

표준화 평균 0, 분산 1와 센터링 (평균값을 뺌)

홀드-아웃: 신규 데이터가 나중에 관측되는 경우다. 

센터링이나 표준화 같은 변환을 적용하는 경우 새로운 데이터에 기반하여 예측하기 위한 용도로 모델을 사용한다염 주의해야 한다.

 

13.2.2 범주형 데이터와 Patsy

비산술 데이터는 여러 가지 형태의 모델 설계 배열로 변환될 수 있다.

ANOVA analysis of variance(분산분석) 모델에서

 

13.3 statsmodels소개

다양한 종류의 통계 모델 피팅, 통계 테스트 수행 그리고 데이터 탐색과 시각화를 위한 파이썬 라이브러리다.

statsmodels는 좀 더 '전통적인' 빈도주의적 통계 메서드를 포함하고 있다.

 

13.3.1 선형 모델 예측하기

선형회귀 모델

최소제곱부터 ols

반복재가중 최소제곱 IRLS

 

13.3.2 시계열 처리 예측

시계열 분석을 위한 모델에는 자동회귀 처리, 칼만 필터링과 다른 상태 공간 모델 그리고 다변 자동회귀 모델 등이 있다.

AR모델을 피팅할 때는 포함시켜야 할 지연항을 얼마나 두어야 하는지 알지 못하므로 적당히 큰 값으로 모델을 피팅한다.

 

13.4 scikit-learn소개

scikit-learn은 표준적은 지도 학습과 비지도 학습 메서드를 포함하고 있으며 모델 선택, 평가  , 데이터 변형, 데이터 적재, 모델 유지 및 기타 작업을 위한 도구들을 제공한다.

statsmodels나 scikit-learn라입러리는 일반적으로 누락된 데이터를 처리하지 못하므로 데이터셋에 빠진 값이 있는지 살펴본다.

isnull().sum()

fillna()

 

LogisticRegression모델을 이용 

 

교차검증 

cross_val_score

반응형

+ Recent posts