반응형

10.1.3 사전과 Series 에서 그룹핑하기

groupby메서드 

 

10.1.4 함수로 그룹핑하기

이름의 길이별로 그룹을 묶고 싶다면 이름의 길이가 담긴 배열을 만들어 넘기는 대신 len 함수를 넘기면 된다.

groupby(len).sum()

groupby([len. key_list]).min()

 

10.1.5 색인 단계로 그룹핑하기

import pandas as pd
import numpy as np
columns = pd.MultiIndex.from_arrays([['US','US','US','JP','JP'],
                                    [1,3,5,1,3]],
                                   names = ['city','tenor'])

hire_df = pd.DataFrame(np.random.randn(4,5), columns = columns)
hire_df.groupby(level='city', axis=1).count()

 

10.2 데이터 집계

데이터 집계는 배열로 부터 스칼라값을 만들어내는 모든 데이터 변환 작업을 말한다.

최적화된 groupby 메서드

count 그룸에서 NA가 아닌 값의 수를 반환한다.
sum NA가 아닌 값들의 합을 구한다.
mean NA가 아닌 값들의 평균을 구한다.
median NA가 아닌 값들의 산술 중간값을 구한다.
std,var 편항되지 않는 (n-1을 분모로 하는 )표준화와 분산
min,max NA가 아닌 값들의 중 최솟값과 최댓값
prod NA가 아닌 값들의 곱
first,last NA가 아닌 값들 중 첫쨰 값과 마지막 값

quantilte 메서드는 Groupby 만을 위해 구현되지 않았지만 Series 메서드이기 때문에 여기서 사용할 수 있다.

aggregate나 agg메서드에 해당 함수를 넘기면 된다.

describe 같은 메서드는 데이터를 집계하지 않는데도 잘 작동함을 확인 할 수 있다.

 

 

10.2.1 컬럼에 여러 가지 함수 적용하기

aggregate -> agg

 

10.2.2 색인 되지 않은 형태로 집계된 데이터 반환하기

as_index = False 불필요한 계산을 피할 수있다.

 

10.3 Apply: 일반적인 분리-적용-병합

apply()

 

10.3.1 그룹 색인 생략하기

group_keys = False

 

10.3.2 변위치 분석과 버킷 분석

cut : 임의의 데이터 묶음을 cut

qcut 

반응형

+ Recent posts