반응형
10.1.3 사전과 Series 에서 그룹핑하기
groupby메서드
10.1.4 함수로 그룹핑하기
이름의 길이별로 그룹을 묶고 싶다면 이름의 길이가 담긴 배열을 만들어 넘기는 대신 len 함수를 넘기면 된다.
groupby(len).sum()
groupby([len. key_list]).min()
10.1.5 색인 단계로 그룹핑하기
import pandas as pd
import numpy as np
columns = pd.MultiIndex.from_arrays([['US','US','US','JP','JP'],
[1,3,5,1,3]],
names = ['city','tenor'])
hire_df = pd.DataFrame(np.random.randn(4,5), columns = columns)
hire_df.groupby(level='city', axis=1).count()
10.2 데이터 집계
데이터 집계는 배열로 부터 스칼라값을 만들어내는 모든 데이터 변환 작업을 말한다.
최적화된 groupby 메서드
count | 그룸에서 NA가 아닌 값의 수를 반환한다. |
sum | NA가 아닌 값들의 합을 구한다. |
mean | NA가 아닌 값들의 평균을 구한다. |
median | NA가 아닌 값들의 산술 중간값을 구한다. |
std,var | 편항되지 않는 (n-1을 분모로 하는 )표준화와 분산 |
min,max | NA가 아닌 값들의 중 최솟값과 최댓값 |
prod | NA가 아닌 값들의 곱 |
first,last | NA가 아닌 값들 중 첫쨰 값과 마지막 값 |
quantilte 메서드는 Groupby 만을 위해 구현되지 않았지만 Series 메서드이기 때문에 여기서 사용할 수 있다.
aggregate나 agg메서드에 해당 함수를 넘기면 된다.
describe 같은 메서드는 데이터를 집계하지 않는데도 잘 작동함을 확인 할 수 있다.
10.2.1 컬럼에 여러 가지 함수 적용하기
aggregate -> agg
10.2.2 색인 되지 않은 형태로 집계된 데이터 반환하기
as_index = False 불필요한 계산을 피할 수있다.
10.3 Apply: 일반적인 분리-적용-병합
apply()
10.3.1 그룹 색인 생략하기
group_keys = False
10.3.2 변위치 분석과 버킷 분석
cut : 임의의 데이터 묶음을 cut
qcut
반응형
'책 > python for Data Analysis' 카테고리의 다른 글
11-2. 시계열 (0) | 2021.02.21 |
---|---|
10-3. 데이터 집계와 그룹 연산 11-1. 시계열 (0) | 2021.02.19 |
09-2. 그래프와 시각화 10-1. 데이터 집계와 그룹 연산 (0) | 2021.02.17 |
09-1. 그래프와 시각화 (0) | 2021.02.17 |
08-2. 데이터 준비하기: 조인 병합 변형 (0) | 2021.02.09 |