'10.2.1 컬럼에 여러 가지 함수 적용하기' 태그의 글 목록

10.2.1 컬럼에 여러 가지 함수 적용하기

10-2. 데이터 집계와 그룹 연산 2021.02.18

10-2. 데이터 집계와 그룹 연산

2021. 2. 18. 10:21

10.1.3 사전과 Series 에서 그룹핑하기

groupby메서드

10.1.4 함수로 그룹핑하기

이름의 길이별로 그룹을 묶고 싶다면 이름의 길이가 담긴 배열을 만들어 넘기는 대신 len 함수를 넘기면 된다.

groupby(len).sum()

groupby([len. key_list]).min()

10.1.5 색인 단계로 그룹핑하기

import pandas as pd
import numpy as np
columns = pd.MultiIndex.from_arrays([['US','US','US','JP','JP'],
                                    [1,3,5,1,3]],
                                   names = ['city','tenor'])

hire_df = pd.DataFrame(np.random.randn(4,5), columns = columns)
hire_df.groupby(level='city', axis=1).count()

10.2 데이터 집계

데이터 집계는 배열로 부터 스칼라값을 만들어내는 모든 데이터 변환 작업을 말한다.

최적화된 groupby 메서드

count	그룸에서 NA가 아닌 값의 수를 반환한다.
sum	NA가 아닌 값들의 합을 구한다.
mean	NA가 아닌 값들의 평균을 구한다.
median	NA가 아닌 값들의 산술 중간값을 구한다.
std,var	편항되지 않는 (n-1을 분모로 하는 )표준화와 분산
min,max	NA가 아닌 값들의 중 최솟값과 최댓값
prod	NA가 아닌 값들의 곱
first,last	NA가 아닌 값들 중 첫쨰 값과 마지막 값

quantilte 메서드는 Groupby 만을 위해 구현되지 않았지만 Series 메서드이기 때문에 여기서 사용할 수 있다.

aggregate나 agg메서드에 해당 함수를 넘기면 된다.

describe 같은 메서드는 데이터를 집계하지 않는데도 잘 작동함을 확인 할 수 있다.

10.2.1 컬럼에 여러 가지 함수 적용하기

aggregate -> agg

10.2.2 색인 되지 않은 형태로 집계된 데이터 반환하기

as_index = False 불필요한 계산을 피할 수있다.

10.3 Apply: 일반적인 분리-적용-병합

apply()

10.3.1 그룹 색인 생략하기

group_keys = False

10.3.2 변위치 분석과 버킷 분석

cut : 임의의 데이터 묶음을 cut

qcut

'책 > python for Data Analysis' 카테고리의 다른 글

11-2. 시계열 (0)	2021.02.21
10-3. 데이터 집계와 그룹 연산 11-1. 시계열 (0)	2021.02.19
09-2. 그래프와 시각화 10-1. 데이터 집계와 그룹 연산 (0)	2021.02.17
09-1. 그래프와 시각화 (0)	2021.02.17
08-2. 데이터 준비하기: 조인 병합 변형 (0)	2021.02.09

PREV 1 NEXT

NAIAHD