이 메서드의 대부분은 Series나 DataFrame의 로구나 컬럼에서 단일 값(합이나 평균 같은) 을 구하는 축소 혹은 요약 통계범주에 속한다.
DataFrame
df.sum()
df.sum(axis='columns') axis ='columns'또는 axis=1 옵션을 넘기면 각 컬럼의 합을 변환한다.
skipna= False NA가 아니라면 Na값은 제외되고 계산된다.
level: 계산하려는 축인 계층적 색인(다중 색인)이라면 레벨에 따라 묶어서 계산한다.
idxmin이나 idxmax같은 메서드는 최솟값 혹은 최대값은 가지고 있는 색인값과 같은 간접 통계를 반환한다.
df.idxmax()
또 다른 메서드로 누산이 있다.
df.cumsum()
축소나 누산이 아닌 다른 종류의 메서드로 describe가 있는데 , 이 메서드는 한번에 여러 개의 통계 결과를 만들어낸다.
df.describe()
5.3.1 상관관계와 공분산
conda install pandas-datareader :
금융 사이트에서 구한 주식 가격과 시가총액을 담고 있는 다음 DataFrame을 생각
conda 혹은 pip를 통해 설치
import pandas_datareader.data as web
import pandas as pd
all_data = {ticker:web.get_data_yahoo(ticker) for ticker in ['AAPL','IBM','MSFT','GOOG']}
price = pd.DataFrame({ticker:data['Adj Close'] for ticker, data in all_data.items()})
volume = pd.DataFrame({ticker:data['Volume'] for ticker,data in all_data.items()})
returns = price.pct_change()
returns.tail()
시계열 데이터
corr메서드와 cov메서드
corr메서드는 NA가 아니며 정렬된 색인에서 연속하는 두 Series에 대해 상관관계를 계싼하고 cov메서드는 공분산을 계산