반응형

7.3.2 정규 표현식

정규 표현식은 텍스트에서 문자열 패턴을 찾는 유연한 방법을 제공한다.

regex라 불리는 단일 표현식은 정규 표현 언어로 구성된 문자열이다.

re 모듈 

re모듈 함수는 패턴 매칭, 치환 , 분리 세 가지로 나눌 수 있다.

regex = re.compile('패턴')

regex.findall(text)

 

search 

match

sub

sub, subn

split

 

7.3.3 pandas의 벡터화된 문자열 함수

IGNORECASE RE옵션

 

08. 데이터 준비하기: 조인 병합 변형

 

8.1 계층적 색인

계층적 색인 은 pandas의 중요한 기능인데 축에 대해 다중(둘 이상) 색인 단계를 지정할 수 있도록 해준다.

높은 차원의 데이터  -> 낮은 차원의 형식으로 

계층적으로 색인된 객체는 대부분의 부분집합을 부분적 색인으로 접근 하는 것이 가능하다.

loc사용

 

계층적인 색인은 데이터를 재형성하고 피벗 테이블 생성 같은 그룹 기반의 작업을 할 때 중요하게 사용한다.

unstack()메서드

unstack의 반대 작업은 stack 메서드로 수행한다.

 

8.1.1 계층의 순서를 바꾸고 정렬하기 

swaplevel 은 넘겨 받은 두 개의 계층 번호나 이름이 뒤바뀐 새로운 객체를 반환한다.

sort_index 메서드는 단일 계층에 속한 데이터를 정렬한다.

 

8.1.2 계층별 요약 통계

frame.sum(level='')

frame.sum(level='', axis = '1')

 

8.1.3 DataFrame의 컬럼 사용하기

set_index()

drop = False

reset_index()

 

8.2 데이터 합치기

pandas.merge는 하나 이상의 키를 기준으로 DataFrame의 로우를 합치나. SQL이나 다른 관계형 데이터베이스의 JOIN연산과 유사하다.

pandas.concat는 하나의 축을 따라 객체를 이어붙인다.

combile_first 인스턴스 메서드는 두 객체를 포개서 한 객체에서 누락된 데이터를 다른 객체에 있는 값으로 채울 수 있도록 한다.

 

8.2.1 데이터베이스 스타일로 DataFrame합치기

병합 (merge)이나 조인(join) 연산은 관계형 데이터베이스의 핵심적인 연산인데 , 하나 이상의 키를 사용해서 데이터 집합의 로우를 합친다.

pandas의 merge

pd.merge(df1, df2, on = 'key')

pd.merge(df1, df2, how= 'outer')

inner: 양쪽 테이블 모두에 존재하는 키 조합을 사용한다.

left : 왼쪽 테이블 모두에 존재하는 키 조합을 사용한다.

right : 오른쪽 테이블에 존재하는 모든 키 조합을 사용한다.

output : 양쪽 테이블에 존재하는 모든 키 조합을 사용한다.

 

축 이름을 변경해서 수동으로 컬럼 이름이 겹치게 할 수도 있고 , merge함수에 있는 suffixes 인자로 두 DataFrame객체에 겹치는 컬럼 이름 뒤에 붙일 문자열을 지정해 줄 수도 있다.

 

반응형

+ Recent posts