7.3.2 정규 표현식
정규 표현식은 텍스트에서 문자열 패턴을 찾는 유연한 방법을 제공한다.
regex라 불리는 단일 표현식은 정규 표현 언어로 구성된 문자열이다.
re 모듈
re모듈 함수는 패턴 매칭, 치환 , 분리 세 가지로 나눌 수 있다.
regex = re.compile('패턴')
regex.findall(text)
search
match
sub
sub, subn
split
7.3.3 pandas의 벡터화된 문자열 함수
IGNORECASE RE옵션
08. 데이터 준비하기: 조인 병합 변형
8.1 계층적 색인
계층적 색인 은 pandas의 중요한 기능인데 축에 대해 다중(둘 이상) 색인 단계를 지정할 수 있도록 해준다.
높은 차원의 데이터 -> 낮은 차원의 형식으로
계층적으로 색인된 객체는 대부분의 부분집합을 부분적 색인으로 접근 하는 것이 가능하다.
loc사용
계층적인 색인은 데이터를 재형성하고 피벗 테이블 생성 같은 그룹 기반의 작업을 할 때 중요하게 사용한다.
unstack()메서드
unstack의 반대 작업은 stack 메서드로 수행한다.
8.1.1 계층의 순서를 바꾸고 정렬하기
swaplevel 은 넘겨 받은 두 개의 계층 번호나 이름이 뒤바뀐 새로운 객체를 반환한다.
sort_index 메서드는 단일 계층에 속한 데이터를 정렬한다.
8.1.2 계층별 요약 통계
frame.sum(level='')
frame.sum(level='', axis = '1')
8.1.3 DataFrame의 컬럼 사용하기
set_index()
drop = False
reset_index()
8.2 데이터 합치기
pandas.merge는 하나 이상의 키를 기준으로 DataFrame의 로우를 합치나. SQL이나 다른 관계형 데이터베이스의 JOIN연산과 유사하다.
pandas.concat는 하나의 축을 따라 객체를 이어붙인다.
combile_first 인스턴스 메서드는 두 객체를 포개서 한 객체에서 누락된 데이터를 다른 객체에 있는 값으로 채울 수 있도록 한다.
8.2.1 데이터베이스 스타일로 DataFrame합치기
병합 (merge)이나 조인(join) 연산은 관계형 데이터베이스의 핵심적인 연산인데 , 하나 이상의 키를 사용해서 데이터 집합의 로우를 합친다.
pandas의 merge
pd.merge(df1, df2, on = 'key')
pd.merge(df1, df2, how= 'outer')
inner: 양쪽 테이블 모두에 존재하는 키 조합을 사용한다.
left : 왼쪽 테이블 모두에 존재하는 키 조합을 사용한다.
right : 오른쪽 테이블에 존재하는 모든 키 조합을 사용한다.
output : 양쪽 테이블에 존재하는 모든 키 조합을 사용한다.
축 이름을 변경해서 수동으로 컬럼 이름이 겹치게 할 수도 있고 , merge함수에 있는 suffixes 인자로 두 DataFrame객체에 겹치는 컬럼 이름 뒤에 붙일 문자열을 지정해 줄 수도 있다.
'책 > python for Data Analysis' 카테고리의 다른 글
09-1. 그래프와 시각화 (0) | 2021.02.17 |
---|---|
08-2. 데이터 준비하기: 조인 병합 변형 (0) | 2021.02.09 |
07-1. 데이터 정제 및 준비 (0) | 2021.02.07 |
06-3. 데이터 로딩과 저장 파일 형식 07-1. 데이터 정제 및 준비 (0) | 2021.02.07 |
06-2. 데이터 로딩과 저장 파일 형식 (0) | 2021.02.07 |