6.1.1 텍스트 파일 조금씩 읽어오기
pandas 로우의 개수
10개의 데이터만 출력
pd.options.display.max_rows = 10
pd.read_csv('',nrows = 5)
파일을 여러 조각으로 읽고 싶다면 chunksize 옵션으로 로우의 개수를 주면 된다.
pd.read_csv('',chunksize = 1000)
6.1.2 데이터를 텍스트 형식으로 기록하기
data.to_csv() 데이터를 쉼표로 구분된 형식으로 파일에 쓸 수 있다.
비여 있는 값을 처리 na_rep = 'NULL'
index = False
header = False
columns = ['','','']
Series 에도 to_csv메서드가 존재한다.
6.1.3 구분자 형식 다루기
pandas_read_table함수를 이용해서 디슼에 표 형태로 저장된 대부분의 파일 형식을 불러올 수 있다.
delimiter 필드를 구분하기 위한 한 문자로 된 구분자 . 기본값은 ','
csv.writer
csv.reader
6.1.4 JSON 데이터
import son
json.loads(obj)
json.dumps() JSON형태로 변환한다.
pd.read_json()
data.to_json()
6.1.5 XML과 HTML: 웹 스크래핑
lxml
Beautiful Soup
html5lib 같은 HTML과 XML 형식의 데이터
pip install lxml
tables = pd.read_html()
lxml.objectify를 이용해서 XML 파싱하기
XML은 계층적 구조와 메타데이터를 포함하는 중첩된 데이터 구조를 지원하는 또 다른 유명한 데이터 형식이다.
from lxml import objectify
parsed = objectify.parse(open(경로))
root = parsed.getroot()
from io import StringIO
tag = ''
root = objectify.parse(StringIO(tag)).getroot()
6.2 이진 데이터 형식
pickle 직렬화된 객체는 내장 함수인 pickle로 직접 불러오거나 아니면 좀 더 편리한 pickle함수인 pandas.read_pickle메서드를 이용하여 불러올 수 있다.
6.2.1 HDF5 형식 사용하기
HDF5파일 포맷이다.
HDF5는 Hierarchical Data Format의 약자로 계층적 데이터 형식
pd.HDFStore('파일이름.h5')
6.2.2 마이크로소프트 엑셀 파일에서 데이터 읽어오기
pandas.read_excel 함수를 사용해서 마이크로소프트 엑셀 2003 이후 버전의 데이터를 읽어 올 수 있다.
pd.ExcelFile('.xlsx')
pd.read_excel(,'Sheet1')
ExcelWrite를 생성해서 데이터를 기록하고
pandas객체의 to_excel메서드롤 넘기면 된다.
'책 > python for Data Analysis' 카테고리의 다른 글
07-1. 데이터 정제 및 준비 (0) | 2021.02.07 |
---|---|
06-3. 데이터 로딩과 저장 파일 형식 07-1. 데이터 정제 및 준비 (0) | 2021.02.07 |
05-2. pandas 시작하기 06-1. 데이터 로딩과 저장 파일 형식 (0) | 2021.02.07 |
05-1. pandas 시작하기 (0) | 2021.01.31 |
04-2. NumPy 기본: 배열과 벡터 연산 05. pandas 시작하기 (0) | 2021.01.31 |