반응형

6.1.1 텍스트 파일 조금씩 읽어오기

pandas 로우의 개수 

10개의 데이터만 출력

pd.options.display.max_rows = 10

pd.read_csv('',nrows = 5)

파일을 여러 조각으로 읽고 싶다면 chunksize 옵션으로 로우의 개수를 주면 된다.

pd.read_csv('',chunksize = 1000)

 

6.1.2 데이터를 텍스트 형식으로 기록하기

data.to_csv() 데이터를 쉼표로 구분된 형식으로 파일에 쓸 수 있다.

비여 있는 값을 처리 na_rep = 'NULL'

index = False

header = False

columns = ['','','']

 

Series 에도 to_csv메서드가 존재한다.

 

6.1.3 구분자 형식 다루기

pandas_read_table함수를 이용해서 디슼에 표 형태로 저장된 대부분의 파일 형식을 불러올 수 있다.

delimiter 필드를 구분하기 위한 한 문자로 된 구분자 . 기본값은 ','

 

csv.writer 

csv.reader

 

6.1.4 JSON 데이터

import son

json.loads(obj)

json.dumps() JSON형태로 변환한다.

pd.read_json()

data.to_json()

 

6.1.5 XML과 HTML: 웹 스크래핑

lxml

Beautiful Soup

html5lib 같은 HTML과 XML 형식의 데이터 

 

pip install lxml

tables = pd.read_html()

 

lxml.objectify를 이용해서 XML 파싱하기

XML은 계층적 구조와 메타데이터를 포함하는 중첩된 데이터 구조를 지원하는 또 다른 유명한 데이터 형식이다.

from lxml import objectify

parsed = objectify.parse(open(경로))

root = parsed.getroot()

 

from io import StringIO

tag = ''

root = objectify.parse(StringIO(tag)).getroot()

 

6.2 이진 데이터 형식

pickle 직렬화된 객체는 내장 함수인 pickle로 직접 불러오거나 아니면 좀 더 편리한 pickle함수인 pandas.read_pickle메서드를 이용하여 불러올 수 있다.

 

6.2.1 HDF5 형식 사용하기

HDF5파일 포맷이다.

HDF5는 Hierarchical Data Format의 약자로 계층적 데이터 형식 

pd.HDFStore('파일이름.h5')

 

6.2.2 마이크로소프트 엑셀 파일에서 데이터 읽어오기

pandas.read_excel 함수를 사용해서 마이크로소프트 엑셀 2003 이후 버전의 데이터를 읽어 올 수 있다.

pd.ExcelFile('.xlsx')

pd.read_excel(,'Sheet1')

ExcelWrite를 생성해서 데이터를 기록하고 

pandas객체의 to_excel메서드롤 넘기면 된다.

반응형

+ Recent posts