'6.1.1 텍스트 파일 조금씩 읽어오기' 태그의 글 목록

6.1.1 텍스트 파일 조금씩 읽어오기

06-2. 데이터 로딩과 저장 파일 형식 2021.02.07

06-2. 데이터 로딩과 저장 파일 형식

2021. 2. 7. 16:47

6.1.1 텍스트 파일 조금씩 읽어오기

pandas 로우의 개수

10개의 데이터만 출력

pd.options.display.max_rows = 10

pd.read_csv('',nrows = 5)

파일을 여러 조각으로 읽고 싶다면 chunksize 옵션으로 로우의 개수를 주면 된다.

pd.read_csv('',chunksize = 1000)

6.1.2 데이터를 텍스트 형식으로 기록하기

data.to_csv() 데이터를 쉼표로 구분된 형식으로 파일에 쓸 수 있다.

비여 있는 값을 처리 na_rep = 'NULL'

index = False

header = False

columns = ['','','']

Series 에도 to_csv메서드가 존재한다.

6.1.3 구분자 형식 다루기

pandas_read_table함수를 이용해서 디슼에 표 형태로 저장된 대부분의 파일 형식을 불러올 수 있다.

delimiter 필드를 구분하기 위한 한 문자로 된 구분자 . 기본값은 ','

csv.writer

csv.reader

6.1.4 JSON 데이터

import son

json.loads(obj)

json.dumps() JSON형태로 변환한다.

pd.read_json()

data.to_json()

6.1.5 XML과 HTML: 웹 스크래핑

lxml

Beautiful Soup

html5lib 같은 HTML과 XML 형식의 데이터

pip install lxml

tables = pd.read_html()

lxml.objectify를 이용해서 XML 파싱하기

XML은 계층적 구조와 메타데이터를 포함하는 중첩된 데이터 구조를 지원하는 또 다른 유명한 데이터 형식이다.

from lxml import objectify

parsed = objectify.parse(open(경로))

root = parsed.getroot()

from io import StringIO

tag = ''

root = objectify.parse(StringIO(tag)).getroot()

6.2 이진 데이터 형식

pickle 직렬화된 객체는 내장 함수인 pickle로 직접 불러오거나 아니면 좀 더 편리한 pickle함수인 pandas.read_pickle메서드를 이용하여 불러올 수 있다.

6.2.1 HDF5 형식 사용하기

HDF5파일 포맷이다.

HDF5는 Hierarchical Data Format의 약자로 계층적 데이터 형식

pd.HDFStore('파일이름.h5')

6.2.2 마이크로소프트 엑셀 파일에서 데이터 읽어오기

pandas.read_excel 함수를 사용해서 마이크로소프트 엑셀 2003 이후 버전의 데이터를 읽어 올 수 있다.

pd.ExcelFile('.xlsx')

pd.read_excel(,'Sheet1')

ExcelWrite를 생성해서 데이터를 기록하고

pandas객체의 to_excel메서드롤 넘기면 된다.

'책 > python for Data Analysis' 카테고리의 다른 글

07-1. 데이터 정제 및 준비 (0)	2021.02.07
06-3. 데이터 로딩과 저장 파일 형식 07-1. 데이터 정제 및 준비 (0)	2021.02.07
05-2. pandas 시작하기 06-1. 데이터 로딩과 저장 파일 형식 (0)	2021.02.07
05-1. pandas 시작하기 (0)	2021.01.31
04-2. NumPy 기본: 배열과 벡터 연산 05. pandas 시작하기 (0)	2021.01.31

PREV 1 NEXT

NAIAHD