'6.2 이진 데이터 형식' 태그의 글 목록

6.2 이진 데이터 형식

06-2. 데이터 로딩과 저장 파일 형식 2021.02.07

06-2. 데이터 로딩과 저장 파일 형식

2021. 2. 7. 16:47

6.1.1 텍스트 파일 조금씩 읽어오기

pandas 로우의 개수

10개의 데이터만 출력

pd.options.display.max_rows = 10

pd.read_csv('',nrows = 5)

파일을 여러 조각으로 읽고 싶다면 chunksize 옵션으로 로우의 개수를 주면 된다.

pd.read_csv('',chunksize = 1000)

6.1.2 데이터를 텍스트 형식으로 기록하기

data.to_csv() 데이터를 쉼표로 구분된 형식으로 파일에 쓸 수 있다.

비여 있는 값을 처리 na_rep = 'NULL'

index = False

header = False

columns = ['','','']

Series 에도 to_csv메서드가 존재한다.

6.1.3 구분자 형식 다루기

pandas_read_table함수를 이용해서 디슼에 표 형태로 저장된 대부분의 파일 형식을 불러올 수 있다.

delimiter 필드를 구분하기 위한 한 문자로 된 구분자 . 기본값은 ','

csv.writer

csv.reader

6.1.4 JSON 데이터

import son

json.loads(obj)

json.dumps() JSON형태로 변환한다.

pd.read_json()

data.to_json()

6.1.5 XML과 HTML: 웹 스크래핑

lxml

Beautiful Soup

html5lib 같은 HTML과 XML 형식의 데이터

pip install lxml

tables = pd.read_html()

lxml.objectify를 이용해서 XML 파싱하기

XML은 계층적 구조와 메타데이터를 포함하는 중첩된 데이터 구조를 지원하는 또 다른 유명한 데이터 형식이다.

from lxml import objectify

parsed = objectify.parse(open(경로))

root = parsed.getroot()

from io import StringIO

tag = ''

root = objectify.parse(StringIO(tag)).getroot()