반응형

10-1 힙합 기사 텍스트 마이닝

KoNLP Korean Natural Language Processing

자바 jdk있어야 한다.

 

10-2 국정원 트윗 텍스트 마이닝

wordcloud()

 

11.지도 시각화

11-1 미국 주별 강력 범죄율 구분도 만들기

단계 구분도

 

11-2 대한민국 시도별 인구, 결핵 환자수 단계 구분도만들기

 

12. 인터랙티브 그래프

12-1 plotly패키지로 인터랙티브 그패프 만들기

인터랙티브 그래프: 마우스 움직임에 반응하며 실시간으로 형태가 변하는 그패를 말합니다.

 

12-2 dygraphs패키지로 인터랙티브 시계열 그래프 만들기

 

13. 통계 분석 기법을 이용한 가설 검정

13-1 통계적 가설 검정이란?

기술 통계

추론 동계

13-2 t 검정 - 두 집단의 평균 비교

't검증 (t-test)'은 두 집단의 평균에 통계적으로 유의한 차이가 잇는지 알아볼 때 사용하는 통계 분석 기법입니다.

13-3 상관분석 - 두 변수의 관계성 분석

상관분석 은 두 연속 변수가 서로 관련이 있는지 검정하는 통계 분석기법입니다.

 

14.  R Markdown으로 데이터 분석 보고서 만들기

14-1 신뢰할 수 있는 데이터 분석 보고서 만들기

R Markdown 을 활용하면 데이터 분석의 전 과정을 담은 보고서를 쉽게 만들 수 있습니다.

14-2 R 마크다운 문서 만들기

 

15. R내장 함수 , 변수 타입과 데이터 구조

15-1 R 내장 함수로 데이터 추출하기

read.csv()

 

15-2 변수 타입

변수는 연수 변수와 범주 변수로 분류할 수 있습니다.

 

15-3 데이터 구조

1. 벡터 :

하나의 값 또는 여러 개의 값으로 구성된 데이터 구조

2. 데이터 프레임

형과 열로 구성된 2차원 데이터 구조

3. 매트릭스

matrix는 데이터 프레임과 마찬가지로 행과 열로 구성된 2차원 데이터 구조 지만, 한가지 변수 타입으로만 구성

4. 어레이

5. 리스트

 

16. 데이터 분석 기술을 효율적으로 익히는 방법

16-1 집중햘 방향 정하기

데이터 분석 관련 분야 살펴보기

 

16-2 데이터 분석 기술을 효율적으로 익히는 방법 

16-3 오픈 소스 생태계와 어울리기

거인의 어깨에 올라서기

구글링하기

 

반응형
반응형

09-1 '한국복지패널데이터' 분석 준비하기

bit.ly/doit_rb

Koweps_hpc10_2015_betal.sav

foreign 패키지를 이용하면 SPSS, SAS , STATA등 다양한 통계분석 소프트웨어의 파일을 불러올 수 있습니다.

 

09-2 성별에 따른 월급 차이 -'성별에 따라 월급이 다를까?'

 

09-3 나이와 월급의 관계 -" 몇살 때 월급을 가장 많이 받을 까 ?"

 

09-4 연령대에 따른 월급 차이 - "어떤 연령대의 월급이 가장 많을 까 ?"

scale_x_discrete(limits=c())

 

09-5 연령대 및 성별 월급 차이 -" 성별 월급 차이는 연령대별로 다를까 ?"

09-6 직업별 월급 차이 -" 어떤 직업이 월급을 가장 많이 받을 까 ?"

09-7 성별 직업 빈도 - "성별로 어떤 직업이 가장 많을 까 ?"

09-8 종교 유무에 따른 이혼을 "종교가 있는 사람들이 이혼을 덜 할 까 ?"

09-9 지역별 연령대 비율 -" 노년층이 많은 지역은 어디일까 ?"

 

반응형
반응형

06-1 데이터 전처리- 원하는 형태로 데이터 가공하기

분석에 적합하게 데이터를 가공하는 작업을 '데이터 전처리'라고 합니다. 

Data Preprocessing

 

06-2 조건에 맞는 데이터만 추출하기

filter()

 

06-3 필요한 변수만 추출하기

select()

 

06-4 순서대로 정렬하기

arrange()를 이용하면 데이터를 원하는 순서로 정렬할 수 있습니다.

 

06-5 파생변수 추가하기

mutate() 를 사용하면 기존 데이터에 파생변수를 만들어 추가할 수 있습니다.

 

06-6 집단별로 요약하기

summarise()

 

06-7 데이터 합치기

가로로 합치기 by = ""

세로로 합치기 bind_rows()

 

07. 데이터 정제 - 빠진 데이터 , 이상한 데이터 제거하기 

07-1 빠진 데이터를 찾아라 !- 결측치 정제하기 

is.na()

na.rm = T

 

07-2 이상한 데이터를 찾아라 !-  이상치 정제하기

정상 범주에서 크게 벗어난 값을 '이상치 Outlier라고 합니다.

극단치 : 논리적으로 존재할 수 있지만 극단적으로 크거나 작은 값을 '극단치'라고 합니다.

 

boxplot()

 

08. 그래프 만들기 

08-1 R로 만들 수 있는 그래프 살펴보기

ggplot2

 

08-2 산점도 - 변수 간 관계 표현하기 

산점도 

geom_point()

 

08-3 막대 그래프 -집단 간 차이 표현하기

geom_bar()

 

08-4 선그래프 - 시간에 따라 달라지는 데이터 표현하기 

geom_line()

 

08-5 상자 그림 - 집단 간 분포 차이 표현하기

geom_boxplot()

 

반응형
반응형

04-1 데이터는 어떻게 생겼나 ? -데이터 프레임 이해하기

데이터 프레임은 가장 많이 사용하는 데이터 형태로 , 행과 열로 구성된 사각형 모양의 표처럼 생겼습니다.

 

'열' 은 속성이다.

'행' 은 한사람의 정보이다

한명에 대한 데이터는 가로 한 줄에 나열된다.

데이터가 크다 = 행이 많다 또는 열이 많다.

 

04-2 데이터 프레임 만들기

data.frame()

04-3 외부 데이터 이용하기 -축적된 시험 성적 데이터를 불러오자~

엑셀 

install.package("readx1")

library(readx1)

read_excel()

 

csv파일 

read.csv()

write.csv()

 

05. 데이터 분석 기초! -데이터 파악하기 , 다루기 쉽게 수정하기

05-1 데이터 파악하기

head()

tail()

View()

dim()

str()

summary()

 

05-2 변수명 바꾸기

rename()

 

05-3 파생변수 만들기 

기존의 변수를 변행해 만드는 것 

 

 

반응형
반응형

출처 : 쉽게 배우는 R데이터 분석

 

데이터 분석 전문 도구

01-1 R이 뭔가요 ? - R이해하기

R은 데이터를 분석하는 데 사용되는 소프트웨어이다.

통계분석

머신러닝 모델링

텍스트 마이닝

소셜 네트워크 분석

지도 시각화

주식 분석

이미지 분석

사운드 분석

웹 애플리케이션 개발

전 세계 데이터 분석가들이 사용하는 R

 

01-2 R이 강력한 이유

R은 무료로 사용할 수 있는 오픈 소스!

 

오픈 소스 생태계 - 다양한 패키지 , 최신 분석 기법

 

02. R 데이터 분석 환경 만들기

02-1 R과 R스튜디오 설치하기

ide 통합 개발 환경: 코딩 , 파일 관리 , 배포 등 프고르래밍에 필요한 다양한 작업을 수행할 수 있는 소프트웨어입니다.

 

02-2 R 스튜디오와 친숙하기

02-3 프로젝트 만들기

프로그램 이름과 폴터 경로에 한글이 들어가면 오류가 발생할 수 있으니 주의 하세요.

02-4 유용한 환경 설정

 

03. 데이터 분석을 위한 연장 챙기기

03-1 변하는 변수, '변수' 이해하기

변수는 변하는 수다.

변수는 데이터 분석의 대상

상수는 분석할 게 없다.

 

변수 만들기 

a <-1 혹은 a= 1

변수명 생성 규칙

c()

seq() 

문사로 된  변수는 연산할 수  없다.

 

03-2 마술 상자 같은 '함수' 이해하기

평균 mean()

max()

문자를 다루는 함수 paste()

 

03-3 함수 꾸러미, '패키지' 이해하기

패키지란 ?

ggplot2()

 

반응형

+ Recent posts