반응형

위키 모델을 이용해서 한다.

pos norm ->정교화

stem ->원형으로

model.wv.similarity(word, '급하다') ->유사도가 얼마인지

 

문장 -> sentence tokenizer -> word tokenizer

사용자 함수 사용해서 한 번에 처리 하는 것 ->

자연어 언어 처리 프로세스를 vectorize ->형태소 (최소 단위) ->feature vector(컴퓨터가 숫자로 알게끔)

->개수 하는 것 countervectorizer 단점 메모리 많이 잡아서 tf-if vectorizer ->

희소행렬 방식 의미랑 문맥을 단어와 단어를 연산 가능하는 것 wordembedding 방식이 있다.

 

감성 분석

암인데 암이 아니라고 예측하는 것과  -> 이것이 더 중요하다.

암이 아닌데 암이라고 예측하는 것   -> 비용이 들수 있지만

그래서 두가지를 똑같이 보면 안된다.

 

교차검증

이유: 학습 데이터와 검증 데이터를 나누고 학습 데이터 가지고 학습 하고 나서

학습용 데이터를  학습한다. 하지만 학습데이터가 적을 경우 문제가 발생될 경우가 있어서

데이터를 5개 분류로 나눈다.

데이터를 바꿔가면서 하기 때문에 데이터 왜곡 문제를 해결할 수 있다

 

 

 

one-hot 인코딩은 count

문맥 연산화 하게 해서

one -hot encoding 강아지 고양이 관계 등 ...

 

vector방식

back of words-> counte , tfidf

wordvector - >word_embedding(강아지와 고양이 고양이와 멍멍이 ) 좀더 정확하게 작업을 진행할 수 있도록 하는것  word to vector하면 유사도 등도 관계까지 해준다.

 

 

#정규 표현식을 이용하여 숫자를 공백으로 변경

import re

#news_df = news_df.fillna(' ') #null 없에기

news_df.document = news_df.document.apply(lambda x: re.sub(r'\d+','',x))

news_df.document[2]

 

텍스트 전처리 정규화 ,토큰화 필어링, stop wording

필터 백터화 :  one-hot encodinng : count base이다. 그 단어에 숫자가 몇번 있는지 count기반으로 하면 의미가 없는데 count가 많아서 문제가 생길 수있다.  보완하는것이 tf-idf(penalty부여한다.)

                       wordembedding

 

한글 텍스트 처리 okt (5개에서 okt 배웠다.)

pos  norm stem join(word, 품사)

nouns 명사

phrase 구조

morpus

 

wordembedding -> word2vec

(skip-gram 단어를 중심으로

cbow 단어의 주위를 중심으로 )

toji.model 활용해서 했다.데이터가 적어서 공감이 안나와서 데이터가 많은 위키피디아 한국어로 헀다.

위키피디아 한글은 데이터가 많아서 직접 만들수 없어서 모델을 가지고 실습했다. 토지때 보다는 공감이 가는 것이 많이 나왔다.

 

프로젝트에서도 말뭉치의 중요성: 이것이 되야만 서비스 등이 확대가 될 수 있다.

 

Cosine 유사도의 특징 및 장단점

코사인 유사도는 특히 결과값이 [0,1]의 범위로 떨어지는 양수 공간에서 사용된다.(from 위키피디아)

 

모델 튜닝

1.     drouputout

2.     l1규제(절대값을 기준으로 ), l2규제(scale을 기준으로 하고 ) l2규제를 많이 사용한다.

3.     조기종료

 

 

openCV

  • Open Source Computer Vision Library는 오픈소스 이미지(동영상) 라이브러리
  • 이미지 형식 변환, 필터 처리, 얼굴 인식, 물체 인식, 문자 인식 등 이미지와 관련된 다양한 처리
  • 머신러닝에서 OpenCV 사용 : 머신러닝의 입력으로 전달하려면 이미지를 숫자 배열 데이터로 변경
  • pip install opencv-python
반응형

'Study > NLp' 카테고리의 다른 글

NLP-1  (0) 2020.11.26

+ Recent posts