반응형

Rnn은 사용하지 않는다.

학습이 빠르고 성능이 좋다.

 

왜 빨랐을 가 ?

RNN을 사용하지 않았다.

병렬화 : 일을 최대한 한방에 처리한다.

 

Rnn은 순서로 해서 하나하나 입력해서 한다. 

중간에 context vector이 있다.

context vector : 고정된 크기 

긴 문장은 잘 안된다.

 

RNN based encoder decoder with attention: 

동적으로 사용한다.

하지만 느리다. 

 

Transformer :

rnn 을 제거하였다. 

한번에 학습한다.

 

RNN은 단어의 위치와 순서 저보를 잘 할 수 있기 떄문이다.

 

Positional encoding

sign, cosin 을 이용하면장점이 있다.

-1 ~ 1까지의 값이고 

에러가 없이 상대적인 encoding이 가능하다.

 

self attention 

encoding에서 주어진 연산

query ,key , value는 행렬곱으로 한방에 할 수 있다.

상관관계를 곱할때 query * key 곱해서 attention score이라고 한다.

숫자로 나오고 단어 연관성이 높다 낮으면 연관성이 낮다.

 

순차적으로 해서 병렬 처리에 가장 큰 장점입니다.

 

multi- head attention

 

병렬로 동시에 수행하여 

 

encoder는 가중치를 공유하지 않고 

 

decoder 동이란 layer 

순차적으로 출력한다.

masked multi-head attention : 지금 까지 출력한 값들에만 대해서 masked 붙여진 것이다.

multi- head attention : 가장 큰 차이점은 현재 query 로 사용하고 최종 출력값을 key  value로 한다.

 

label smoothing : 1에 가깝지만 1이 아니고 0에 가깝지만 0이 아닌 

 

 

 

https://www.youtube.com/watch?v=mxGCEWOxfe8

 

반응형

+ Recent posts