Rnn은 사용하지 않는다.
학습이 빠르고 성능이 좋다.
왜 빨랐을 가 ?
RNN을 사용하지 않았다.
병렬화 : 일을 최대한 한방에 처리한다.
Rnn은 순서로 해서 하나하나 입력해서 한다.
중간에 context vector이 있다.
context vector : 고정된 크기
긴 문장은 잘 안된다.
RNN based encoder decoder with attention:
동적으로 사용한다.
하지만 느리다.
Transformer :
rnn 을 제거하였다.
한번에 학습한다.
RNN은 단어의 위치와 순서 저보를 잘 할 수 있기 떄문이다.
Positional encoding
sign, cosin 을 이용하면장점이 있다.
-1 ~ 1까지의 값이고
에러가 없이 상대적인 encoding이 가능하다.
self attention
encoding에서 주어진 연산
query ,key , value는 행렬곱으로 한방에 할 수 있다.
상관관계를 곱할때 query * key 곱해서 attention score이라고 한다.
숫자로 나오고 단어 연관성이 높다 낮으면 연관성이 낮다.
순차적으로 해서 병렬 처리에 가장 큰 장점입니다.
multi- head attention
병렬로 동시에 수행하여
encoder는 가중치를 공유하지 않고
decoder 동이란 layer
순차적으로 출력한다.
masked multi-head attention : 지금 까지 출력한 값들에만 대해서 masked 붙여진 것이다.
multi- head attention : 가장 큰 차이점은 현재 query 로 사용하고 최종 출력값을 key value로 한다.
label smoothing : 1에 가깝지만 1이 아니고 0에 가깝지만 0이 아닌
https://www.youtube.com/watch?v=mxGCEWOxfe8
'논문 > NLP' 카테고리의 다른 글
[NLP] Transformer : Attention Is All You Need (0) | 2021.10.02 |
---|---|
Transformer : Attention is all you need - 동영상-2 (0) | 2021.07.16 |
Transformer : Attention is all you need - 동영상-1 (0) | 2021.07.15 |