Transformer - attention is all you need

Transformer - attention is all you need - 동영상 3

2021. 7. 17. 11:11

728x90

Rnn은 사용하지 않는다.

학습이 빠르고 성능이 좋다.

왜 빨랐을 가 ?

RNN을 사용하지 않았다.

병렬화 : 일을 최대한 한방에 처리한다.

Rnn은 순서로 해서 하나하나 입력해서 한다.

중간에 context vector이 있다.

context vector : 고정된 크기

긴 문장은 잘 안된다.

RNN based encoder decoder with attention:

동적으로 사용한다.

하지만 느리다.

Transformer :

rnn 을 제거하였다.

한번에 학습한다.

RNN은 단어의 위치와 순서 저보를 잘 할 수 있기 떄문이다.

Positional encoding

sign, cosin 을 이용하면장점이 있다.

-1 ~ 1까지의 값이고

에러가 없이 상대적인 encoding이 가능하다.

self attention

encoding에서 주어진 연산

query ,key , value는 행렬곱으로 한방에 할 수 있다.

상관관계를 곱할때 query * key 곱해서 attention score이라고 한다.

숫자로 나오고 단어 연관성이 높다 낮으면 연관성이 낮다.

순차적으로 해서 병렬 처리에 가장 큰 장점입니다.

multi- head attention

병렬로 동시에 수행하여

encoder는 가중치를 공유하지 않고

decoder 동이란 layer

순차적으로 출력한다.

masked multi-head attention : 지금 까지 출력한 값들에만 대해서 masked 붙여진 것이다.

multi- head attention : 가장 큰 차이점은 현재 query 로 사용하고 최종 출력값을 key value로 한다.

label smoothing : 1에 가깝지만 1이 아니고 0에 가깝지만 0이 아닌

https://www.youtube.com/watch?v=mxGCEWOxfe8

'논문 > NLP' 카테고리의 다른 글

[NLP] Transformer : Attention Is All You Need (0)	2021.10.02
Transformer : Attention is all you need - 동영상-2 (0)	2021.07.16
Transformer : Attention is all you need - 동영상-1 (0)	2021.07.15

NAIAHD AI(인공지능) , JAVA, SPRING 등 설명

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

NAIAHD

Transformer - attention is all you need - 동영상 3

'논문 > NLP' 카테고리의 다른 글

+ Recent posts

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역