[Attention 이란 무엇인가!] NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE 논문 간단 요약
Deep Learning/NLP 2020. 10. 26. 01:25현재 Deep Learning에서 자연어 처리에서 시작하여 다양한 분야에서 다양하게 응용되는 Transformer Architecture를 이해하기 위해서 우선 Attention에 대한 이해가 필요합니다.
Attention 기법을 한줄로 설명하자면,
전체를 살펴보고, 중요한 것에만 집중해서 결과를 만들자! |
위 한줄로 끝입니다.
"NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE" 논문에서 저자는 RNN Encodder-Decoder 구조를 보완하기 위해 Attention 기법을 적용시킵니다.
(논문에서 저자는 이를 RNN_search 모델이라고 명명합니다.)
※원문 : https://arxiv.org/pdf/1409.0473.pdf
기존 Encoder-Decoder 모델에서는 하나의 고정된 크기의 벡터로 문장을 변환하면서 정보의 손실이 생기게 되고, 이로 인해 긴 문장에서 품질이 좋지 않았습니다.
이를 보완하기 위해 Encoder-Decoder 구조를 기반으로 전체 문장을 참고하면서 중요한 단어에 집중 할 수 있도록 만들어 주는 Attention 기법이 등장하게된 것입니다.
여기서 h가 나타내는 것은 Encoder의 hidden state이고, s는 Decoder의 hidden state 입니다.
이 그림의 의미는 Encoder의 모든 hidden state를 참고해서 Decoder의 출력이 결정된다는 것입니다.
이 때 Decoder는 a를 통해서 점수가 매겨진 Encoder 정보를 받게 됩니다.
이러한 Attention 기법을 통해 긴 문장에 대해서도 높은 품질을 유지할 수 있게 되었습니다.
아래에 논문을 이해하는데 많은 도움이 된 링크를 하나 첨부해 드립니다.
아래 글에 정말 자세하고 친절하게 설명이 되었으니, 이 글을 읽는 분들께 더 많은 도움이 되었으면 좋겠습니다.
감사합니다.
'Deep Learning > NLP' 카테고리의 다른 글
[The Transformer] Attention Is All You Need 논문 간단 요약 (0) | 2020.10.26 |
---|