현재 Deep Learning에서 자연어 처리에서 시작하여 다양한 분야에서 다양하게 응용되는 Transformer Architecture를 이해하기 위해서 우선 Attention에 대한 이해가 필요합니다.

 

Attention 기법을 한줄로 설명하자면,

전체를 살펴보고, 중요한 것에만 집중해서 결과를 만들자!

위 한줄로 끝입니다.

 

 

"NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE" 논문에서 저자는 RNN Encodder-Decoder 구조를 보완하기 위해 Attention 기법을 적용시킵니다.

(논문에서 저자는 이를 RNN_search 모델이라고 명명합니다.)

※원문 : https://arxiv.org/pdf/1409.0473.pdf

 

기존 Encoder-Decoder 모델에서는 하나의 고정된 크기의 벡터로 문장을 변환하면서 정보의 손실이 생기게 되고, 이로 인해 긴 문장에서 품질이 좋지 않았습니다.

 

이를 보완하기 위해 Encoder-Decoder 구조를 기반으로 전체 문장을 참고하면서 중요한 단어에 집중 할 수 있도록 만들어 주는 Attention 기법이 등장하게된 것입니다.

 

출처 : https://arxiv.org/pdf/1409.0473.pdf (논문 원본)

 

여기서 h가 나타내는 것은 Encoder의 hidden state이고, sDecoder의 hidden state 입니다.

이 그림의 의미는 Encoder의 모든 hidden state를 참고해서 Decoder의 출력이 결정된다는 것입니다.

이 때 Decoder는 a를 통해서 점수가 매겨진 Encoder 정보를 받게 됩니다.

 

이러한 Attention 기법을 통해 긴 문장에 대해서도 높은 품질을 유지할 수 있게 되었습니다.

 

아래에 논문을 이해하는데 많은 도움이 된 링크를 하나 첨부해 드립니다.

아래 글에 정말 자세하고 친절하게 설명이 되었으니, 이 글을 읽는 분들께 더 많은 도움이 되었으면 좋겠습니다.

 

감사합니다.

 

glee1228.tistory.com/3glee1228.tistory.com/3

Posted by EnergyCastle
,