반응형 멀티헤드어텐션2 [딥러닝 with Python] 트랜스포머 (Transformer) 이번에는 트랜스포머(Transformer) 모델에 대해서 알아보겠습니다. 너무나 유명한 논문이죠 "Attnetion is All You Need"를 바탕으로 포스팅을 구성해보았습니다. 1. Transformer- 2017년 NeurIPS에 발표된 논문 "Attention is All You Nedd"에서 제안한 아키텍처의 이름인 Transformer입니다. - 해당 모델은 어텐션(정확히는 Multi Head Self Attention)을 활용해서 모델의 성능 및 학습/추론 속도를 향상 시킨 아키텍처입니다. 해당 논문은 자연어 처리(NLP)에서 나오게 되었지만, 이를 바탕으로 다양한 Sequential data의 처리 및 이미지 데이터에서도 트랜스포머를 기반으로한 모델들이 나오게 되었으며, 그 유명한 GP.. 2024. 11. 5. [개념정리] 멀티헤드 셀프 어텐션(Multi-Head Self-Attention) 이번에 알아볼 개념은 멀티 헤드 셀프 어텐션(Multi-Head Self Attnetion) 입니다. [개념정리] Self attention / 셀프 어텐션 지난번에 알아봤던, 셀프 어텐션이 조금은 차이나는 방식으로 여러번 적용되었다고 보시면 되겠습니다. 1. 멀티헤드 셀프 어텐션(Multi-Head Self Attention) - 입력 시퀀스의 각 요소가 시퀀스 내 다른 요소들과 어떻게 관련되어 있는지를 알아보는 Self Attention을, 동시에 다양한 방식으로 모델링하는 방법을 말합니다. - 즉, 여러개의 헤드(Head)로 분할하여 병렬로 Self Attention을 수행하는데요 - 이렇게 병렬로 mult-hea를 사용하는 이유는, 여러 부분에 동시에 어텐션을 가할 수 있어 모델이 입력 토큰 간의.. 2024. 2. 14. 이전 1 다음 반응형