반응형 seq2seq3 [딥러닝 with Python] Decoder only 모델과 Encoder-Decoder 모델 비교 (in LLM) - 최근 개발된 LLM은 GPT와 같이 Transformer 구조의 Decoder만을 활용한 "Decoder only Transformer" (ex. GPT-4, LLaMA 등) 또는 Encoder와 Decoder를 모두 사용하는 Encoder-Decoder Transformer(ex. BART, T5) 아키텍처를 기반으로 구축이 되고 있습니다. - 이때, 특히 Decoder only 모델인 GPT 계열의 모델이 더 좋은 성능을 발휘하고 있습니다. - 이번 포스팅에서는 이 두 모델 아키텍처를 비교해보고, Decoder only 기반으로 LLM이 발전되어가는 이유를 분석해보고자 합니다. 1. Transformer 기반 LLM의 두 가지 주요 구조(1) Encoder-Decoder Transformer(e.. 2025. 2. 23. [딥러닝 with Python] 어텐션 (Attention Mechanism) 이번에는 지난 시간에 알아본 Seq2Seq 모델의 단점 중 하나인 Encoder를 통해 Bottleneck을 활용해 압축된 정보를 Decoder를 통해 내보내는 것은 long sentences에서는 성능 약화의 요인이 되는 점을 극복하기 위해 활용하고 있는 Attention Mecahnism에 대해서 알아보겠습니다. [딥러닝 with Python] 순환 신경망(Recurrent Neural Network) 1. Attention Mechanism이란?- 앞서 언급했듯 Attention은 Seq2Seq에서 Long sentences에서 발생하는 정보 손실 문제로 인해 나오게 되었습니다.- Attention 이란, 기계어 번역에서 큰 성능 향상을 가져온 방법으로, 이는 모델이 Output을 만들때 Input.. 2024. 11. 4. [딥러닝 with Python] 순환 신경망(Recurrent Neural Network) 이번에는 순환 신경망(Recurrent Neural Network)에 대해서 알아보겠습니다. 1. 순환 신경망이란?(Recurrent Neural Network)- 순환 신경망은 순서가 있는 데이터를 다루는 아키텍처입니다. * 예를 들어 음악, 소리, 행동에 관련된 순서를 바탕으로 정리된 데이터나 비디오와 같이 시각적인 정보가 순서가 있게 구성된 데이터 등을 다룰때 활용됩니다. - 순환 신경망은 시간적 순서 정보인 Temporal Information 뿐만 아니라, 텍스트, 악보와 같이 공간적인 순서 정보인 Spatial Information도 다루는 신경망 구조 입니다. - 이 구조를 간단히 시각화 및 수식으로 표현해보면 아래와 같습니다. 즉, 기존 상태와 인풋으로 입력된 순서상 다음 상태인 현재 상태.. 2024. 11. 3. 이전 1 다음 반응형