본문 바로가기
반응형

llm4

[딥러닝 with Python] MoE란?(Mixture of Experts란?) 1. Mixture of Experts(MoE)란? - Mixture of Experts(MoE)란, 대규모 모델을 효율적으로 확장하는 기법 중 하나로, 기존 Dense 모델 대비 더 적은 연산량으로도 뛰어난 성능을 달성할 수 있는 기법을 말합니다. 1) 모델 크기와 성능의 관계 - Transformer의 등장을 통해서 Scalability에 대한 가능성이 입증되어 점차 모델들은 더 커지고 더 많은 데이터를 학습하게되었습니다. 즉, 더 큰 모델이 더 나은 성능을 보인다는게 정설이 되었습니다. - 하지만, 고정된 컴퓨팅 예산 내에서 모델을 키운다는 것은 쉬운일이 아닙니다. - 특히, Dense 모델을 훈련할 때 모델이 클수록 * 더 많은 연산량 (FLOPs)가 필요하게되고 * 훈련 시간 및 비용이 기하급수.. 2025. 2. 24.
[딥러닝 with Python] Decoder only 모델과 Encoder-Decoder 모델 비교 (in LLM) - 최근 개발된 LLM은 GPT와 같이 Transformer 구조의 Decoder만을 활용한 "Decoder only Transformer" (ex. GPT-4, LLaMA 등) 또는 Encoder와 Decoder를 모두 사용하는 Encoder-Decoder Transformer(ex. BART, T5) 아키텍처를 기반으로 구축이 되고 있습니다. - 이때, 특히 Decoder only 모델인 GPT 계열의 모델이 더 좋은 성능을 발휘하고 있습니다.  - 이번 포스팅에서는 이 두 모델 아키텍처를 비교해보고, Decoder only 기반으로 LLM이 발전되어가는 이유를 분석해보고자 합니다. 1. Transformer 기반 LLM의 두 가지 주요 구조(1) Encoder-Decoder Transformer(e.. 2025. 2. 23.
[딥러닝 with Python] In-Context Learning이란? ICL이란? 이번에 알아볼 내용은 In Context Learning / ICL 에 대해서 알아보겠습니다.  이는 LLM 관련 논문 또는 설명들을 볼때 많이 나오는 개념인데요. 너무 어렵지 않고 직관적으로 이해할 수 있게 정리해보겠습니다. 1. In-Context Learning 이란? (ICL 이란?)- In-Context Learning(ICL)은 LLM이 추가 학습 없이 프로프트 내 정보만으로 태스크를 수행하는 방법을 말합니다. * GPT-4, LLaMA, PaLM 같은 최신 모델에서 활용되며, Fine tuning 없이도 다양한 작업을 수행할 수 있다는 장점을 가진 방법입니다. - ICL은 주어진 프롬프트에서 제공된 데이터를 활용하되, 모델이 사전에 훈련된 가중치를 변경하지 않고도 문맥(Context) 내에서.. 2025. 2. 21.
[딥러닝 with Python] 논문 리뷰 : DeepSeek-R1 이번에 알아볼 논문은 25년 1월 22일 따끈따끈하게 나와서 큰 파장을 주고 있는 "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning" 이라는 논문이 되겠습니다.   1. DeepSeek-R1 : 들어가기 전 "DeepSeek-R1"은 강화 학습(Reinforcement Learning, RL)을 통해 대형 언어 모델(LLM)의 추론 능력을 향상시키는 방법론을 제안하고 있습니다. 이 논문은 LLM의 reasoning(추론) 능력을 개선하는 데 있어 RL의 강력한 잠재력을 보여주었습니다. 본격적으로 논문 리뷰를 하기 전에 기존에 LLM을 학습하는 방식인 Self-Supervised Learning 기반 방법과.. 2025. 1. 28.
반응형