반응형 분류 전체보기239 [딥러닝 with Python] MoE란?(Mixture of Experts란?) 1. Mixture of Experts(MoE)란? - Mixture of Experts(MoE)란, 대규모 모델을 효율적으로 확장하는 기법 중 하나로, 기존 Dense 모델 대비 더 적은 연산량으로도 뛰어난 성능을 달성할 수 있는 기법을 말합니다. 1) 모델 크기와 성능의 관계 - Transformer의 등장을 통해서 Scalability에 대한 가능성이 입증되어 점차 모델들은 더 커지고 더 많은 데이터를 학습하게되었습니다. 즉, 더 큰 모델이 더 나은 성능을 보인다는게 정설이 되었습니다. - 하지만, 고정된 컴퓨팅 예산 내에서 모델을 키운다는 것은 쉬운일이 아닙니다. - 특히, Dense 모델을 훈련할 때 모델이 클수록 * 더 많은 연산량 (FLOPs)가 필요하게되고 * 훈련 시간 및 비용이 기하급수.. 2025. 2. 24. [딥러닝 with Python] NAS(Neural Architecture Search) 알아보기 - 강화학습을 기반으로 1. NAS(Neural Architecture Search)- 신경망 설계는 딥러닝 모델의 성능을 결정하는 핵심 요소 중 하나입니다. 그러나 최적의 네트워크 구조를 찾는 것은 보통 연구자들의 경험과 실험에 의존하는 수작업 과정이 필요합니다. 이를 해결하기 위해 Neural Architecture Search라는 개념이 등장하게 되었습니다. - Neural Architecture Search(NAS)는 이러한 문제를 해결하기 위해, 최적의 신경망 구조를 자동으로 탐색하는 방법입니다. - 이는 주어진 데이터셋과 태스크에 대해 최적의 성능을 보이는 신경망 구조를 자동으로 설계하는 것입니다. 이를 통해 연구자들은 더 효과적인 모델을 빠르게 찾을 수 있으며, 모델 개발 시간을 단축할 수 있습니다. - 특히, 기.. 2025. 2. 23. [딥러닝 with Python] Decoder only 모델과 Encoder-Decoder 모델 비교 (in LLM) - 최근 개발된 LLM은 GPT와 같이 Transformer 구조의 Decoder만을 활용한 "Decoder only Transformer" (ex. GPT-4, LLaMA 등) 또는 Encoder와 Decoder를 모두 사용하는 Encoder-Decoder Transformer(ex. BART, T5) 아키텍처를 기반으로 구축이 되고 있습니다. - 이때, 특히 Decoder only 모델인 GPT 계열의 모델이 더 좋은 성능을 발휘하고 있습니다. - 이번 포스팅에서는 이 두 모델 아키텍처를 비교해보고, Decoder only 기반으로 LLM이 발전되어가는 이유를 분석해보고자 합니다. 1. Transformer 기반 LLM의 두 가지 주요 구조(1) Encoder-Decoder Transformer(e.. 2025. 2. 23. [딥러닝 with Python] DPO(Direct Preference Optimization)와 RLHF(Reinforcement Learning with Human Feedback) 이번에는 DPO(Direct Preference Optimization)와 RLHF(Reinforcement Learning with Human Feedback)에 대해서 알아보고자 합니다. 둘 다 LLM의 성능 향상을 위해 사용자의 선호도(Preference)에 맞게 최적화하는 기법을 의미하지만 차이가 존재하는데요 각각 어떤 것들이며, 차이점이 무엇인지에 대해서 알아보도록 하겠습니다. 1. RLHF(Reinforcement Learning with Human Feedback)와 DPO(Direct Preference Optimization)(1) RLHF - RLHF는 강화학습을 활용해서 사람이 선호하는 응답을 생성하도록 AI 모델을 훈련하는 방법을 말합니다.- 이 방식은 ChatGPT, Claud.. 2025. 2. 22. 이전 1 ··· 14 15 16 17 18 19 20 ··· 60 다음 반응형