반응형 MOE1 [딥러닝 with Python] MoE란?(Mixture of Experts란?) 1. Mixture of Experts(MoE)란? - Mixture of Experts(MoE)란, 대규모 모델을 효율적으로 확장하는 기법 중 하나로, 기존 Dense 모델 대비 더 적은 연산량으로도 뛰어난 성능을 달성할 수 있는 기법을 말합니다. 1) 모델 크기와 성능의 관계 - Transformer의 등장을 통해서 Scalability에 대한 가능성이 입증되어 점차 모델들은 더 커지고 더 많은 데이터를 학습하게되었습니다. 즉, 더 큰 모델이 더 나은 성능을 보인다는게 정설이 되었습니다. - 하지만, 고정된 컴퓨팅 예산 내에서 모델을 키운다는 것은 쉬운일이 아닙니다. - 특히, Dense 모델을 훈련할 때 모델이 클수록 * 더 많은 연산량 (FLOPs)가 필요하게되고 * 훈련 시간 및 비용이 기하급수.. 2025. 2. 24. 이전 1 다음 반응형