반응형 Recursion1 [딥러닝 with Python] Mixture-of-Recursion(MoR)이란? [해당 포스팅은 " Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation " 논문을 참조했습니다] 대형 언어모델(LLM)은 모델 크기(파라미터 수)와 계산량(FLOPs)이 증가할수록 놀라운 성능을 보여줍니다. 하지만 다음과 같은 문제가 따라오게 됩니다.비효율적 연산 – 모든 토큰이 동일한 깊이로 처리됨메모리 병목 – 긴 시퀀스 처리 시 KV 캐시가 급격히 커짐속도 저하 – 불필요한 연산으로 인해 추론 지연예를 들어 "The theory of quantum entanglement is complex" 라는 문장을 처리한다고 했을 때, "The" 라는 단어는 예측 난이도가 낮아서 shallow.. 2025. 9. 3. 이전 1 다음 반응형