본문 바로가기
반응형

전체 글321

[딥러닝 with Python] [그래프 신경망] 지식그래프를 위한 파운데이션 모델(Foundation Models for Knowledge Graph) [해당 포스팅은 "CS224W: Machine Learning with Graphs" (http://cs224w.stanford.edu) 강의 자료를 참조했습니다.] 지난 시간에는 관계형 딥러닝을 위한 GNN의 활용에 대해서 알아보았는데요[딥러닝 with Python] [그래프 신경망] 관계형 데이터를 위한 딥러닝(Relational Deep Learning / RDL) 이번에 다룰 주제는, 최근 AI 분야의 가장 큰 화두인 파운데이션 모델(Foundation Models)입니다. GPT, DALL-E와 같은 거대 모델들은 방대한 데이터로 사전학습(pre-training)된 후, 별도의 추가 학습 없이도 번역, 요약, 이미지 생성 등 다양한 다운스트림 태스크를 놀라운 수준으로 수행합니다. 이러한 파운데.. 2025. 9. 4.
[딥러닝 with Python] Mixture-of-Recursion(MoR)이란? [해당 포스팅은 " Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation " 논문을 참조했습니다] 대형 언어모델(LLM)은 모델 크기(파라미터 수)와 계산량(FLOPs)이 증가할수록 놀라운 성능을 보여줍니다. 하지만 다음과 같은 문제가 따라오게 됩니다.비효율적 연산 – 모든 토큰이 동일한 깊이로 처리됨메모리 병목 – 긴 시퀀스 처리 시 KV 캐시가 급격히 커짐속도 저하 – 불필요한 연산으로 인해 추론 지연예를 들어 "The theory of quantum entanglement is complex" 라는 문장을 처리한다고 했을 때, "The" 라는 단어는 예측 난이도가 낮아서 shallow.. 2025. 9. 3.
[딥러닝 with Python] [그래프 신경망] 관계형 데이터를 위한 딥러닝(Relational Deep Learning / RDL) [해당 포스팅은 "CS224W: Machine Learning with Graphs" (http://cs224w.stanford.edu) 강의 자료를 참조했습니다.] 지난 시간에는 GNN을 활용한 추천시스템에 대해서 알아보았는데요[딥러닝 with Python] [그래프 신경망] 추천 시스템 (1/2) : GNN 추천의 기본 원리와 BPR Loss[딥러닝 with Python] [그래프 신경망] 추천 시스템 (2/2) : NGCF, LightGCN, PinSAGE 모델 이미지, 텍스트, 음성 등 비정형 데이터 분야에서 딥러닝은 혁명적인 발전을 이끌었습니다. 하지만 우리가 마주하는 대부분의 기업 데이터는 여러 개의 테이블이 복잡하게 연결된 관계형 데이터베이스(Relational Database) 형태로 .. 2025. 9. 3.
[딥러닝 with Python] [그래프 신경망] 추천 시스템 (2/2) : NGCF, LightGCN, PinSAGE 모델 [해당 포스팅은 "CS224W: Machine Learning with Graphs" (http://cs224w.stanford.edu) 강의 자료를 참조했습니다.] 1부에서는 추천 시스템을 그래프 문제로 정의하고, 개인화된 랭킹을 학습하기 위한 BPR Loss에 대해 알아보았습니다.[딥러닝 with Python] [그래프 신경망] 추천 시스템 (1/2) : GNN 추천의 기본 원리와 BPR Loss BPR Loss를 사용하려면 결국 사용자 u와 아이템 v의 상호작용 점수 f(u,v)를 계산해야 하는데, 이 점수는 각 노드의 임베딩(Embedding) 벡터로부터 나옵니다. 그렇다면 사용자/아이템 임베딩은 어떻게 만들까요?2부에서는 GNN이 어떻게 강력한 임베딩 생성기(Encoder) 역할을 하는지, 대.. 2025. 9. 2.
[딥러닝 with Python] [그래프 신경망] 추천 시스템 (1/2) : GNN 추천의 기본 원리와 BPR Loss [해당 포스팅은 "CS224W: Machine Learning with Graphs" (http://cs224w.stanford.edu) 강의 자료를 참조했습니다.] 넷플릭스의 수많은 영화, 유튜브의 끝없는 동영상, 아마존의 방대한 상품 목록 속에서 우리는 어떻게 내 취향에 맞는 콘텐츠를 발견할 수 있을까요? 바로 추천 시스템(Recommender Systems) 덕분입니다. 이전에는 사용자의 과거 기록을 기반으로 하는 협업 필터링(Collaborative Filtering)이 주를 이뤘지만, 최근에는 그래프 신경망(GNN)이 이 분야에 혁신을 가져오고 있습니다. GNN은 '사용자'와 '아이템' 그리고 그들의 '상호작용'을 하나의 거대한 그래프로 보고, 그 관계성 자체를 학습하여 정교한 추천을 가능.. 2025. 9. 1.
[개념 정리] Gradient Vanishing & Exploding 문제와 해결 1. Gradient Vanishing과 Exploding 이란- 딥러닝 모델은 역전파(Backpropagation)를 통해 가중치를 업데이트합니다. - 역전파 과정에서는 체인룰(Chain Rule)을 사용하여 손실 함수의 기울기를 각 층의 파라미터에 전달하는데, 이때 네트워크가 깊어질수록 기울기 값이 점점 작아지거나(Gradient Vanishing) 매우 커지는(Gradient Exploding) 문제가 발생할 수 있습니다. - 이 문제는 주로 깊은 신경망(Deep Neural Networks), 순환신경망(RNN)에서 심각하게 나타납니다. - 그 결과, 기울기 소실은 학습 속도를 극도로 늦추거나 멈추게 하고, 기울기 폭주는 가중치 값이 불안정하게 발산하여 학습이 실패하게 만듭니다. 2. 수식적 분.. 2025. 8. 31.
[개념 정리] LDA 토픽 모델링 지난 디리클레 분포에 관한 포스팅에을 통해 불확실한 확률 분포를 모델링하는 방법에 대해서 알아보았습니다.[개념 정리] 디리클레 분포(Dirichlet Distribution): 불확실한 확률분포를 모델링하는 방법 [개념 정리] 디리클레 분포(Dirichlet Distribution): 불확실한 확률분포를 모델링하는 방법머신러닝, 특히 베이지안 통계와 토픽 모델링(LDA)을 깊이 있게 공부하다 보면 반드시 마주치는 이름이 있습니다. 바로 디리클레 분포(Dirichlet Distribution)입니다. 단순히 “분포들의 분포”라는 한jaylala.tistory.com 이제 이를 활용해, 텍스트 데이터 속에 숨겨진 '주제(Topic)'를 찾아내는 잠재 디리클레 할당(Latent Dirichlet Alloca.. 2025. 8. 30.
[개념 정리] 디리클레 분포(Dirichlet Distribution): 불확실한 확률분포를 모델링하는 방법 머신러닝, 특히 베이지안 통계와 토픽 모델링(LDA)을 깊이 있게 공부하다 보면 반드시 마주치는 이름이 있습니다. 바로 디리클레 분포(Dirichlet Distribution)입니다. 단순히 “분포들의 분포”라는 한 줄 설명만으로는 그 의미를 이해하기 어려운데요 이 글에서는 디리클레 분포의 직관적인 개념부터 수학적 형태, 그리고 가장 중요한 쓰임새인 켤레 사전 분포(Conjugate Prior)의 역할까지, 쉬운 예시와 함께 전문적으로 파헤쳐 보겠습니다. 1. 동전 던지기와 베타 분포(Beta Distirbution) 디리클레 분포를 이해하는 가장 좋은 방법은 그 특수 케이스인 베타 분포(Beta Distribution)에서 시작하는 것입니다. 베타 분포는 결과가 2가지인 사건(예: 동전의 앞/뒤,.. 2025. 8. 30.
반응형