본문 바로가기
반응형

silu2

[딥러닝 with Python] GELU란?(Gaussian Error Linear Unit) 이번에 알아볼 것은 활성화 함수로 활용되는 GELU에 대해서 알아보겠습니다. 1. GELU란?- GELU는 Gaussian Error Linear Unit의 줄임말로, 딥러닝에서 활용되는 비선형 활성화 함수 중의 하나입니다. - 기존 활성화함수인 ReLU나 Sigmoid에 비해 더 부드럽게 동작한다고 얘기할 수있는데요. 이는, 큰 값일수록 활성화 될 확률이 높고, 작은 값일수록 활성화될 확률이 낮아지는 형태를 취하기 때문입니다. - GELU를 활용해서 좋은 성능을 보인 대표적 모델은 BERT가 되겠습니다.  - GELU의 공식은 아래와 같습니다.  - 이를 조금 더 간단히 근사해보면 아래와 같습니다. - 그렇다면, 이 함수가 어떤 형태를 띄는지 2차원에서 시각화해보도록 하겠습니다.* 파이썬을 활용해서 함.. 2024. 10. 27.
[개념정리] SiLU(Sigmoid Linear Unit) 활성화 함수 이번에 알아볼 내용은 활성화 함수 중 최근 모델들에 많이 사용되는  SiLU에 대해서 알아보겠습니다. 1. SiLU (Sigmoid Linear Unit) SiLU(Sigmoid Linear Unit, 또는 Swish로도 알려졌습니다)는 인공 신경망의 활성화 함수 중 하나로 아래와 같이 정의 됩니다.   여기서 σ(x) 는 Sigmoid 함수를 의미합니다.​ 즉, SiLU는 입력값인 x와 sigmoid 함수의 출력을 곱한 것을 최종 출력으로 도출하는 함수입니다. 이를 직관적으로 생각해보면, 부분적인 스케일링(Scaling)을 하는 것으로 보이는데요. 즉, 위 그림에서 보이듯 sigmoid 함수는 0과 1사이의 값을 도출하기 때문에,입력값 x가 양수일때 x의 크기를 유지하면서 점진적으로 축소시키고, x가 .. 2024. 10. 12.
반응형