반응형 전체 글203 [논문리뷰] DeepLabV3+ / 이미지 분할(Image Segmentation) 이번에 알아볼 모델은 DeepLabV3+입니다. DeepLabV3+는 "Encoder-Decoder with Atrous Seperable Convolution for Semantic Image Segmentation(2018)"이라는 논문에서 나온 모델입니다. 1. DeepLab 모델 - DeepLab은 V1부터 V2, V3, V3+ 까지 발전된 모델인데요. 버전을 거듭하면서 아래와 같은 내용들이 주요 특징이 되겠습니다.. a) DeepLabV1 : Atrous Convolution(Dilated Convolution)을 적용 [개념정리] Dilated Convolution과 Separable Convolution [개념정리] Dilated Convolution과 Separable Convolution.. 2024. 2. 10. [개념정리] 인공지능에서 임베딩이란 / Embedding 이번에 알아볼 내용은 embedding에 대해서 입니다. 인공지능에서 임베딩, embedding에 대해 많이 다루고 있는데 이에 대해 정확한 개념을 잡지 못해 이번 기회에 정리해보려고 합니다. 1. Embedding이란? 임베딩이란? - 임베딩이란, 고차원 데이터를 저차원의 공간으로 표현하는 것을 말합니다. 이 과정은 데이터의 중요한 특성이나 구조를 유지하면서, 데이터를 더 쉽게 처리하고 분석하며, 시각화할 수 있도록 도와주는데요 * 여기서 차원 축소를 위해 사용되는 PCA(Principal Component Analysis)도 일종의 임베딩으로 볼 수도 있습니다. 하지만, 그 목적에는 조금 차이가 있습니다.(임베딩은 데이터의 특성을 캡처하기 위해 사용되고, PCA는 데이터의 주성분을 찾아내 차원을 축소.. 2024. 2. 9. [개념정리]Fully Connected CRFs란? 이번에 다룰 내용은 Fully Connected CRF입니다. 여기서 CRF란, Conditional Random Field의 약자로, 이미지 Segmentation task에도 사용되는 확률적인 모델을 의미합니다. 1. Computer Vision에서 CRF란? - Computer Vision task에서 CRF는, 이미지의 각 픽셀이 특정 클래스에 속할 확률을 계산하여 최종 Segmentaion 결과를 도출하는 것을 말합니다. - CRF는 은 아래와 같은 특징을 가지고 있습니다. a) 그래프 기반의 모델(GNN)로써, Node와 Edge로 구성됩니다. Node는 관측된 변수(예: 이미지 픽셀 등)을 나타내며, 엣지는 노드 간의 상호작용을 나타냅니다. b) 확률적 모델로써, 랜덤 변수들 간의 조건부 확.. 2024. 2. 7. [개념정리] ASPP란? Atrous Spatial Pyramid Pooling 이란? 이번에 알아볼 것은 Atrous Spatial Pyramid Pooling 입니다. 해당 개념을 이해하기 위해선 Atrous Convolution(Dilated Convolution)에 대한 개념이 선행되어야 하며 이를 위해선 아래 포스팅을 참조하시면 좋습니다. [개념정리] Dilated Convolution과 Separable Convolution 1. Atrous Spatial Pyramid Pooling이란? - Atrous Spatial Pyramid Pooling은 이미지의 다양한 크기와 해상도의 정보를 효과적으로 수집하고 활용하는데 도움을 주는 기법으로, 이름에서도 알 수 있듯 다양한 dilation rate을 가진 dilated kernel을 활용해 이를 pyramid의 형식처럼 stacki.. 2024. 2. 6. [개념정리] Dilated Convolution과 Separable Convolution 1. Dilated Convolution - Atrous convolution이라고도 불리는 Dilated convolution은 우리말로 확장 합성곱이라고 불립니다. - 이는 Convolution 커널 내부의 간격을 늘리는 방법으로, 간격을 dilation rate라고 부르며 이를 조절하여 적용합니다. - 위 그림의 예시를 통해 이해해보면 * 아래 파란색 이미지가 입력이미지이고, 이때 일반적인 convolution과는 다르게 중간이 비어있는(또는 건너 띄어진) 부분이 있는 것을 볼 수 있습니다. 즉, 입력 이미지의 중간 중간 부분을 건너 띄어서 인식하는 방법을 의미합니다. - Dilation convolution을 활용하면, 더 넓은 수용영역(Receptive field)를 가지게 되며 더 많은 Glo.. 2024. 2. 5. [개념 정리] CNN에서 수용영역이란? Receptive field란? 이번에 알아볼 내용은 Receptive field입니다. 우리 말로는 수용영역이라고 하는데요 1. Receptive Field란?(수용영역이란) - Receptive field, 수용 영역은컨볼루션 신경망(CNN)에서 출력 레이어의 뉴런 하나에 영향을 미치는 입력 뉴런들의 공간크기를 의미합니다. 즉, 각 뉴런이 '보고' 처리하는 입력 이미지의 영역이라고 볼 수 있습니다. - CNN에서 한 뉴런의 Receptive field는 커널(필터)의 크기와 stride에 의해서 결정이 됩니다. 커널의 크기가 크거나 또는 Stride가 크게 되면 해당 커널이 처리할 수 있는 이미지의 부분이 커지므로, 이는 곧 Receptive field가 커지는 것을 의미합니다. Receptive field의 크기에 따른 의미는 다.. 2024. 2. 4. Mean Teacher란? 이번에는 Mean Teacher에 대해서 알아보도록 하겠습니다. 이는 지식증류(Knowledge Distillation)를 기반으로 한 semi supervised learning의 방법 중 하나입니다. 즉, 지식증류 방법을 semi supervsied learning에 사용할때 사용한 방법 중 하나로 생각하면 되는데요. 1. Mean Teacher란? - "Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results"(A Tarvainen ,2017) 라는 논문에서 제시한 방법으로, semi supervised learning 의 성능을 향상시키기 위.. 2024. 1. 28. Normalization / Batch Normalization / Layer Normalization 이번에 알아볼 내용은 Normalization / Batch Normalization / Layer Normalization이다. 1. Normalization - Normalization 이란, 우리말로 정규화 이다. - 이는 데이터의 범위를 특정 범위 또는 규칙에 따라 조정하는 과정을 말하는 것이다. - 대표적으로는 데이터의 최소값을, 최대값을 1로 변환하여 데이터의 분포를 조정하는 방법이 있다. - Normalization을 하는 이유는 1) 데이터의 스케일을 조정하여 분석 또는 처리가 용이하게 만들고 2) 다양한 단위나 범위를 가진 데이터를 일관된 형태로 변환하며 3) 학습 알고리즘이 더 빠르고 효과적으로 수렴하도록 도와주고 4) 데이터 내 특징(feature) 간의 상대적 중요도를 균등화하기 위.. 2024. 1. 27. 이전 1 ··· 16 17 18 19 20 21 22 ··· 26 다음 반응형