본문 바로가기
딥러닝 with Python

[딥러닝 with Python] 시계열 이상 탐지(Time Series Anomaly Detection / TSAD)

by CodeCrafter 2025. 6. 9.
반응형

 

1. 시계열 이상 탐지(Time Series Anomaly Detection / TSAD) 란?

시계열 이상 탐지는 시간에 따라 수집된 연속적인 데이터 내에서 정상 패턴에서 벗어난 이상(anomaly)를 탐지하는 문제입니다.

 

이때 이상(anomaly)는 주로 다음과 같은 이유로 탐지가 됩니다.

 - 장비 고장 예측

 - 금융 시가 탐지

 - 네트워크 침입 탐지

 - 의료 이상 징후 감지

 

이를 수식으로 표현해보면 다음과 같습니다.

 

주어진 시계여 데이터 X 는

 

이때, 각 시점 t에서 이상 점수(anomaly score) 인 s_t를 추정하고, 임계값이 theta를 넘어가면 이상으로 판단하게 됩니다.

 

 

 

2. 대표적인 TSAD 방법론

1) One-Class 기반

- 정상 데이터 만으로 학습하여 정상 분포를 벗어난 데이터를 이상으로 판단하는 방법입니다.

 

- 대표 방법론

 * One-Class SVM

 * Deep SVDD

 * DSVDD for Time Series

 

- 장점: 라벨이 부족한 환경에서도 활용 가능합니다.

- 단점: 데이터 분포가 복잡할 경우 성능이 저하될 수 있습니다.

 

2) Forecasting 기반

- 미래 시점을 예측하고, 예측값과 실제값의 차이로 이상을 판단합니다.

- 대표 방법론

 * LSTM, GRU

 * Transformer

 

- 장점: 시계열 패턴 학습에 유리합니다.

- 단점: 예측 성능이 이상 탐지에 직접적이지 않을 수 있습니다.

 

3) Reconstruction 기반

- 입력 시계열을 복원하고 복원 오차로 이상을 판단하는 방법입니다.

- 대표 방법론

 * AutoEncoder, LSTM-AE

 * Denoising AutoEncoder

 * VAE, DPC-AE

 

- 장점: 다양한 비지도 방식과 학습이 가능합니다.

- 단점: 재구성이 잘 되는 이상 케이스에 취약할 수 있습니다.

 

4) Generative 기반

- 정상 시계열의 분포를 학습한 생성 모델을 통해 이상을 탐지합니다.

 

- 대표 모델

 *GAN (TimeGAN, TadGAN)

 *VAE, FactorVAE

 *Diffusion 기반 시계열 생성

 

- 장점: 다양한 이상 유형을 포괄할 수 있습니다.

- 단점: 학습 안정성과 해석력의 문제가 생길 수 있습니다.

 

 

3. 벤치마크 데이터 셋

 

대표적인 벤치마크 데이터셋은 다음과 같습니다.

 

데이터 셋 설명 특징
UCR Anomaly Archive 다수의 단변량 이상 탐지용 시계열 포함 이상 구간 정보가 레이블로 제공
SMD(Server Machine Dataset) 서버의 센서 데이터 기반 이상 28개 Multivariate 시계열
SMAP / MSL(NASA) 위성 센서 기반 노이즈 있는 real-world data
SWaT / WADI 산업 제어 시스템의 보안 이상 탐지 OT(운영 기술) 시스템용
Yahoo Webscope 웹 서비스 성능 이상 탐지 Point Anomaly가 많

 

 

4. 평가 지표(Evaluation Metrics)

이상 탐지는 불균형 데이터로 인해 Precision-Recall 중심 지표를 많이 사용합니다.

 

- 주요 지표

 * Precision: 이상으로 예측한 것 중 진짜 이상인 비율

 * Recall: 실제 이상 중 올바르게 탐지한 비율

 * F1-Score : Precision 과 Recall의 조화평균 

 * AUC-ROC / AUC-PR: 임계값 변화에 따른 모델 성능 전체 평가

 * Point-adjusted F1: 이상 구간 전체를 한 단위로 보는 평가 방

반응형

댓글