1. 시계열 이상 탐지(Time Series Anomaly Detection / TSAD) 란?
시계열 이상 탐지는 시간에 따라 수집된 연속적인 데이터 내에서 정상 패턴에서 벗어난 이상(anomaly)를 탐지하는 문제입니다.
이때 이상(anomaly)는 주로 다음과 같은 이유로 탐지가 됩니다.
- 장비 고장 예측
- 금융 시가 탐지
- 네트워크 침입 탐지
- 의료 이상 징후 감지
이를 수식으로 표현해보면 다음과 같습니다.
주어진 시계여 데이터 X 는
이때, 각 시점 t에서 이상 점수(anomaly score) 인 s_t를 추정하고, 임계값이 theta를 넘어가면 이상으로 판단하게 됩니다.
2. 대표적인 TSAD 방법론
1) One-Class 기반
- 정상 데이터 만으로 학습하여 정상 분포를 벗어난 데이터를 이상으로 판단하는 방법입니다.
- 대표 방법론
* One-Class SVM
* Deep SVDD
* DSVDD for Time Series
- 장점: 라벨이 부족한 환경에서도 활용 가능합니다.
- 단점: 데이터 분포가 복잡할 경우 성능이 저하될 수 있습니다.
2) Forecasting 기반
- 미래 시점을 예측하고, 예측값과 실제값의 차이로 이상을 판단합니다.
- 대표 방법론
* LSTM, GRU
* Transformer
- 장점: 시계열 패턴 학습에 유리합니다.
- 단점: 예측 성능이 이상 탐지에 직접적이지 않을 수 있습니다.
3) Reconstruction 기반
- 입력 시계열을 복원하고 복원 오차로 이상을 판단하는 방법입니다.
- 대표 방법론
* AutoEncoder, LSTM-AE
* Denoising AutoEncoder
* VAE, DPC-AE
- 장점: 다양한 비지도 방식과 학습이 가능합니다.
- 단점: 재구성이 잘 되는 이상 케이스에 취약할 수 있습니다.
4) Generative 기반
- 정상 시계열의 분포를 학습한 생성 모델을 통해 이상을 탐지합니다.
- 대표 모델
*GAN (TimeGAN, TadGAN)
*VAE, FactorVAE
*Diffusion 기반 시계열 생성
- 장점: 다양한 이상 유형을 포괄할 수 있습니다.
- 단점: 학습 안정성과 해석력의 문제가 생길 수 있습니다.
3. 벤치마크 데이터 셋
대표적인 벤치마크 데이터셋은 다음과 같습니다.
데이터 셋 | 설명 | 특징 |
UCR Anomaly Archive | 다수의 단변량 이상 탐지용 시계열 포함 | 이상 구간 정보가 레이블로 제공 |
SMD(Server Machine Dataset) | 서버의 센서 데이터 기반 이상 | 28개 Multivariate 시계열 |
SMAP / MSL(NASA) | 위성 센서 기반 | 노이즈 있는 real-world data |
SWaT / WADI | 산업 제어 시스템의 보안 이상 탐지 | OT(운영 기술) 시스템용 |
Yahoo Webscope | 웹 서비스 성능 이상 탐지 | Point Anomaly가 많 |
4. 평가 지표(Evaluation Metrics)
이상 탐지는 불균형 데이터로 인해 Precision-Recall 중심 지표를 많이 사용합니다.
- 주요 지표
* Precision: 이상으로 예측한 것 중 진짜 이상인 비율
* Recall: 실제 이상 중 올바르게 탐지한 비율
* F1-Score : Precision 과 Recall의 조화평균
* AUC-ROC / AUC-PR: 임계값 변화에 따른 모델 성능 전체 평가
* Point-adjusted F1: 이상 구간 전체를 한 단위로 보는 평가 방
댓글