Motivation
- Representation Learning과 Clustering의 분리 문제
기존의 대부분의 시계열 클러스터링 기법은 representation learning 과 clustering과정을 분리하여 수행.
- 이로 인해 클러스터링 손실이 데이터 표현 학습을 효과적으로 안내하지 못함.
- 표현 학습 단계에서 얻어진 특징이 클러스터링에 최적화되지 않을 수 있음.
- 주파수 도메인 정보의 미활용
대부분의 기존 기법은 temporal domain 정보만 활용하며, frequency domain 데이터가 가지는 주기적 패턴이나 잡음 제거 특성을 간과.
- 주파수 도메인은 주기적 특징을 더 잘 포착하며, 잡음이나 이상치에 덜 민감함.
- 효율적인 End-to-End 방식의 부재
기존방식은 여러 단계를 거쳐 클러스터링 결과를 생성하므로 최적화가 비효율적이며 복잡성이 증가.
Contribution
- Cross-Domain Contrastive Learning Framework 제안
- 시간 도메인과 주파수 도메인의 정보를 동시에 활용하는 End-to-End 시계열 클러스터링 프레임워크(CDCC)를 설계.
- 데이터 표현 학습과 클러스터링 과정을 통합하여 최적화.
- Instance-Level /Cluster-Level Contrastive Constraints
- Instance-Level Constraints
- 데이터 샘플 간의 유사성을 최대화하여 각 샘플의 표현을 정밀화.
- Cluster-Level Constraints
- 클러스터 내부 데이터의 유사성을 강화하고, 군집 구조를 정렬.
- Cross-Domain Constraints 활용
- 시간 도메인과 주파수 도메인의 표현 간 구조적 유사성을 정렬하여, 두 도메인 간의 정보 융합을 달성.
- 주파수 도메인을 고려한 새로운 증강 기법 개발
- 기존의 시간 도메인 중심의 증강 기법에서 벗어나, 주파수 도메인에서 주파수 성분 추가/제거 같은 증강 기법을 새롭게 도입.
Proposed Method

(1) 데이터 증강(Data Augmentation)
목적: 학습 데이터의 다양성을 증가시키고 과적합 방지.
- 시간 도메인 증강:
- Jittering(값에 무작위 잡음 추가), Scaling(스케일 조정), Permutation(순서 변경) 등을 적용.
- 주파수 도메인 증강:
- Fast Fourier Transform(FFT)로 시간 도메인 데이터를 주파수 도메인 데이터로 변환
- 주파수 성분 추가(Amplify) 및 삭제(Masking)를 통해 데이터 증강 수행
(2) 인코딩 네트워크(Encoding Network)
목적: 시간 및 주파수 도메인의 특징을 효율적으로 추출.
- 시간 도메인 인코더
- BiLSTM을 사용하여 시계열 데이터를 시간 순서와 반대 순서로 학습.
- 주파수 도메인 인코더
- 3계층 컨볼루션 블록(CB3)을 설계하여 주파수 도메인의 특징을 추출.
- 각 블록은 Conv1D, Batch Normalization, ReLU, Max Pooling으로 구성.
(3) 대조적 학습(Contrastive Learning)
목적: 샘플 간 및 클러스터 간 관계를 학습하여 데이터 표현 및 클러스터링 성능 최적화.
- Instance-Level Contrastive Loss:
-
- 원본 샘플과 증강 샘플 간의 표현 유사성을 최대화.
-
- Cluster-Level Contrastive Loss:
- 같은 클러스터 내 샘플 간의 표현 유사성을 강화.
- Cross-Domain Contrastive Loss:
- 시간 도메인과 주파수 도메인의 표현 간 유사성을 정렬.
- 최종 손실 함수
- 시간 도메인, 주파수 도메인, 교차 도메인 손실을 통합
(4) 최종 클러스터링
- 최종 클러스터링 결과는 시간 도메인에서 생성
Experiments

1. 실험 세팅
(1) 데이터셋
- 사용된 데이터
- UCR 저장소의 40개 시계열 데이터셋.
- 데이터는 다양한 크기, 길이, 특성을 포함하여 실험의 일반화 가능성을 높임.
- 데이터 전처리
- 모든 데이터는 z-score 정규화를 통해 평균 0, 표준편차 1로 정규화.
(2) 비교 대상 모델
- TSTCC: 대조적 학습을 활용한 시계열 표현 학습 및 클러스터링 모델.
- TST: Transformer 기반 시계열 표현 학습 모델.
- FeatTS: 반지도 학습 기반으로 통계적 특징을 추출하여 클러스터링 수행.
- STCN: 자기 지도 학습 방식으로 클러스터링과 표현 학습을 최적화.
- R-Clust: 랜덤 컨볼루션과 PCA를 활용한 시계열 클러스터링 파이프라인.
- TCGAN: 적대적 생성 신경망(GAN)을 기반으로 한 시계열 클러스터링.
(3) 평가 지표
- NMI (Normalized Mutual Information)
- 클러스터링 결과와 실제 레이블 간의 상호정보.
- 값이 클수록 성능 우수.
- RI (Rand Index)
- 클러스터링에서 올바르게 분류된 데이터 비율
- 값이 클수록 성능 우수.
- 실험 결과
- CDCC는 18개 데이터셋에서 NMI, 26개 데이터셋에서 RI에서 최고 성능 달성.
- CDCC는 시간 및 주파수 도메인을 통합적으로 활용하여 기존 모델보다 높은 성능을 달성.
- Cross-Domain Constraints를 통해 시간 도메인의 레이블 정보를 기반으로 주파수 도메인의 정보를 효과적으로 정렬.
- 통계적 검증
- Wilcoxon signed-rank 테스트
- CDCC가 다른 모델에 비해 성능이 통계적으로 유의미하게 우수.
- Nemenyi 테스트
- CDCC는 평균 순위(1.8, RI 기준)가 가장 높음.
- 다른 모델(TSTCC, R-Clust 등)과 명확한 성능 차이를 보임.