전체 글 78

[Time-series 논문 리뷰] Large language models can be zero-shot anomaly detectors for time series? (DSAA 2024)

본 논문에서는 LLM을 활용하여 시계열 데이터에서 이상 탐지하는 방법을 제안하는데, 이를 위해 SIGLLM이라는 프레임워크 개발함. SIGLLM은 시계열 데이터를 text형식으로 변환해 LLM에 입력하고, 이를 기반으로 2가지 접근법을 사용하여 이상을 탐지함. (PROMPTER, DETECTOR) 1. 시계열 데이터 변환 과정 (LLMTIME과 유사)시계열 데이터를 LLM이 처리할 수 있도록 하기 위해 몇가지 전처리 과정을 거침.1) 스케일링(Scaling)- 데이터의 최솟값을 기준으로 값을 이동하여 비음수로 변환함.- 예를 들어, $X=(x_1, x_2, ... , x_T)$가 주어지면, 각 데이터 포인트에 대해 $x_{t}^{'}=x_t-min(X)$로 변환해 음수를 제거하고 데이터의 범위 조절 2)..

[Time-series 논문 리뷰] DACAD: Domain Adaptation Contrastive Learning for Anomaly Detection in Multivariate Time Series

문제 설정- DACAD는 라벨이 없는 타겟 시계열 데이터셋 T에서 라벨이 있는 소스 데이터셋 S를 사용하여 이상탐지하는 모델- 소스 데이터는 정상과 이상 라벨O, 타겟 데이터는 라벨X Anomaly Injection- 타겟 데이터에 라벨이 없기에, DACAD는 이상 주입 방법으로 합성된 이상을 만들어냄- 이 과정에서 소스 데이터의 정상 샘플 $S_{norm}$과 타겟 데이터 T에 합성 이상을 추가하여 새로운 샘플 집합 $S_{inj}$와 $T_{inj}$를 생성함- 모델이 다양한 유형의 이상 학습하는데에 도움됨 TCN- TCN을 통해 시계열 window의 주요 특징 추출- 변환된 특징 공간에서 4가지로 나눌 수 있음- $\varphi^R(S)$ : 소스 window의 representation- $\va..

[Time-series 논문 리뷰] TimeCMA: Towards LLM-Empowered Time Series Forecasting via Cross-Modality Alignment

방법론의 목적 기존 prompt 기반 LLM이 데이터 얽힘 문제로 인해 성능저하 발생했기에,프롬프트 기반 LLM에서 얻은 얽힌 임베딩에서 시계열 정보와 단어 정보를 분리하고, 여러 변수 간의 의존성을 효과적으로 학습하여 더 나은 다변량 시계열 예측을 하기 위함  주목해야할 점 Dual-Modality Encoding (시계열과 시계열 값(숫자)를 포함한 prompt가 함께 input됨)  방법론  Dual-Modality Encoding1) Time Series Encoding Branch목적: 임베딩된 벡터를 인코더에 입력하여 여러 변수 간의 복잡한 시간적 의존성을 포착하기 위함방법: embedding → layer norm → multi-head attention→layer norm→FFN2) LLM..

[논문 리뷰] AdapTable: Test-Time Adaptation for Tabular via Shift-Aware Uncertainty

방법론의 목적 1) Tabular data representation은 covariate shift와 concept drift의 얽힘으로 인해 방해받는 경우가 많음 (a), (b)를 비교해보면, 심층 학습 모델의 표현이 image데이터에서만 라벨에 따른 클러스터 가정을 따르며, tabular 데이터에서는 그렇지 않음Tabular 형식 도메인에서는 잠재적 혼란 변수 Z로 인해 입력 X에서 출력 Y로의 약한 인과관계가 발생하며, 이는 유사한 입력에 대해 매우 다른 라벨을 생성하는 경우가 많음(Grinsztajn, Oyallon, and Varoquaux 2022; Liu et al. 2023)심층 신경망이 정확하게 모델링하기 어려운 고주파 함수로 이어지며, 심층 신경망은 저주파 함수에 편향되는 경향이 있음 ..

[Time-series 논문 리뷰] LSTPrompt: Large Language Models as Zero-Shot Time Series Forecastersby Long-Short-Term Prompting

방법론의 목적 기존의 제로샷 TSF 프롬프트 전략은 TS 데이터를 숫자 문자열로 표현하고 TSF 작업을 텍스트 기반의 다음 토큰 예측으로 간주그러나 이러한 전략은 동적 TS 데이터에 내재된 정교한 예측 메커니즘의 필요성을 간과함.명확한 지침이 없으면 기존 전략은 높은 불확실성을 가진 부정확한 예측을 초래(=단순히 나열된 숫자만 가지고 다음을 예측하는 것은 예측에 필요한 다양한 요인들 고려안한것)  주목해야할 점 Chain-of-Thought, Time Breath  방법론 GPT-3.5 TurboGPT-4 사용 (best)  Time Decomposition1) Chain-of-Thought목적: TSF 작업을 체계적인 추론을 위함방법: 특정 dataset으로 task prompt → task를 장단기 ..

[Time-series 논문 리뷰] Large Language Models Are Zero-Shot Time Series Forecasters (NeurIPS 2023)

방법론의 목적LLM을 backbone으로 활용하여 zero-shot 시계열 예측하기 위함  주목해야할 점LLM에 들어가기 위한 전처리 방법들   방법론 개념도 설명데이터예시[150, 153, 157, 155, 160, ...]인코딩:시계열 데이터를 LLM이 이해할 수 있는 형식으로 변환'150, 153, 157, 155, 160' → "1 5 0 , 1 5 3 , 1 5 7 , 1 5 5 , 1 6 0"모델 입력:LLM에 변환된 문자열을 입력모델은 이 입력을 기반으로 다음에 나올 값을 예측하는 '토큰' 예측 문제를 해결"1 5 0 , 1 5 3 , 1 5 7 , 1 5 5 , 1 6 0"을 입력받고, 그 다음에 나올 값을 예측\예측 샘플링:LLM은 여러 번의 샘플링을 통해 다양한 예측 결과를 생성[162..

[논문 리뷰] Sleep Quality Prediction From Wearable Data Using Deep Learning

Sleep Quality Definitions수면 효율성(sleep efficiency)수면의 질을 측정하기 위해 수면 효율성(sleep efficiency)을 결정했습니다(그림 2 참조). 이는 **총 수면 시간(분)과 침대에 있는 총 시간(분)**의 비율입니다. 수면 효율성 점수가 85% 이상인 사람들은 양질의 수면을 취한 것으로 간주되며, 점수가 85% 미만인 사람들은 수면의 질이 낮은 것으로 간주됩니다. **침대에 있는 총 시간(가속도계 센서(macc))**은 개인이 잠을 자는 시간과 잠들기까지 걸리는 시간(즉, 잠복기)을 포함한 시간입니다. 총 수면 시간은 개인이 잠을 자는 시간에서 깨어난 시간을 뺀 시간을 나타냅니다.이는 수면 시작 후 깨어난 시간(WASO)을 수면 기간의 길이에서 빼서 계산합..

[논문 리뷰] Assessing Sleep Quality Using Mobile EMAs: Opportunities, Practical Consideration, and Challenges

Abstract일상적인 수면 질을 평가하기 위해 EMAs 데이터를 포함하는 지표를 제안복잡한 생활 방식 맥락을 정량적으로 포함우리는 스마트폰을 사용하여 4주간의 데이터 수집 실험을 통해 실제 생활 데이터를 수집.우리는 자가 보고 데이터를 사용하여 지리적, 사회적 습관, 사회적 조건, 활동 수준 및 감정 상태를 반영하는 일일 지표를 생성하는 방법을 개발우리는 기존의 수면 설문지에서 EMAs를 사용하여 특징을 구성하는 지표를 보완할 수 있는지 여부를 평가분석 목표인식된 수면의 질을 설명하는 다섯 가지 수면 질 지표로 구성분석 결과일일 지표와 수면 설문지를 모두 사용한 특징이 수면 질 예측에 더 나은 결과를 초래모바일 기기와 EMAs를 통해 복잡한 인간 행동을 식별하는 지표를 생성할 가능성사용자 친화적인 데이..

[논문 리뷰] Real-world multimodal lifelog dataset for human behavior study

1. Introduction데이터셋 목적: 감정상태와 생리학적 반응(PPG, EDA, 피부온도)간의 상관관계: 기분 및 신체활동(=비수면 일상현상)포함   2. Related work2.1. Activity datasetsOpportunity생활 실험실에서 4명의 피험자로부터 여러 온바디 IMU 및 환경 센서 데이터를 수집했으며, 이동 방식, 행동 및 객체를 나타내는 라벨을 포함하고 있습니다. PAMAP2 [4] 데이터셋은 손목, 가슴, 발목에 세 개의 IMU를 사용하고, 9명의 피험자가 착용한 심박수 모니터를 추가하여 걷기와 축구와 같은 다양한 활동에 대한 18개의 라벨을 포함하고 있습니다. UCI-HAR [1] 데이터셋에 포함된 IMU 데이터는 허리 왼쪽에 장착된 스마트폰으로부터 얻어진 것으로, 30..

[Time-series 논문 리뷰]TranAD: Deep Transformer Networks for Anomaly Detection in Multivariate Time Series Data(VLDB, 2022)

- 2024.05.20 기준 311회 인용 - Transformer구조와 Adversarial training을 다변량 시계열 데이터에 접목시킨 연구  ∎ Contribution - Transformer 구조를 통해 기존 다변량 시계열 데이터에서의 anomaly detection 개선 - 전체적인 시점정보와 지역적 시점정보 모두 반영하여 시계열 데이터가 지닌 장단기 특징을 반영 - 두 개의 decoder를 지닌 구조로 Adversarial training을 통해 안정적인 학습 및 불량 탐지 효과 개선하여, 정상에 대해 좀 더 강건하고 일반화된 특징을 적절히 학습  1) Architecture - 1개의 Encoder와 2개의 Decoder로 구성 : Encoder는 기존의 Transformer구조와 동일..