0. Abstract
- 기존 접근 방식 한계
- 대량의 센서데이터에서 adaptively extract the efective feature하기 어려움
- 고장을 정확하게 감지 어려움
- 고장 진단에 대한 원인 제공 어려움
- MTS-CNN (fault detection & diagnosis) (다중 시계열 컨볼루션 신경망)
- : 반도체 제조에서의 고장 검출과 진단
- 장점/차별점
- 과적합 방지 : sliding window + data augmentation → 하위 시계열 생성
- CNN-pooling layer : 장비 센서의 주요 feature학습
- diagnosis layer : 각 센서의 중요성 확인가능
- 각 고장과 다른 센서 간의 관계를 식별하고 고장 진단을 위한 유용한 정보 제공 가능
1. Introduction
- 반도체 제조에서의 다변량 시계열 데이터
- 반도체 제조에서의 고장 감지 및 분류 (FDC) 데이터
- 이 데이터에는 웨이퍼, 상태 변수 식별 (SVID), 기록된 시간을 포함한 3차원 정보가 포함
- Fault detection
- 장비 센서 데이터를 분석하고 웨이퍼 처리 초기에 이상을 감지
- 다변량 통계 고장 감지 방법
- 기계학습 모델
- Fault diagnosis
- 이상 원인을 식별 & 이상의 루트 원인 분석
- 이상 센서 데이터의 조사를 위해 도메인 전문가의 경험에 의존하는 것이 주로 시간이 많이 걸리며 주관적이며 할당 가능한 원인을 제거하기 위한 것
- 반도체 제조에서의 고장 감지 및 분류 (FDC) 데이터
- 기존 FDC 연구
- 각 SVID에서 기능을 추출하기 위해 각 시간 단계에서 평균, 표준 편차, 최대값, 최소값, 왜도 및 첨도와 같은 요약 통계를 계산
- 엔지니어의 경험에 기반하여 정의되며 분석을 위한 상한 및 하한 제한 명세를 결정
- 한계
- 수작업으로 생성된 특성은 중요한 정보를 상실하고 높은 거짓 경보율을 초래
- ⇒ 전통적인 FDC 방법만 사용하여 센서 데이터에서 중요한 기능을 효과적으로 찾을 수 없으며 쉽게 거짓 감지나 누락됨
- 각 SVID에서 기능을 추출하기 위해 각 시간 단계에서 평균, 표준 편차, 최대값, 최소값, 왜도 및 첨도와 같은 요약 통계를 계산
- 최근 FDC 연구 (raw 시계열 데이터 계산과 자동 feature extract 기술 발전(기존 FDC의 엔지니어 경험에만 의존하는 한계 극복))
- CNN 및 autoencoder기반 방법론 → 주요 feature extract & fault detection
- 한계
- 1) 고장과 수집된 장비 센서 변수간의 상관관계 결정 어려움 (=뭐가 원인인지모름) (고장이 발생하면 가장 가능성있는 근본 원인 찾도록 노력해야함, 고장을 감지한 센서에의해 수집된 데이터 기반으로 조치 취하기 필요 → 장비 및 기계중단으로 인한 불필요한 손실 피해야함)
- 2) SVID 데이터에서 고정 길이를 필요로함
- (but 반도체 제조에서 각 SVID의 기록된 시간 기간이 다를 수 있음. )
- 한계 극복
- MTS-CNN (실제 적용 상황과의 간격 메우기 위함)
- 다변량 Time series classification 위해 fault detection&원인 분석
- 한계
- CNN 및 autoencoder기반 방법론 → 주요 feature extract & fault detection
- MTS-CNN (센서 데이터 패턴 유지 & 스케일 오류 피하기 위해…)
- Step1: 원래 센서데이터를 평균0 분산1인 스케일로 표준화
- 제조 과정 중에 수집된 웨이퍼는 길이가 다를 수 있음
- Step1-1: 슬라이딩 윈도우 기반의 하위 시퀀스 추출을 통해 시간 특성을 후속으로 결정
- 하위 시퀀스의 증강은 train 데이터의 총 양과 다양성을 높이고, 전체 MTS-CNN 모델의 정확도를 향상
- Step2: 각 하위 시퀀스와 함께 합성곱 신경망 (CNN)을 사용하여 각 SVID의 데이터 기능을 추출하고 제품 고장을 감지
- Step3: MTS-CNN 모델을 사용하여 불량 웨이퍼와 정상 웨이퍼를 식별
- Step4: 진단 레이어의 결과를 기반으로 개별 센서와 불량 웨이퍼 간의 상관 관계를 결정하여 유지 엔지니어에게 참고 정보를 제공
- Step1: 원래 센서데이터를 평균0 분산1인 스케일로 표준화
- Contribution
- 변수 길이 센서 데이터를 처리하기 위해 원래 시계열을 다양한 하위 시퀀스로 분할하기 위해 슬라이딩 윈도우를 사용
- SVID 데이터는 고정 길이를 필요로하지만, 반도체 제조에서는 각 SVID의 기록된 시간 기간 다를수있음
- CNN및 풀링 레이어를 통해 다변량 time series classification을 위한 효과적인 기능을 추출
- 진단 레이어의 출력을 기반으로 고장 감지 및 루트 원인 진단에 대한 참고 정보를 제공하기 위해 불량 웨이퍼와 관련된 SVID를 식별
- 변수 길이 센서 데이터를 처리하기 위해 원래 시계열을 다양한 하위 시퀀스로 분할하기 위해 슬라이딩 윈도우를 사용
2. Fundamental (Related work)
Time series data
- 시계열 분석 유형
- 다른 시계열 간의 유사도를 직접 계산 & 유사도 순서 기반으로 KNN알고리즘 사용하여 분류된 시계열 레이블링
- 시계열의 주요 feature를 추출 → 알고리즘을 사용하여 시계열의 하위 시퀀스를 분석 → 중요한 feature를 찾고 → 중요한 feature를 입력하여 분류 모델구축
- FDC 시계열 데이터
- input
- $t$ : 1~$n_p$ ($n_p$ : p번째 웨이퍼에 대해 기록된 총 기록 시간, 일반적으로 웨이퍼간에 다름)
- $p$ : 1~M
- $X_{p,q,t}$ : p번째 웨이퍼의 q번째 센서의 시간 t에서의 센서 값
- (M 개의 웨이퍼가 K 개의 센서가 설치된 장비를 통해 처리되고 있다고 가정)
- output
- $Y_p$ : 원핫벡터 $Y_p$ ∈ [0, 1]로, 시계열 $X_p$의 클래스가 결함 웨이퍼에 속하는 경우 $Y_p = 1$입니다. 그렇지 않으면 $Y_p = 0$
- 유사도 정도
- 유클리드 거리
- : 간단하고 빠르게 계산할 수 있지만, 두 시계열 간의 유사도를 계산하기 위해서는 두 시계열의 길이가 같다는 가정필요
- 유클리드 거리를 사용한 1-최근접 이웃(1-NN-EUC)
- 시계열 분류에 사용 가능
- k-NN 알고리즘은 훈련 없이 직접 시계열을 분류 가능
- 동적 시간 왜곡(DTW) 거리
- : 길이 다른 시계열 간 유사도 계산
- DTW 거리를 사용하는 1-NN 알고리즘(1-NN-DTW)
- 상대적으로 시간이 많이 소요되어 1-NN-DTW 알고리즘의 실용적 적용이 제한
- 유클리드 거리
- input
- FDC 시계열 데이터