
0. Abstract
Zero-Shot Anomaly Detection(ZSAD)
은 보조 데이터셋을 사용하여 학습된 탐지 모델이 target dataset의 학습 샘플 없이도 이상치를 탐지할 수 있어야 함
- 여러 가지 요인들로 인해 학습 데이터를 사용할 수 없을 때 ZSAD는 중요한 task
- 그러나 모델이 다양한 도메인에 걸쳐 이상치를 일반화해야하기 때문에 여전히 어려운 문제
- 물체의 모습이나 이상치 영역, 배경의 특징 등이 도메인마다 매우 다양함
CLIP
과 같은 거대 VLMs은 AD를 포함한 여러 비전 task에서 강력한 zero-shot recognition 능력을 보임
- 그러나 VLMs은 이미지 내
normality
/ abnormality
보단 객체의 class semantic
을 모델링하는데 집중하여 ZSAD의 성능이 떨어짐
- 본 논문에선 CLIP을 다양한 도메인에 대한 ZSAD에 adapting하는
AnomalyCLIP
을 제안
- 객체에 상관없이 이미지 내 일반적인 normality와 abnormality를 포착하는
object-agnostic text prompt
를 학습
- 이는 모델이 object semantic보단 이상치 이미지 영역에 집중하도록함
- 다양한 유형의 객체에 대한 일반화된 normality와 abnormality의 recognition을 가능하게 함
- 17개의 real-world AD 데이터셋에서 AnomalyCLIP은 우수한 zero-shot 성능을 보임
1. Introduction
- 현존하는 AD 방법론들은 일반적으로 타겟 도메인에서 정상 샘플만을 통해 탐지 모델을 학습할 수 있다고 가정
- 그러나 이러한 가정은 여러 상황에서 성립되지 않을 수 있음
- 학습 데이터에 접근하는 것이 data privacy 정책을 위반
- 타겟 도메인이 관련된 학습 데이터를 보유하지 않는 경우 ex> 새로운 제품에 대한 결함 검사
- ZSAD는 이러한 상황에서 중요한 task가 되어가고 있음
- 타겟 데이터셋의 학습 데이터 없이 이상치를 탐지
- 다양한 적용 시나리오의 이상치는 일반적으로 시각적 모양, 객체, 배경의 특징 등에 상당한 차이가 존재
- 정확한 ZSAD를 위해선 이러한 변화에 대한 강력한 일반화 능력을 갖춘 탐지 모델이 필요
- 최근에는 수백만/수십억 개의 이미지-텍스트 쌍으로 사전학습된
CLIP
을 다양한 task에 적용
- 그러나 CLIP은 이미지 내 normality/abnormality보단 객체의 class semantic을 align하도록 학습
- visual normality/abnormality를 이해하는 데의 일반화 능력은 제한적이어서 ZSAD 성능이 부족
- 수동적으로 정의된 text prompt 또는 learnable prompt를 사용하는 현재의 prompt 방식은 효과적인 object semantic alignment를 위한 global feature를 선택
- fine-grained한 local feature에서 발생하는 abnormality를 종종 포착하지 못함
- 본 논문에선 CLIP을 다양한 도메인에 걸쳐 정확한 ZSAD에 Adapting하는
AnomalyCLIP
을 제안
- 이미지의 일반적인
normality
/ abnormality
를 object에 상관없이 포착하는 object-agnostic text prompt
를 학습
- 두 가지 class에 대해 간단하지만 효과적인 학습 가능한 prompt template을 고안
- 보조 데이터를 활용한 prompt embedding에서 일반적인 normality / abnormality 학습
- image- / pixel-level loss function을 활용해 global과 local에서 모두 학습
- 모델이 object semantic 대신 abnormal image region에 집중
- 보조 데이터와 유사한 비정상 패턴을 가진 abnormality를 인식하는 zero-shot 가능

- 학습에 사용되는 보조 데이터와 타겟 데이터의 object가 완전히 다르더라도 이상치 패턴은 비슷할 수 있음
- metal nut과 plate의
scratch
- transistor와 PCB의
misplacement
- CLIP의 text prompt embedding은 여러 도메인에서 이를 일반화하지 못함
- object-agnostic prompt embedding은 여러 도메인에서 abnormality를 인식하도록 효과적으로 일반화
2. Preliminary
- CLIP은 text encoder $T(\cdot)$와 visual encoder $F(\cdot)$로 구성
- zero-shot recognition을 위해 text prompt를 사용해 다양한 class에 대한 임베딩을 얻는 것이 일반적
- class $c$로 구성된 text prompt template $G$가 $T(\cdot)$을 통과해 textual embedding $g_c \in R^D$를 얻음
- CLIP에서 일반적으로 사용되는 text prompt template은 “A photo of a [cls]”
- [cls] : target class name