
Visual Inspection은 범위가 넓고 다양한 경우를 포함하는 어려운 문제(long-tail problem)
one-class 혹은 unsupervised anomaly detection에 초점을 맞춰 연구 진행
few-normal-shot 환경에선 fully-supervised와 비교했을 때 성능이 부족→ zero-shot classification이 가능한 CLIP에 기반한 WinCLIP을 통한 anomaly detection 수행
→ normal reference image를 활용한 WinCLIP+를 통해 few-normal-shot 환경 고려

CLIP은 이미지와 텍스트의 global embedding 간의 cross-modal alignment를 강화하기 위해 학습
pixel-level classification을 추구→ Window-base CLIP(WinCLIP)을 통해 multi-scale feature를 aggregate한 후 추출
기존 CLIP의 방식대로 zero-shot classification을 수행할 경우 naive한 prompt는 효과적이지 않음
normal과 anomalous를 class로 정의한 text prompt를 활용한 zero-shot classification→ naive baseline을 state-level word와 조합해 normal과 anomalous 상태를 잘 설명
Anomaly Classification(AC)과 Anomaly Segmentation(AS) 모두 $x$ 내 abnormality를 예측하는 것이 목적
binary classification $X \rightarrow \left\{-, + \right\}$로 간주
Contrastive Language Image Pre-training(CLIP)은 joint vision-language representation을 제공하는 대규모 사전 학습 방법론contrastive learning을 통해 학습

prompt template과 각 label을 결합할 경우 정확도 향상