Visual Inspection
은 범위가 넓고 다양한 경우를 포함하는 어려운 문제(long-tail problem
)
one-class
혹은 unsupervised anomaly detection
에 초점을 맞춰 연구 진행
few-normal-shot
환경에선 fully-supervised와 비교했을 때 성능이 부족→ zero-shot classification이 가능한 CLIP
에 기반한 WinCLIP
을 통한 anomaly detection 수행
→ normal reference image를 활용한 WinCLIP+
를 통해 few-normal-shot 환경 고려
CLIP
은 이미지와 텍스트의 global embedding 간의 cross-modal alignment를 강화하기 위해 학습
pixel-level classification
을 추구→ Window-base CLIP(WinCLIP)
을 통해 multi-scale feature를 aggregate한 후 추출
기존 CLIP
의 방식대로 zero-shot classification을 수행할 경우 naive한 prompt는 효과적이지 않음
normal
과 anomalous
를 class로 정의한 text prompt를 활용한 zero-shot classification→ naive baseline을 state-level word
와 조합해 normal과 anomalous 상태를 잘 설명
Anomaly Classification(AC)
과 Anomaly Segmentation(AS)
모두 $x$ 내 abnormality
를 예측하는 것이 목적
binary classification
$X \rightarrow \left\{-, + \right\}$로 간주
Contrastive Language Image Pre-training(CLIP)
은 joint vision-language representation을 제공하는 대규모 사전 학습 방법론contrastive learning
을 통해 학습
prompt template
과 각 label을 결합할 경우 정확도 향상