Zero-Shot Anomaly Detection(ZSAD)
는 새로운 카테고리의 이미지 내 anomaly를 찾는 것이 목표CLIP
을 사용하여 ZSAD task를 수행하는 AdaCLIP
을 제안
Static
prompt : 모든 이미지에 공유되어 CLIP을 ZSAD에 맞게 미리 adapting하는 역할 수행Dynamic
prompt : 각 test image에 대해 생성되어 CLIP에게 dynamic adaptation 능력 부여hybrid prompt
라고 함cold start problem
은 unsupervised / semi-supervised model 학습을 위한 충분한 정상 이미지를 확보할 수 없는 문제
WinCLIP
, SAA
등은 학습을 수행하지 않고 VLMs을 통한 ZSAD 수행
APRIL-GAN
, AnomalyCLIP
등은 VLMs을 adapting하여 ZSAD 수행
MVTec
, VisA
등의 auxiliary AD dataset을 통해 학습ZSAD 접근 방식의 근거는 test image에 정상 혹은 비정상의 보편적인 패턴이 나타날 수 있으며 VLM이 이를 식별할 수 있다는 것
ZSAD의 auxiliary dataset을 최대로 활용하기 위해 AdaCLIP
을 제안
projection layer
: patch token과 text embedding의 dimension을 alignprompting layer
: 추가적인 prompting token과 layer input을 concat하여 CLIP의 transformer layer를 대체static
/ dynamic
learnable prompt 제안
hybrid prompt
는 ZSAD 성능 및 일반화 능력을 향상시킴key component
industrial 및 medical 도메인으로 구성된 14개의 데이터셋에서 SOTA 성능을 보임
다른 도메인의 카테고리를 사용할 때에도 auxiliary dataset의 정보를 효과적으로 활용