
Zero-Shot Anomaly Detection(ZSAD)는 새로운 카테고리의 이미지 내 anomaly를 찾는 것이 목표CLIP을 사용하여 ZSAD task를 수행하는 AdaCLIP을 제안
Static prompt : 모든 이미지에 공유되어 CLIP을 ZSAD에 맞게 미리 adapting하는 역할 수행Dynamic prompt : 각 test image에 대해 생성되어 CLIP에게 dynamic adaptation 능력 부여hybrid prompt라고 함
cold start problem은 unsupervised / semi-supervised model 학습을 위한 충분한 정상 이미지를 확보할 수 없는 문제
WinCLIP, SAA 등은 학습을 수행하지 않고 VLMs을 통한 ZSAD 수행
APRIL-GAN, AnomalyCLIP 등은 VLMs을 adapting하여 ZSAD 수행
MVTec, VisA 등의 auxiliary AD dataset을 통해 학습ZSAD 접근 방식의 근거는 test image에 정상 혹은 비정상의 보편적인 패턴이 나타날 수 있으며 VLM이 이를 식별할 수 있다는 것
ZSAD의 auxiliary dataset을 최대로 활용하기 위해 AdaCLIP을 제안
projection layer : patch token과 text embedding의 dimension을 alignprompting layer : 추가적인 prompting token과 layer input을 concat하여 CLIP의 transformer layer를 대체static / dynamic learnable prompt 제안
hybrid prompt는 ZSAD 성능 및 일반화 능력을 향상시킴key component
industrial 및 medical 도메인으로 구성된 14개의 데이터셋에서 SOTA 성능을 보임
다른 도메인의 카테고리를 사용할 때에도 auxiliary dataset의 정보를 효과적으로 활용