
CLIP과 같은 거대 large-scale VLMs이 Zero-Shot Anomaly Segmentation(ZSAS) task에서 가능성을 보임
Visual Context Prompting Model(VCP-CLIP)을 제안
Pre-VCP 모듈 설계
Post-VCP 모듈 제안
기존 CLIP 기반 ZSAS 방법론들은 이미지와 대응하는 two-class text를 joint space로 매핑해 cosine similarity를 계산
기존 방법론들은 탐지할 이미지의 product category를 안다고 가정하여 product-specific textual prompt 설계
“a photo of a normal wood”
텍스트 프롬프트의 product category를 WinCLIP에서 의미적으로 유사한 용어로 대체하는 실험을 진행
Average Precision(AP) metric이 변하는 것을 확인AnomalyCLIP에선 모든 product name을 동일하게 “object”로 대체하여 object-agnostic text prompt를 설계
WinCLIP, April-GAN, AnomalyCLIP은 어떠한 interaction 없이 이미지와 텍스트를 개별적으로 joint space에 매핑

위의 문제들을 해결하기 위해 CLIP에 기반한 Visual Context Prompting(VCP) 모델을 통해 ZSAS task를 수행
anomaly segmentation 수행manually defined text prompt에 의존(Fig.2(b))unified text prompt는 baseline으로 사용(Fig.2(c))global image feature에 대한 이해를 활용하기 위해 Deep Text Prompting(DTP)를 도입해 text space을 재정의
Pre-VCP는 uniform prompt에서 image-specific prompt로 변환을 가능하게 함
Post-VCP는 output text embedding을 fine-grained visual feature에 기반해 조정
결론적으로 본 논문은 CLIP에 기반해 ZSAS task를 수행하는 VCP-CLIP을 제안
Pre-VCP 모듈을 통과한 후 입력 text prompt에 통합Post-VCP 모듈은 fine-grained image feature에 기반해 text embedding을 업데이트하기 위해 이후에 설계