CLIP
과 같은 거대 large-scale VLMs이 Zero-Shot Anomaly Segmentation(ZSAS)
task에서 가능성을 보임
Visual Context Prompting Model(VCP-CLIP)
을 제안
Pre-VCP
모듈 설계
Post-VCP
모듈 제안기존 CLIP 기반 ZSAS 방법론들은 이미지와 대응하는 two-class text를 joint space로 매핑해 cosine similarity를 계산
기존 방법론들은 탐지할 이미지의 product category를 안다고 가정하여 product-specific textual prompt
설계
“a photo of a normal wood”
텍스트 프롬프트의 product category를 WinCLIP
에서 의미적으로 유사한 용어로 대체하는 실험을 진행
Average Precision(AP)
metric이 변하는 것을 확인AnomalyCLIP
에선 모든 product name을 동일하게 “object”로 대체하여 object-agnostic text prompt를 설계
WinCLIP
, April-GAN
, AnomalyCLIP
은 어떠한 interaction 없이 이미지와 텍스트를 개별적으로 joint space에 매핑
위의 문제들을 해결하기 위해 CLIP에 기반한 Visual Context Prompting(VCP)
모델을 통해 ZSAS task를 수행
anomaly segmentation
수행manually defined text prompt
에 의존(Fig.2(b))unified text prompt
는 baseline으로 사용(Fig.2(c))global image feature에 대한 이해를 활용하기 위해 Deep Text Prompting(DTP)
를 도입해 text space을 재정의
Pre-VCP
는 uniform prompt에서 image-specific prompt로 변환을 가능하게 함
Post-VCP
는 output text embedding을 fine-grained visual feature에 기반해 조정
결론적으로 본 논문은 CLIP에 기반해 ZSAS task를 수행하는 VCP-CLIP
을 제안
Pre-VCP
모듈을 통과한 후 입력 text prompt에 통합Post-VCP
모듈은 fine-grained image feature에 기반해 text embedding을 업데이트하기 위해 이후에 설계