
0. Abstract
Zero-shot anomaly detection(ZSAD)
방법론들은 알려진 타겟 카테고리의 정상 혹은 비정상 샘플에 대한 사전 접근 없이 이상치를 탐지
- 현존하는 방법론들은 일반적으로 사전 학습된 multimodal model에 의존
- 정상 혹은 비정상을 나타내는 manually crafted textual feature와 image patch feature 간의 유사도를 계산
- 일반적인 “abnormal”의 설명은 종종 다양한 객체 카테고리에 대한 다양한 이상치 유형을 정밀하게 나타낼 수 없음
- single patch에 대한 유사도를 계산하는 것은 다양한 size와 scale의 이미지 내에 정확한 이상치의 위치를 나타내기 어려움
- 이러한 문제점들을 해결하기 위해 새로운 ZSAD 방법론
FiLo
를 제안
FG-Des
는 LLM을 사용해 각 카테고리에 대한 fine-grained anomaly description을 도입
- adaptively learned textual template을 사용해 이상치 탐지의 정확도와 해석 가능성을 향상
HQ-Loc
는 다양한 size와 shape을 가진 이상치의 정확한 localization을 수행
- preliminary localization을 위해
Grounding DINO
를 사용
- position-enhanced text prompts, Multi-scale Multi-shape Cross-modal Interaction(MMCI) 모듈
MVTec
과 VisA
와 같은 데이터셋에 대한 실험을 통해 FiLo는 detection과 localization 모두 좋은 성능 개선을 보임
1. Introduction
- 일반적인 “abnormal”이라는 description은 여러 카테고리에 걸친 다양한 유형의 이상치 유형을 정확하게 반영하지 못함
- 개별 패치의 feature similarity를 계산하면 크기와 모양이 다양한 이상치 영역을 정확하게 찾는 데 어려움
- 수동으로 작성된 이상치 description은 일반적으로 “damaged” 혹은 “defect”와 같은 일반적인 용어 사용
- 다양한 객체 category에 존재하는 특정 유형의 이상치를 적절히 포착하지 못함
- 현재 사용하는 “A xxx photo of xxx”와 같은 텍스트 템플릿은 객체의 이미지 분류를 위해 설계
- 객체 내 정상 혹은 이상치에 해당하는 부분을 파악하는데 적합하지 않을 수 있음
- 이상치는 모양과 크기가 다른 여러 패치에 걸쳐 있는 경우가 많기 때문에 주변 정상 영역과 비교하여 확인해야하는 경우 존재
WinCLIP
은 다양한 크기의 window를 통해 이를 해결하고자 함
- inference 시 각 window에 대응하는 수많은 이미지를 CLIP의 이미지 인코더에 입력해야 함
- 상당한 시간 및 공간에 대한 비용이 발생
2. Related Work
2.1 Vision-Language Models
CLIP
은 이미지 분류를 위해 설계되었지만, object detection과 segmentation task에 VLM을 적용하기 위해 노력
- Transformer 기반의 object detector
DINO
와 Grounded pretraining을 결합하여 open-set object detector로 좋은 성능을 보이는 Grounding DINO
가 좋은 예시
- Grounding DINO는 사전 anomaly localization에만 활용
- 대략적인 이상치의 위치를 파악하고 배경 영역의 false positive를 피함