본문 바로가기
Knowledge/Science Papers

[CV] Image Segmentation Using Text and Image Prompts

by Donk 2023. 2. 4.

Title

Image Segmentation Using Text and Image Prompts

Model

CLIPSeg

Links

Summary

이미지 분할 (image segmentation) 문제는 이미지 상에 존재하는 객체별로 분할하는 문제이다 (참조: huggingface 설명). 그중에서 이 페이퍼에서는 입력 prompt로 받은 object의 이미지를 분할해내는 문제가 미리 정의된 객체들로 학습된 모델로 해결하던 기존의 접근 방법이 모르는 객체로의 확장이 불가능한 한계점을 해결하려고 했다. 페이퍼가 제안한 해결 방법은 텍스트와 이미지를 joint embedding space로 학습한 CLIP 모델을 이용하여 텍스트 및 이미지의 프롬프트를 추가적인 fine tuning 없이 확장 지원하는 것이었다. 

이를 통해서 (1) 미리 정의되지 않은 object의 분할 (zero-shot segmentation), (2) 이미지 prompt를 이용해 미리 학습되지 않은 object의 분할 (one-shot segmentation), 그리고 (3) 복잡한 텍스트 prompt를 이용한 이미지 분할 (referring experssion segmentation) 문제들을 해결하려고 시도했다.

추가적으로 한가지 흥미로운 정보는 visual prompt engineering 부분이었다. 어떤 방식으로 image prompt를 제안해야 모델이 이미지 분할 작업을 잘할 수 있을지에 대한 분석이었는데, CLIP모델의 text-image embedding 간의 유사성을 기반으로 주어진 이미지가 (당연히 CLIP 모델의 관점에서, 하지만 CLIPSeg Decoder에 주어지는 명확한 입력의 관점으로도 볼 수 있음) 어떤 입력 값으로 해석될 수 있는지를 보여주었다.

생각해보면 상식적이기는 하나 위의 분석 결과로 이미지 프롬프트는 해당 객체만 명확하게 제공하는 것이 가장 확실했다. 그래서 (1) 배경 이미지를 어둡게, (2) 배경을 흐릿하게, 그리고 (3) 원하는 객체만 크롭되서 보여주는 방식이 가장 명확한 prompt라고 제안했다.

페이퍼 말미에 ablation study의 결과를 공유했는데, 발견한 내용을 요약해보면 decoder의 정보 처리 능력이 중요하고, CLIP 모델의 high level features가 분할 작업에는 유용하고, CLIP 모델의 text/image가 완벽하게 얼라인되지 않았다 (이미지 prompt 없이 학습한 모델의 image prompt 성능 저하 발견) 고 한다.

댓글