Segment Anything in High Quality

2024. 10. 28. 11:16Deep Learning

Segment Anything in High Quality

 

Lei Ke, Mingqiao Ye, Martin Danelljan, Yifan Liu, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu

 

Abstract

최근의 Segment Anything Model (SAM)은 강력한 제로샷 기능과 유연한 프롬프트를 허용하는 세그멘테이션 모델 확장의 큰 도약을 의미합니다.

11억 개의 마스크로 학습되었지만, 특히 복잡한 구조를 가진 물체를 다룰 때 SAM의 마스크 예측 품질은 많은 경우 부족합니다.

우리는 SAM의 원래 프롬프터블 설계, 효율성 및 제로샷 일반화 가능성을 유지하면서 모든 물체를 정확하게 세그멘트할 수 있는 기능을 갖춘 HQ-SAM을 제안한다.

우리의 세심한 설계는 최소한의 추가 파라미터와 계산만 도입하면서 사전 학습된 SAM의 모델 가중치를 재사용하고 보존한다.

우리는 SAM의 마스크 디코더에 주입되고 고품질 마스크를 예측하는 학습 가능한 고품질 출력 토큰을 설계한다.

마스크 디코더 피쳐에만 적용하는 대신, 먼저 마스크 세부 사항을 개선하기 위해 초기 및 최종 ViT 피쳐와 융합한다.

도입된 학습 가능한 파라미터를 학습하기 위해 여러 출처의 44K 세분화된 마스크 데이터 세트만 구성한다.

HQ-SAM은 8개의 GPU에서 4시간밖에 걸리지 않는 44k 마스크 데이터셋에만 대해 학습된다.

우리는 다양한 다운스트림 작업에 걸쳐 10개의 다양한 세그멘테이션 데이터 세트에서 HQ-SAM의 효과를 보여주며, 그 중 8개는 제로샷 전송 프로토콜로 평가된다.

 

 

 

1   Introduction

다양한 객체의 정확한 세그멘테이션은 이미지/동영상 편집, 로봇 인식, AR/VR 등 광범위한 장면 이해 애플리케이션에 기본이 됩니다.

수십억 개 규모의 마스크 라벨로 학습된 Segment Anything Model (SAM) [21]은 최근 일반적인 이미지 세그멘테이션을 위한 기본 비전 모델로 출시되었습니다.

SAM은 포인트, 바운딩 박스 또는 coarse 마스크로 구성된 프롬프트를 입력으로 받아 다양한 시나리오에서 광범위한 객체, 부품 및 시각 구조를 세그멘트할 수 있습니다.

제로 샷 세그멘테이션 기능은 간단한 프롬프트를 통해 수많은 애플리케이션으로 전송할 수 있기 때문에 빠른 패러다임 변화를 가져왔습니다.

 

SAM은 인상적인 성과를 거두었지만 세그멘테이션 결과는 여전히 불만족스러운 경우가 많습니다.

특히 SAM은 두 가지 주요 문제를 겪고 있습니다:

 1) coarse 마스크 경계, 그림 1과 같이 얇은 물체 구조의 세그멘테이션조차 소홀히 하는 경우가 많습니다.
 2) 잘못된 예측, 깨진 마스크 또는 어려운 경우의 큰 오류.

이는 종종 SAM이 그림 1의 맨 오른쪽 열에 있는 연의 라인과 같은 얇은 구조를 잘못 해석하는 것과 관련이 있습니다.

이러한 유형의 오류는 특히 고도로 정확한 이미지 마스크가 중요한 자동 주석 및 이미지/동영상 편집 작업의 경우 SAM과 같은 기본 세그멘테이션 모델의 적용 가능성과 효과를 심각하게 제한합니다.

그림 1: SAM vs. HQ-SAM의 예측 마스크는 입력 프롬프트와 동일한 빨간색 상자 또는 객체의 여러 지점이 주어집니다. HQ-SAM은 매우 정확한 경계로 훨씬 더 상세한 결과를 생성합니다. 맨 오른쪽 열에서 SAM은 연선의 얇은 구조를 잘못 해석하고 입력 상자 프롬프트에 대한 구멍이 깨진 오류의 대부분을 생성합니다.

우리는 원본 SAM의 강력한 제로 샷 기능과 유연성을 손상시키지 않으면서 매우 어려운 경우에도 매우 정확한 세그멘테이션 마스크를 예측할 수 있는 HQ-SAM을 제안합니다 (그림 1 참조).

효율성과 제로 샷 성능을 유지하기 위해 0.5% 미만의 파라미터를 추가하여 고품질 세그멘테이션으로 기능을 확장하기 위해 SAM을 최소한으로 조정할 것을 제안합니다.

 

SAM 디코더를 직접 파인튜닝하거나 새로운 디코더 모듈을 도입하면 일반적인 제로 샷 세그멘테이션 성능이 심각하게 저하됩니다.

따라서 제로 샷 성능을 완전히 보존하기 위해 기존 학습된 SAM 구조와 긴밀하게 통합되고 재사용되는 HQ-SAM 아키텍처를 제안합니다.

첫째, 원본 프롬프트 및 출력 토큰과 함께 SAM의 마스크 디코더에 입력되는 학습 가능한 HQ-Output 토큰을 설계합니다.

원본 출력 토큰과 달리 HQ-Output 토큰과 관련 MLP 레이어는 고품질 세그멘테이션 마스크를 예측하도록 학습됩니다.

둘째, SAM의 마스크 디코더 피쳐만 재사용하는 대신, HQ-Output 토큰은 정확한 마스크 세부 정보를 얻기 위해 정제된 피쳐 세트에서 작동합니다.

특히 SAM의 마스크 디코더 피쳐와 ViT 인코더의 초기 및 후기 피쳐 맵을 융합하여 전역 시맨틱 컨텍스트와 로컬 세분화된 피쳐를 모두 사용합니다.

학습 중에는 사전 학습된 전체 SAM 파라미터를 동결하는 동시에 HQ-Output 토큰, 관련 3-레이어 MLP 및 작은 피쳐 융합 블록만 업데이트합니다.

 

정확한 세그멘테이션을 학습하려면 복잡하고 상세한 지오메트리를 가진 다양한 객체의 정확한 마스크 주석이 포함된 데이터 세트가 필요합니다.

SAM은 11억 개의 마스크가 자동으로 생성된 1,100만 개의 이미지가 포함된 SA-1B 데이터 세트에서 학습됩니다.

그러나 이 광범위한 데이터 세트를 사용하면 상당한 비용 영향을 미칠 수 있으며 그림 1의 SAM 성능에서 알 수 있듯이 작업에서 추구하는 원하는 고품질 마스크 생성을 달성하는 데 부족합니다.

따라서 44K의 매우 세분화된 이미지 마스크 주석이 포함된 새로운 데이터 세트인 HQSEG-44K를 구성합니다.

HQSEG-44K는 기존 이미지 데이터 세트 6개 [35, 29, 26, 38, 8, 46]와 매우 정확한 마스크 레이블을 결합하여 1,000개 이상의 다양한 시맨틱 클래스를 포함하여 구성됩니다.

소규모 데이터 세트와 최소 통합 아키텍처 덕분에 HQ-SAM은 8개의 RTX 3090 GPU에서 단 4시간 만에 학습할 수 있습니다.

그림 2: SAM 변형 배열에 대한 성능 vs. 속도 vs. 모델 크기 [21, 52].

HQ-SAM의 효과를 검증하기 위해 광범위한 정량적 및 정성적 실험 분석을 수행합니다.

우리는 그림 2의 SAM 변형 [21, 52]에 대한 포괄적인 성능-속도 모델 크기 비교를 제공합니다.

우리는 다양한 다운스트림 작업에 걸쳐 10개의 다양한 세그멘테이션 데이터 세트에서 HQ-SAM을 SAM과 비교하며, 그 중 8개는 제로 샷 전송 프로토콜에 따라 COCO [31], UVO [42], SGinW [58], LVIS [14], HQ-YTVIS [20], BIG [6], COIFT [29] 및 HR-SOD [51]를 포함하여 그중 8개는 제로 샷 전송 프로토콜에 따라 수행됩니다.

이 엄격한 평가는 제안된 HQ-SAM이 SAM에 비해 제로 샷 기능을 유지하면서 더 높은 품질의 마스크를 생산할 수 있음을 보여줍니다.

 

 

 

2   Related Work

High-quality Segmentation

고품질 세그멘테이션을 위한 기존 작업은 대부분 이미지 및 비디오 인스턴스 세그멘테이션 [22, 19, 20, 40, 44], 시맨틱 세그멘테이션 [30, 54, 39, 50] 또는 파놉틱 세그멘테이션 [9]과 같은 특정 세그멘테이션 작업에 대해 가까운 세계 패러다임으로 학습됩니다.

그 중 일부는 CRF [23] 또는 지역 성장 [10]과 같은 그래픽 모델을 사용하여 세그멘테이션 후 개선에 중점을 둡니다.

그러나 CRF 기반 개선은 높은 레벨의 시맨틱 컨텍스트를 완전히 활용하지 않고는 낮은 레벨의 색상 경계를 준수하며 큰 세그멘테이션 오류를 수정할 수 없습니다.

일부 개선 기반 작업은 캐스케이드 반복 개선을 위해 별도의 심층 네트워크를 채택하지만 [6, 37], 실험에서 볼 수 있듯이 과적합되기 쉽습니다.

이러한 고품질 세그멘테이션 [19, 22, 33] 또는 세그멘테이션 개선 방법과 비교하여 우리는 유연한 프롬프트를 통해 새로운 데이터에서 다양한 객체를 정확하게 세그멘트하는 데 집중하고 다양한 세그멘테이션 작업 및 도메인에 일반화하는 고품질 제로 샷 세그멘테이션 모델을 구축합니다.

세그멘테이션 후 개선 작업 [6, 37]과 달리, HQ-SAM은 coarse 마스크와 이미지를 입력으로 받아 별도의 개선 네트워크에 공급하는 대신 SAM의 이미지 인코더와 마스크 디코더를 재사용하여 새로운 고품질 마스크를 직접 예측합니다.

HQ-SAM의 모델 아키텍처는 정확한 마스크 예측을 위한 효율적인 토큰 학습을 제안하는 SAM을 무시할 수 있는 오버헤드로 구축합니다.

이는 이전의 고품질 세그멘테이션 작업과는 완전히 다르며, 광범위한 제로 샷 실험에서 그 효과를 보여줍니다.

 

Fine-tuning and Prompt Tuning for Foundation Models

파운데이션 모델 [2, 1]은 GPT 시리즈 [2]와 같은 대형 언어 모델이 보이지 않는 작업과 데이터에 대한 강력한 제로 샷 일반화를 보여주는 NLP 커뮤니티에 처음 등장합니다.

그런 다음 이러한 사전 학습된 모델이 더 나은 전이 학습을 위해 내부 모델 파라미터 [15]를 파인튜닝하는 대신 다운스트림 작업으로 일반화하는 데 도움이 되는 일부 프롬프트 기반 학습 작업 [16, 27, 17]이 제안됩니다.

비전 기반 파운데이션 모델 [21, 43, 59]의 경우, 사전 학습된 모델을 동결하는 프롬프트 엔지니어링 [56, 45, 49, 57]이 CLIP [36]과 같은 비전 언어 모델에서 먼저 탐색됩니다.

학습 가능한 파라미터가 있는 이러한 프롬프트는 더 나은 컨텍스트 최적화를 통해 다운스트림 작업에 도움이 되도록 설계되었습니다.

기존의 프롬프트 기반 또는 파인튜닝 작업과 달리 고품질 세그멘테이션을 위한 SAM의 최소한의 적응에 초점을 맞춥니다.

우리는 컨텍스트 학습과 더 나은 일반화를 돕기 위해 일부 학습 가능한 파라미터 [56]만 활용하는 대신 정확한 마스크 예측을 위해 제안된 HQ-Output 토큰 출력을 직접 사용합니다.

 

 

 

3   Method

고품질 제로 샷 세그멘테이션을 위해 SAM을 업그레이드하기 위해 HQ-SAM을 제안합니다.

HQ-SAM은 가볍고 SAM 모델에 두 가지 중요한 적응만 소개합니다.

섹션 3.1에서는 먼저 HQ-SAM이 구축된 SAM의 아키텍처를 간략하게 검토합니다.

그런 다음 섹션 3.2에서는 제로 샷 기능을 유지하면서 SAM의 더 나은 세그멘테이션 품질을 달성하기 위한 핵심 구성 요소인 고품질 토큰 (HQ-Output 토큰)과 전역 로컬 피쳐 퓨전을 갖춘 HQ-SAM을 소개합니다.

마지막으로 섹션 3.3에서는 데이터와 계산 효율적인 HQ-SAM의 학습 및 추론 프로세스를 설명합니다.

 

3.1 Preilminaries: SAM

SAM [21]은 세 개의 모듈로 구성됩니다:
 (a) 이미지 인코더: 이미지 피쳐 추출을 위한 무거운 ViT 기반 백본으로, 공간 크기 64×64의 이미지 임베딩이 가능합니다. 

 (b) 프롬프트 인코더: 입력 지점/상자/마스크의 대화형 위치 정보를 인코딩하여 마스크 디코더를 제공합니다.

 (c) 마스크 디코더: 2-레이어 트랜스포머 기반 디코더는 추출된 이미지 임베딩과 연결된 출력을 모두 가져가고 최종 마스크 예측을 위한 프롬프트 토큰을 가져옵니다.

공개된 SAM 모델은 자동으로 생성된 10억 개 이상의 마스크 (기존 세그멘테이션 데이터 세트 [14, 24]보다 400배 더 많은 마스크)와 1,100만 개의 이미지를 포함하는 대규모 SA-1B 데이터 세트에 대해 학습됩니다.

따라서 SAM은 추가 학습 없이도 새로운 데이터에 대한 강력한 제로 샷 일반화를 보여줍니다.

그러나 SA-1B에서 2 에포크에 대해 ViT-H 기반 SAM을 분산 학습하려면 256개의 대규모 배치 크기의 256개 GPU가 필요한 SAM 학습은 매우 비싸다는 점에도 주목합니다.

자세한 SAM 방법에 대한 자세한 내용은 [21]을 참조하세요.

 

3.2 Ours: HQ-SAM

이 섹션에서는 HQ-SAM 네트워크의 아키텍처를 설명합니다.

SAM의 제로샷 전송 기능을 보존하는 동시에 모델 과적합이나 치명적인 망각을 방지하기 위해 SAM을 직접 파인튜닝하거나 새로운 헤비 디코더 네트워크를 추가하는 대신 가능한 한 최소한의 적응 접근 방식을 취합니다.

이를 위해 HQ-SAM은 그림 3과 같이 High-Quality Output Token과 Global-local Feature Fusion이라는 두 가지 새로운 핵심 구성 요소로만 사전 학습된 SAM의 모델 가중치를 최대한 재사용합니다.

따라서 HQ-SAM은 무시할 수 있는 추가 모델 파라미터와 계산 비용으로 SAM에서 진화한 고품질 제로샷 세그멘테이션 모델로 간주할 수 있습니다.

그림 3: HQ-SAM은 고품질 마스크 예측을 위해 SAM에 HQ-Output 토큰과 전역-로컬 피처 퓨전을 도입했습니다. SAM의 제로 샷 기능을 유지하기 위해 경량의 HQ-Output 토큰은 SAM의 마스크 디코더를 재사용하고 융합된 HQ-Features로 포인트 단위 곱을 수행하기 위한 새로운 MLP 레이어를 생성합니다. 학습 중에 사전 학습된 SAM의 모델 파라미터를 수정하는 동안 HQ-SAM에서 학습 가능한 몇 가지 파라미터만 학습할 수 있습니다. 프롬프트 인코더는 명확하게 설명하기 위해 여기에서 생략됩니다. 오류 수정은 추론 중에 SAM의 출력 토큰과 HQ-Output 토큰의 예측된 로짓 사이의 직접적인 요소별 합으로 간단히 사용됩니다.

3.2.1 High-Quality Output Token

우리는 SAM의 마스크 품질을 개선하기 위한 효율적인 토큰 학습을 제안합니다.

그림 3과 같이 SAM의 원래 마스크 디코더 설계에서 출력 토큰 (DETR [3]의 객체 쿼리와 유사)은 동적 MLP 가중치를 예측한 다음 마스크 피쳐로 포인트 단위 곱을 수행하는 마스크 예측에 채택됩니다.

SAM의 coarse 마스크를 직접 입력으로 받는 대신 HQ-SAM에서 SAM의 마스크 품질을 향상시키기 위해 고품질 마스크 예측을 위한 HQ-Output 토큰과 새로운 마스크 예측 레이어를 소개합니다.

 

그림 3에서 SAM의 마스크 디코더를 재사용하고 수정함으로써 학습 가능한 새로운 HQ-Output 토큰 (1x256 크기)을 SAM의 출력 토큰 (4x256 크기) 및 프롬프트 토큰 (N_prompt x 256 크기)과 concat하여 SAM의 마스크 디코더에 대한 입력으로 사용합니다.

원래 출력 토큰과 유사하게 각 어텐션 레이어에서 HQ-Output 토큰은 먼저 다른 토큰과 셀프 어텐션을 수행한 다음 피쳐 업데이트를 위해 token-to-image 및 역 image-to-token 어텐션을 모두 수행합니다.

HQ-Output 토큰은 각 디코더 레이어에서 다른 토큰이 공유하는 포인트 단위 MLP를 사용합니다.

두 개의 디코더 레이어를 통과한 후 업데이트된 HQ-Output 토큰은 전역 이미지 컨텍스트, 프롬프트 토큰의 중요 기하학적/유형 정보 및 다른 출력 토큰의 숨겨진 마스크 정보에 액세스할 수 있습니다.

마지막으로, 업데이트된 HQ-Output 토큰에서 동적 컨볼루션 커널을 생성하기 위해 새로운 3-레이어 MLP를 추가한 다음 고품질 마스크 생성을 위해 융합된 HQ 피쳐로 공간적으로 포인트 단위의 곱을 수행합니다.

 

SAM을 직접 파인튜닝하거나 대규모 정제 후 네트워크를 추가하는 대신, SAM의 출력 토큰의 마스크 오류를 수정하기 위해 HQ-Output 토큰과 관련 3-레이어 MLP만 학습할 수 있도록 허용합니다.

이는 기존의 고품질 세그멘테이션 모델과는 완전히 다릅니다 [19, 6, 20, 22].

광범위한 실험을 통해 효율적인 토큰 학습의 두 가지 주요 장점을 확인했습니다:
 1) 이 전략은 SAM의 마스크 품질을 크게 개선하는 동시에 원래 SAM에 비해 무시할 수 있는 파라미터만 도입하여 HQ-SAM 학습을 매우 시간적이고 데이터 효율적으로 만듭니다;

 2) 학습된 토큰 및 MLP 레이어는 특정 데이터 세트의 주석 편향을 마스킹하는 데 과적합되지 않으므로 치명적인 지식을 잊지 않고 새로운 이미지에서 SAM의 강력한 제로 샷 세그멘테이션 기능을 유지합니다.

 

3.2.2 Global-local Fusion for High-quality Features

또한 매우 정확한 세분화를 위해서는 풍부한 전역 시맨틱 컨텍스트와 로컬 경계 세부 정보를 모두 갖춘 입력 이미지 피쳐가 필요합니다.

마스크 품질을 더욱 향상시키기 위해 SAM의 마스크 디코더 피쳐에서 상위 레벨의 객체 컨텍스트와 하위 레벨의 경계/엣지 정보를 모두 강화합니다.

SAM의 마스크 디코더 피쳐를 직접 사용하는 대신 SAM 모델의 여러 단계에서 피쳐를 추출하고 융합하여 새로운 고품질 피쳐 (HQ-Features)를 구성합니다:
 1) 보다 일반적인 이미지 에지/경계 세부 사항을 캡처하는 공간 모양 64×64의 SAM ViT 인코더의 초기 레이어 로컬 피쳐 [12].

구체적으로, 우리는 ViT 인코더의 첫 번째 전역 어텐션 블록 뒤에 이 피쳐를 추출하며, ViT-Large 기반 SAM의 경우 총 24개 블록에 대한 6번째 블록 출력입니다;

 2) 더 많은 전역 이미지 컨텍스트 정보를 가진 모양 64×64의 SAM ViT 인코더의 마지막 레이어 글로벌 피쳐;

 3) 출력 토큰이 공유하는 크기 256×256의 SAM 마스크 디코더의 마스크 피쳐에는 강력한 마스크 모양 정보가 포함되어 있습니다.

 

그림 3과 같이 입력된 HQ-Features를 얻기 위해 먼저 초기 레이어 및 최종 레이어 인코더 피쳐를 전치 컨볼루션에 의해 공간 크기 256×256으로 업샘플링합니다.

그런 다음 간단한 컨볼루션 처리 후 요소별 방식으로 이 세 가지 유형의 피쳐를 요약합니다.

우리는 이 전역-로컬 피쳐 퓨전이 간단하면서도 효과적이며 작은 메모리와 계산 부담으로 세부적으로 보존되는 세그멘테이션 결과를 생성한다는 것을 보여줍니다.

또한 실험 섹션에서 각 피쳐 소스의 효과에 대해 자세히 ablation을 수행합니다 (표 3).

표 3: HQ-Features 소스에 대한 ablation 연구. 초기 레이어는 ViT 인코더의 첫 번째 전역 어텐션 블록 이후의 기능을 나타내며, 최종 레이어는 마지막 ViT 블록의 출력을 나타냅니다. 네 개의 HQ 데이터 세트는 DIS (val) [35], ThinObject-5K (test) [29], COIFT [29] 및 HR-SOD [51]를 나타냅니다.

3.3 Training and Inference of HQ-SAM

Training Data Construction

데이터 효율적인 방식으로 HQ-SAM을 학습하기 위해 SA-1B [21]에 대한 추가 학습 대신 44,320개의 매우 정확한 이미지 마스크 주석이 포함된 새로운 학습 데이터 세트 HQSeg-44K를 구성합니다.

공개된 SA-1B 데이터 세트에는 자동으로 생성된 마스크 라벨만 포함되어 있어 복잡한 구조를 가진 물체에 대한 매우 정확한 수동 주석이 누락되어 있다는 점에 유의합니다.

주석의 난이도로 인해 HQSeg-44K는 DIS [35](train 세트), ThinObject-5K [29](train 세트), FSS-1000 [26], ECSSD [38], MSRA-10K [8], 매우 세분화된 마스크 라벨이 포함된 DUT-OMRON [46]을 활용하며, 각 데이터에는 평균 7.4K 마스크 라벨이 포함되어 있습니다.

HQ-SAM을 강력하고 새로운 데이터에 일반화하기 위해 HQSeg-44K는 1,000개 이상의 다양한 시맨틱 클래스를 포함합니다.

우리는 추가 분석에서 HQSeg-44K 학습과 SA-1B [21]의 44K 랜덤으로 샘플링된 이미지 및 마스크를 비교함으로써 HQSeg-44K를 사용할 때의 이점을 보여줍니다.

 

HQ-SAM Training

학습 중에는 사전 학습된 SAM 모델의 모델 파라미터를 수정하는 동시에 제안된 HQ-SAM만 학습 가능하게 만듭니다.

따라서 학습 가능한 파라미터에는 HQ-Output 토큰, 관련 3-레이어 MLP 및 HQ-피쳐 퓨전을 위한 세 가지 간단한 컨볼루션만 포함됩니다.

SAM은 유연한 세그멘테이션 프롬프트를 위해 설계되었기 때문에 바운딩 박스, 랜덤으로 샘플링된 포인트, coarse 마스크 입력을 포함한 혼합 유형의 프롬프트를 샘플링하여 HQ-SAM을 학습합니다.

GT 마스크의 경계 영역에 랜덤 가우시안 노이즈를 추가하여 이러한 저하된 마스크를 생성합니다.

다양한 객체 스케일에 대한 일반화를 위해 대규모 지터링 [13]을 사용합니다.

우리는 0.001의 학습률을 사용하고 12 에포크 동안 HQ-SAM을 학습하며, 10 에포크 이후에는 학습률이 떨어집니다.

우리는 총 배치 크기가 32개인 8개의 Nvidia GeForce RTX 3090 GPU를 학습하며, 16.6K iterations를 위해 학습하는 데 4시간이 걸립니다.

자세한 내용은 보충자료를 참조하세요.

 

HQ-SAM Inference.

우리는 SAM의 동일한 추론 파이프라인을 따르지만 고품질 마스크 예측으로 HQ-Output 토큰의 마스크 예측을 사용합니다.

추론하는 동안 공간 해상도 256×256에서 마스크 보정을 위해 SAM 마스크 (Output 토큰 기준)와 예측 마스크 (HQ-Output 토큰 기준)의 예측 로짓을 합산합니다.

그런 다음 보정된 마스크를 원래 해상도 1024×1024로 업샘플링하여 출력합니다.

표 1: ViT-L 기반 SAM [11]과 HQ-SAM의 학습 및 추론 비교. HQ-SAM은 모델 파라미터가 0.5% 미만 증가하고 원래 속도의 96%에 도달하는 등 SAM에 무시할 수 있는 추가 계산 부담을 가져다줍니다. SAM-L은 180,000회 반복을 위해 128개의 A100 GPU에서 학습됩니다. SAM-L을 기반으로 4시간 동안 8개의 RTX3090 GPU에서 HQ-SAM을 학하기만 하면 됩니다.

SAM vs. HQ-SAM on Training and Inference.

표 1에서는 HQ-SAM과 SAM 간의 자세한 학습 및 추론 비교를 보고합니다.

HQ-SAM은 훨씬 더 나은 세그멘테이션 품질을 제공하지만, 8개의 RTX3090 GPU로 4시간밖에 걸리지 않는 매우 빠르고 저렴합니다.

또한 HQ-SAM은 가볍고 효율적이어서 모델 파라미터, GPU 메모리 사용량 및 이미지당 추론 시간이 무시할 수 없을 정도로 증가합니다.

 

 

 

4   Experiments

4.1 Experimental Setup

Datasets

학습을 위해 섹션 3.3에 설명된 컴파일된 HQSEG-44K를 사용합니다.

HQ-SAM의 세그멘테이션 성능을 종합적으로 평가하기 위해 4개의 매우 세분화된 세그멘테이션 데이터 세트를 포함한 광범위한 데이터 세트에 대한 실험을 수행합니다: DIS [35](검증 세트), ThinObject-5K [29](테스트 세트), COIFT [29] 및 HR-SOD [51].

또한 제로 샷 설정에서 다양한 이미지/비디오 기반 세그멘테이션 작업에서 인기 있고 도전적인 벤치마크를 실험합니다.

또한 COCO [31], SGinW [58], UVO [42], LVIS [14], HQ-YTVIS [20] 및 BIG [6]과 같은 다양한 이미지/비디오 기반 세그멘테이션 작업에서 실험합니다.

 

Evaluation Metrics

마스크 품질 개선을 정확하게 정량화하기 위해 표준 마스크 AP 또는 마스크 mIoU만 사용하는 대신 경계 메트릭 mBIoU와 경계 AP_B도 채택합니다 [5].

또한 UVO [42] 및 LVIS [14]에서 기본 확장 비율을 0.02에서 0.01로 조정하여 더 엄격한 AP_B^strict에 대해 평가합니다.

세분화된 네 가지 세그멘테이션 데이터 세트 [35, 29, 51]에 대한 평가를 위해 평균 경계 및 마스크 IoU도 보고합니다.

HQ-YTVIS [20]의 비디오 인스턴스 세그멘테이션 평가에는 Tube Boundary AP^B와 Tube Mask AP^M을 모두 사용합니다.

 

4.2 Ablation Experiments

우리는 제안된 HQ-Output 토큰과 HQ-Features가 특히 제로 샷의 경우 세그멘테이션 품질에 미치는 영향을 분석하여 ViT-Large를 백본으로 사용하여 제안된 HQ-SAM에 대한 상세한 ablation 연구를 수행합니다.

ablation 실험을 위해 앞서 언급한 네 가지 매우 정확한 세그멘테이션 데이터 세트, 즉 DIS (val) [35], ThinObject-5K (test) [29], COIFT [29] 및 HR-SOD [51]과 COCO val 세트를 사용합니다.

표 2: 4개의 매우 세분화된 세그멘테이션 데이터 세트에 대한 HQ-Output 토큰의 ablation 연구. 우리는 GT 마스크에서 변환된 상자를 상자 프롬프트 입력으로 채택합니다. 기본적으로 전체 GT 마스크 loss를 계산하여 HQ Output-Token의 예측된 마스크를 학합니다.

Effect of the High-Quality Output Token.

HQ-SAM은 고품질 마스크 예측을 위해 HQ-Output 토큰을 사용합니다.

표 2는 HQ-Output 토큰을 기본 SAM 및 더 나은 컨텍스트 학습을 위해 SAM의 마스크 디코더에 학습 가능한 벡터로 3개의 컨텍스트 토큰 [56]을 추가하는 등 기존의 프롬프트/토큰 학습 전략과 비교합니다.

컨텍스트 토큰을 사용하는 것과 비교했을 때, HQ-Output 토큰은 DIS에서 13.2mBIoU, COIFT 데이터 세트에서 2.7mBIoU로 4개의 고품질 데이터 세트에서 지속적으로 더 큰 성능 향상을 가져옵니다.

또한 원래 SAM의 출력 토큰과 HQ-Output 토큰 사이에서 스케일링된 도트 곱 [18]을 계산하거나 마스크 loss를 경계 영역 내부로만 제한하는 등 다른 ablation 실험 변형을 수행한 결과, 4개의 평가 데이터 세트에서 평균 성능이 약간 감소하는 것을 확인했습니다.

SAM과 비교했을 때, HQ-SAM은 DIS의 mBIoU 벤치마크를 52.8점에서 70.4점으로 크게 개선하고 HRSOD 데이터 세트에서도 3.8점에 대한 MBIoU를 촉진합니다.

 

Ablation on the Global-local Fusion for HQ-Features

표 3은 융합 과정에서 각 피쳐 구성 요소의 중요도를 HQ-Features에서 분석하는 전역-로컬 융합의 효과를 표로 정리한 것입니다.

SAM의 마스크 디코더 피쳐를 직접 사용하는 것과 비교했을 때, 전체 HQ-Features는 4개의 매우 정확한 세그멘테이션 데이터 세트에서 260mBIoU의 명백한 이점을 제공합니다.

전역 컨텍스트가 포함된 최종 레이어 ViT 인코더 피쳐는 mBIoU를 80.1에서 81.3으로 증가시키는 반면, 로컬 세부 정보가 포함된 초기 레이어 피쳐는 mBIoU를 81.8로 더욱 촉진합니다.

또한 융합을 위한 피쳐 피라미드를 구축하기 위해 제안된 전역-로컬 융합을 기존 FPN으로 대체한 결과, 89.1에서 87.4mIoU로 감소하는 등 성능이 떨어지는 것으로 나타났습니다.

표 4: 모델 파인튜닝 또는 추가 개선 후 [6]과의 비교. COCO 데이터 세트의 경우, COCO 데이터 세트에서 학습된 SOTA 검출기 FocalNet-DINO [53]를 박스 프롬프트 생성기로 사용합니다.

Comparison to SAM finetuning or post-refinement

표 4에서 효율적인 토큰 적응 전략을 SAM의 마스크 디코더를 직접 파인튜닝하거나 마스크 예측을 위한 출력 토큰만 파인튜닝하는 등 추가적인 사후 정제 네트워크 [6] 및 모델 파인튜닝과 비교합니다.

사후 정제 네트워크를 추가하면 4개의 HQ 데이터 세트에서 평균 성능이 제한적으로 증가하지만 COCO에서는 매우 낮은 성능으로 이어져 과적합이 강하다는 것을 알 수 있습니다.

또한 SAM의 마스크 디코더를 직접 파인튜닝할 때도 유사한 현상을 관찰할 수 있습니다.

SAM의 출력 토큰만 파인튜닝하면 4개의 HQ 데이터 세트와 COCO의 개선으로 치명적인 망각 문제를 해결할 수 있습니다.

그러나 점진적인 개선은 여전히 우리에 비해 훨씬 작습니다.

HQ-SAM은 COCO에서 1.1 AP_B를 개선하는 반면 출력 토큰 파인튜닝은 0.4 AP_B만 증가시킵니다.

이는 SAM의 제로 샷 기능을 보존하면서 데이터 효율적인 학습에서 HQ-SAM의 이점을 보여줍니다.

그림 4: 느슨한 것부터 엄격한 것까지 다양한 BIoU 임계값을 사용하여 제로 샷 프로토콜에서 COIFT [29]와 HRSOD [51]의 Recall 비율 비교. 느슨한 BIoU 임계값 0.5에서 매우 엄격한 임계값 0.9까지 달라질 때 SAM과 HQ-SAM 사이의 성능 격차가 크게 증가하여 매우 정확한 세그멘테이 마스크를 예측하는 데 있어 HQ-SAM의 이점을 보여줍니다.

Accuracy analysis at different BIoU thresholds

그림 4는 느슨한 것에서 엄격한 BIoU 임계값까지 SAM과 HQ-SAM을 비교합니다.

우리는 x축에 표시된 임계값보다 큰 BIoU를 갖는 마스크 예측의 비율을 플롯합니다.

COIFT [29]와 HRSOD [51] 모두에서 엄격한 IoU 임계값과 큰 성능 격차는 매우 정확한 마스크를 예측하는 데 있어 HQ-SAM의 이점을 명확하게 입증합니다.

그러나 느슨한 임계값인 0.5에서도 HQ-SAM은 SAM의 잘못된 예측 횟수를 COIFT의 경우 81%, HRSOD의 경우 69% 감소시킵니다.

이는 HQ-SAM 예측이 훨씬 더 정확할 뿐만 아니라 어려운 경우에도 더 강력하다는 것을 보여줍니다.

 

4.3 Zero-shot Comparison with SAM

우리는 SGinW [58], COCO [31], UVO [42], LVIS [14], HQ-YTVIS [20], BIG [6], COIFT [29] 및 HR-SOD [51]를 포함한 7개 벤치마크에서 HQ-SAM과 SAM 간의 광범위한 제로 샷 전송 비교를 수행했으며, 여기서 HQ-SAM은 bells and whistles 없이도 SAM을 능가하며 소규모 데이터 세트로도 그 효능과 지속적인 일반화 능력을 입증했습니다.

 

Results on the SGinW Benchmark

박스 프롬프트와 동일한 Grounded-DINO [32]를 장착하여 Grounded-SAM에서 SAM을 HQ-SAM으로 대체하여 실험을 수행한 결과, 제로 샷 트랙에서 Segmentation in the Wild (SGinW) 경쟁 1위를 차지했습니다.

SGinW에는 평가를 위한 25개의 zero-shot in-the-wild segmentation datasets와 49.6개의 평균 AP를 가진 Grounded-HQ-SAM이 포함되어 있으며 동일한 검출기를 사용하여 Grounded-SAM을 분명히 능가한다는 점에 유의하세요.

표 5: UVO [42]에서 제로 샷 오픈 월드 인스턴스 세그멘테이션 결과 비교. 우리는 COCO 데이터 세트에서 학습된 FocalNet-DINO [53]를 박스 프롬프트 생성기로 사용합니다. ∗^strict는 더 좁은 임계값을 가진 경계 영역을 나타냅니다.

Zero-Shot Open-world Segmentation

오픈월드 환경에서 제로샷 세그멘테이션 결과를 평가하기 위해 표 5에서 다양하고 밀도가 높은 객체 마스크 주석을 사용하여 어려운 UVO [42] 벤치마크에서 SAM과 HQ-SAM을 비교합니다.

사전 학습된 객체 검출기 [53]를 상자 프롬프트 입력과 동일하게 사용함으로써 HQ-SAM은 SAM보다 1.3 AP_B^strict 및 2.6 AP_B50^strict를 개선합니다.

표 6: 다양한 유형의 입력 프롬프트를 사용하여 고품질 BIG [6] 벤치마크의 테스트 세트에 대한 제로 샷 세그멘테이션 결과 비교. 우리는 coarse 마스크 프롬프트를 생성하기 위해 PSPNet [55]을 사용합니다.

Zero-Shot Segmentation on High-resolution BIG Dataset

표 6에서는 고해상도 BIG 벤치마크 [6]에서 SAM과 HQ-SAM 간의 제로샷 세그멘테이션 품질을 GT 오브젝트 박스 또는 제공된 coarse 마스크 입력을 포함한 두 가지 유형의 프롬프트와 비교합니다.

HQ-SAM은 다양한 유형의 프롬프트를 사용하여 분명한 이점을 제공하며 SAM을 지속적으로 능가하며 부분 경계 오류가 있는 coarse 마스크 프롬프트에 훨씬 더 강력합니다 (PSPNet 제공 [55]).

표 7: COCO [31]와 LVISv1 [14]의 제로샷 인스턴스 세그멘테이션 결과 비교. COCO 데이터 세트의 경우, COCO에서 학습된 FocalNet-DINO [53] 검출기를 사용합니다. LVIS의 경우, LVIS 데이터 세트에서 학습된 ViTdet-H [28]를 박스 프롬프트 생성기로 채택합니다. SAM의 경우 ViT-L 백본과 박스 프롬프트를 사용합니다. 우리는 경계 영역의 마스크 품질을 개선하면서 원본 SAM의 제로샷 세그멘테이션 기능을 유지합니다.

Zero-shot Instance Segmentation on COCO and LVIS

표 7에서는 또한 이 두 데이터 세트의 학습된 검출기에서 생성된 상자 프롬프트를 공급하여 인기 있는 COCO 및 LVIS 벤치마크에서 각각 HQ-SAM을 평가합니다.

HQ-SAM은 COCO에서 1.1 AP_B, LVIS에서 0.7 AP_B75^strict로 SAM을 지속적으로 능가하여 HQ-SAM 학습 과정에서 향상된 마스크 품질과 잘 보존된 제로 샷 세그멘테이션 능력을 보여줍니다.

그림 5: COIFT [29] (제로 샷) 및 DIS [35] val 세트에서 다양한 수의 입력 포인트를 사용하여 대화형 세그멘테이션 결과를 비교합니다. HQ-SAM은 다양한 포인트 수에서 SAM을 지속적으로 능가하며, 상대적 개선은 덜 즉각적인 모호성으로 더 분명합니다.

Point-based Interactive Segmentation Comparison

대화형 포인트 프롬프트가 있는 HQ-SAM의 세그멘테이션 성능을 조사하기 위해 그림 5에서 COIFT [29](제로 샷) 및 DIS [35] val 세트에서 다양한 수의 입력 포인트를 사용하여 HQ-SAM과 SAM을 비교합니다.

HQ-SAM은 두 데이터 세트 모두에서 서로 다른 포인트 프롬프트로 SAM을 지속적으로 능가합니다.

더 많은 입력 포인트 정보로 인해 프롬프트에 객체 모호성이 적을 때 상대적인 성능 증가가 더 중요하다는 점에 유의합니다(1개의 플러스 포인트에서 10개의 플러스 포인트 + 5개의 마이너스 포인트로 증가).

 

Zero-shot High-quality Video Instance Segmentation

이미지 기반 세그멘테이션 평가를 수행하는 것 외에도 정확하게 주석이 달린 HQ-YTVIS 벤치마크 [20]에 대한 비디오 인스턴스 세그멘테이션 결과 비교도 수행합니다.

사전 학습된 Mask2Former [4]를 비디오 상자 프롬프트로 가져와 마스크 예측을 위해 SAM과 HQ-SAM에 입력합니다.

표 8에서 HQ-SAM은 3.8점의 Tube Boundary AP^B 및 2.9점의 Tube Mask AP^M의 놀라운 이득을 달성했습니다.

표 8: 매우 정확하게 레이블이 지정된 HQ-YTVIS [20] 벤치마크의 테스트 세트에 대한 제로샷 비디오 인스턴스 세그멘테이션 비교. 객체 연관 예측을 재사용하면서 YTVIS [47]에서 사전 학습된 Swin-L 기반 Mask2Fromer [4]를 박스 프롬프트 입력으로 활용합니다.
그림 6: 마지막 디코더 레이어에서 SAM의 원본 토큰과 HQ-Output 토큰의 크로스 어텐션. HQ-Token은 원본 토큰이 놓친 경계 및 얇은 구조 영역에 어텐드합니다.

Visualization of HQ-Output Token

그림 6에서는 마스크 디코더의 마지막 token-to-image 레이어에서 크로스 어텐셥 맵에 대한 HQ-Output 토큰과 SAM의 공통 출력 토큰을 시각적으로 비교합니다.

우리는 HQ-Output 토큰이 공통 토큰에 의해 누락된 경계 및 얇은 구조 영역에 주목하는 것을 관찰합니다.

그림 7: 동일한 레드 박스 또는 포인트 프롬프트가 주어졌을 때 제로 샷 전송 설정에서 SAM (위쪽 행)과 HQ-SAM (아래쪽 행)의 시각적 결과 비교. HQ-SAM은 훨씬 더 상세하게 보존된 결과를 생성하고 구멍이 뚫린 마스크 오류도 해결합니다.

Zero-shot Visual Results Comparison

그림 7에서 우리는 제로 샷 전송 설정에서 HQ-SAM과 SAM을 정성적으로 비교하는데, 여기서 HQ-SAM은 SAM의 마스크 세부 사항을 크게 홍보하고 강화된 시맨틱 컨텍스트에 의해 깨진 구멍이나 큰 부분 오류의 마스크를 개선합니다.

자세한 시각적 비교는 보충자료를 참조하세요.

표 9: ViT-L 기반 SAM과 동일한 HQSeg-44K를 사용하여 SAM의 인코더에서 Adapter Tuning [48] 또는 LoRA [17] 사용과의 비교. COCO 데이터 세트의 경우, COCO 데이터 세트에서 학습된 SOTA 검출기 FocalNet-DINO [53]를 박스 프롬프트 생성기로 사용합니다.

Comparison with Adapter Tuning Strategy

표 9에서는 효율적인 토큰 적응 전략을 최신 Adapter Tuning [48] 및 LoRA [17]과 비교하기도 합니다.

인코더 튜닝을 위해 SAM의 인코더 ViT 레이어에 경량 어댑터를 도입하고, 이 전략이 과적합으로 이어지고 COCO에서 제로샷 성능이 33.3에서 29.6으로 감소한다는 것을 확인했습니다.

이는 주로 SAM의 디코더에 초점을 맞추고 SAM의 인코더를 동결하기 위한 설계 선택을 검증합니다.

 

Mobile Efficiency

HQ-SAM은 무시할 수 있는 오버헤드로 SAM의 마스크 품질을 크게 향상시키지만, SAM의 무거운 ViT 인코더를 공유하므로 비디오 처리에서 실시간 속도를 달성할 수 없습니다.

효율적인 모바일 배포를 위해 MobileSAM [52]에서 제공하는 작은 ViT 이미지 인코더를 기반으로 Light HQ-SAM을 제안합니다.

그림 2에서 41.2FPS의 실행 속도를 달성한 Light HQ-SAM은 무시할 수 있는 추가 비용, 즉 모델 파라미터가 1.7MB 증가하면서 MobileSAM의 제로샷 COCO AP를 44.3에서 45.0으로 개선했습니다.

 

 

 

5   Conclusion

우리는 원본 SAM에 무시할 수 있는 오버헤드를 도입하여 최초의 고품질 제로 샷 세그멘테이션 모델인 HQ-SAM을 제안합니다.

고품질 마스크 예측을 위해 원본 SAM의 출력 토큰을 대체하기 위해 HQ-SAM의 경량 고품질 출력 토큰을 제안합니다.

44K개의 고정확도 마스크에 대해서만 학습한 후, HQ-SAM은 11억 개의 마스크에 대해 학습한 SAM의 마스크 예측 품질을 크게 향상시킵니다.

제로 샷 전송 평가는 다양한 객체와 장면에 걸쳐 이미지 및 비디오 작업 모두에 걸쳐 8개의 세그멘테이션 벤치마크에 대해 수행됩니다.

우리의 연구는 데이터 효율적이고 계산 비용이 저렴한 방식으로 SAM과 유사한 기본 세그멘테이션 모델을 활용하고 확장하는 방법에 대한 적시 인사이트를 제공합니다.