Depth Anything V2

Depth Anything V2

2025. 2. 12. 14:55ㆍDeep Learning

Depth Anything V2

Lihe Yang, Bingyi Kang, Zilong Huang, Zhen Zhao, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao

Abstract

이 연구는 Depth Anything V2를 제시합니다.

화려한 기법을 추구하지 않고, 강력한 단안 뎁스 추정 모델을 구축하기 위한 중요한 결과를 밝히는 것을 목표로 합니다.

특히, V1 [89]과 비교했을 때, 이 버전은 세 가지 주요 방법을 통해 훨씬 더 정밀하고 견고한 뎁스 예측을 제공합니다: 1) 모든 라벨링된 실제 이미지를 합성 이미지로 대체하고, 2) teacher 모델의 용량을 확장하고, 3) 대규모 pseudo 라벨링된 실제 이미지를 통해 student 모델을 가르칩니다.

Stable Diffusion 기반의 최신 모델 [31]과 비교했을 때, 우리의 모델은 훨씬 더 효율적이고 (10배 이상 빠르며) 더 정확합니다.

우리는 다양한 규모의 모델 (25M에서 1.3B 매개변수까지)을 제공하여 광범위한 시나리오를 지원합니다.

강력한 일반화 능력 덕분에, 우리는 메트릭 뎁스 레이블을 사용하여 이를 파인튜닝하여 메트릭 뎁스 모델을 얻습니다.

우리의 모델 외에도, 현재 테스트 세트의 제한된 다양성과 빈번한 노이즈를 고려하여, 정확한 주석과 다양한 장면을 포함한 다목적 평가 벤치마크를 구성하여 향후 연구를 용이하게 합니다.

1 Introduction

Monocular depth estimation (MDE)은 광범위한 다운스트림 작업에서 근본적인 역할을 하기 때문에 점점 더 많은 주목을 받고 있습니다.

정밀한 뎁스 정보는 3D 재구성 [47, 32, 93], 내비게이션 [82], 자율 주행 [80]과 같은 고전적인 응용 분야에서 유리할 뿐만 아니라 이미지 [101], 비디오 [39], 3D 장면 [87, 64, 68]을 포함한 AI 생성 콘텐츠에서도 선호됩니다.

따라서 최근에는 오픈 월드 이미지를 처리할 수 있는 수많은 MDE 모델 [56, 7, 95, 26, 38, 31, 89, 88, 25, 20, 52, 28]이 등장하고 있습니다.

그림 2: Depth Anything V1의 견고함 (1열, 오해의 소지가 있는 방 배치)과 Marigold의 세밀한 디테일 (2열, 얇은 농구 네트).

모델 아키텍처 측면에서 이러한 작업은 두 그룹으로 나눌 수 있습니다.

한 그룹 [7, 6, 89, 28]은 BEiT [4] 및 DINOv2 [50]과 같은 차별적 모델을 기반으로 하고, 다른 그룹 [31, 20, 25]는 Stable Diffusion (SD) [59]과 같은 생성 모델을 기반으로 합니다.

그림 2에서는 두 범주에서 각각 두 가지 대표적인 작업을 비교합니다: Depth Anything [89]은 변별력 모델로, Marigold [31]는 생성 모델로 사용됩니다.

Marigold는 디테일 모델링에서 우수한 반면, Depth Anything은 복잡한 장면에 대해 더 견고한 예측을 제공한다는 것을 쉽게 알 수 있습니다.

또한 표 1에 요약된 바와 같이 Depth Anything은 Marigold보다 더 효율적이고 가벼우며 선택할 수 있는 스케일이 다릅니다.

그러나 Depth Anything은 Marigold의 강점인 투명한 물체와 반사에 취약합니다.

이 연구에서는 이러한 모든 요소를 고려하여 표 1에 나열된 모든 강도를 달성할 수 있는 단안 뎁스 추정을 위한 보다 유능한 파운데이션 모델을 구축하는 것을 목표로 합니다:

• 복잡한 장면에 대한 견고한 예측을 제공합니다, 여기에는 복잡한 레이아웃, 투명한 물체 (예: 유리), 반사 표면 (예: 거울, 스크린) [15] 등이 포함되지만 이에 국한되지 않습니다.
• 예측된 뎁스 맵에는 얇은 물체 (예: 의자 다리) [42], 작은 구멍 등을 포함하지만 이에 국한되지 않는 미세한 세부 사항 (Marigold의 세부 사항과 비교 가능)이 포함되어 있습니다.
• 다양한 모델 스케일과 추론 효율성을 제공하여 광범위한 응용 프로그램을 지원합니다 [82].
• 다운스트림 작업으로 전환 (즉, 파인튜닝)할 수 있을 만큼 일반화 가능합니다, 예를 들어, Depth Anything V1은 3차 MDEC [72]의 모든 주요 팀을 위한 사전 학습 모델로 사용됩니다.

MDE의 특성이 차별적인 과제이기 때문에, 우리는 Depth Anything V1 [89]부터 시작하여 강점을 유지하고 약점을 수정하는 것을 목표로 합니다.

흥미롭게도, 이러한 도전적인 목표를 달성하기 위해서는 화려하거나 정교한 기술을 개발할 필요가 없다는 것을 보여줄 것입니다.

가장 중요한 부분은 여전히 데이터입니다.

이는 대규모 라벨이 없는 데이터를 활용하여 데이터 확장 속도를 높이고 데이터 커버리지를 확장하는 V1의 데이터 기반 동기와 동일합니다.

이 연구에서는 먼저 라벨이 있는 데이터 설계를 다시 검토한 후 라벨이 없는 데이터의 주요 역할을 강조할 것입니다.

먼저 아래에서 세 가지 주요 결과를 제시합니다.

다음 세 섹션에서 자세히 설명하겠습니다.

Q1 [섹션 2]: MiDaS의 대략적인 뎁스나 Depth Anything 중 어느 것이 차별적 모델링 자체에서 비롯된 것인지? 세밀한 디테일을 위해 무거운 디퓨전 기반 모델링 방식을 채택해야 하나요?
A1: 아니요, 효율적인 판별 모델도 매우 세밀한 디테일을 생성할 수 있습니다. 가장 중요한 수정은 라벨이 붙은 모든 실제 이미지를 정밀한 합성 이미지로 대체하는 것입니다.
Q2 [섹션 3]: A1에서 언급했듯이 합성 이미지가 이미 실제 이미지보다 확실히 우수하다면, 대부분의 이전 작업이 여전히 실제 이미지를 고수하는 이유는 무엇입니까?
A2: 합성 이미지에는 단점이 있는데, 이는 이전 패러다임에서 다루기에 사소하지 않습니다.
Q3 [섹션 4]: 합성 이미지의 단점을 피하고 장점을 증폭시키는 방법은 무엇입니까?
A3: 합성 이미지로만 학습된 teacher 모델을 확장한 다음, 대규모 pseudo 라벨이 붙은 실제 이미지를 통해 (작은) student 모델을 가르칩니다.

탐색 후, 우리는 더 유능한 MDE 파운데이션 모델을 성공적으로 구축했습니다.

그러나 현재 테스트 세트 [70]는 MDE 모델의 진정한 강점을 반영하기에는 너무 노이즈가 많다는 것을 알게 되었습니다.

따라서, 우리는 정밀한 주석과 다양한 장면을 포함한 다재다능한 평가 벤치마크를 추가로 구성합니다 (섹션 6).

2 Revisiting the Labeled Data Design of Depth Anything V1

제로샷 MDE 분야에서 MiDaS [56, 7]의 선구적인 연구를 바탕으로, 최근 연구들은 추정 성능을 향상시키기 위해 대규모 학습 데이터셋을 구축하는 경향이 있습니다.

특히, Depth Anything V1 [89], Metric3D V1 [95] 및 V2 [28], 그리고 ZeroDepth [26]은 학습을 위해 각각 1.5M, 8M, 16M, 15M 장의 라벨 이미지를 수집했습니다.

그러나 이러한 경향을 비판적으로 검토한 연구는 거의 없습니다: 이렇게 많은 양의 라벨이 붙은 이미지가 정말 유리할까요?

답변하기 전에, 먼저 실제 라벨링된 이미지의 잠재적으로 간과될 수 있는 단점들을 살펴보겠습니다.

그림 3: "GT" 뎁스 레이블의 다양한 노이즈 (a: NYU-D [70], b: HRWSI [83], c: MegaDepth [37])와 해당 모델의 예측 오류 (d). 학습 중에 블랙 영역은 무시됩니다.

Two disadvantages of real labeled data.

1) 라벨 노이즈, 즉 뎁스 맵에서 부정확한 라벨.

다양한 수집 절차에 내재된 한계로 인해 실제 라벨링된 데이터는 필연적으로 부정확한 추정치를 포함할 수밖에 없습니다.

이러한 부정확성은 뎁스 센서가 투명한 물체의 뎁스를 정확하게 포착하지 못하는 경우 (그림 3a), 텍스처가 없거나 반복적인 패턴에 대한 스테레오 매칭 알고리즘의 취약성 (그림 3b), 동적 물체나 이상치를 처리하는 데 있어 SfM 방법의 취약한 특성 (그림 3c) 등 다양한 요인에서 발생할 수 있습니다.

2) 무시된 세부 사항.

이러한 실제 데이터셋은 뎁스 맵에서 특정 세부 사항을 간과하는 경우가 많습니다.

그림 4a에 나타난 바와 같이 나무와 의자의 뎁스 표현은 특히 coarse합니다.

이러한 데이터셋은 물체 경계나 얇은 구멍 내에서 세밀한 supervision을 제공하지 못해 그림 4c의 중간에서 볼 수 있듯이 뎁스 예측이 과도하게 원활하지 않습니다.

따라서 이러한 노이즈가 있는 라벨은 너무 신뢰할 수 없기 때문에 학습된 모델도 유사한 실수를 합니다 (그림 3d).

예를 들어, MiDaS와 Depth Anything V1은 Transparent Surface Challenge [54]에서 각각 25.9%와 53.5%의 낮은 점수를 얻었습니다 (자세한 내용은 표 12: 우리의 V2는 제로샷 방식으로 83.6%의 경쟁력 있는 점수를 달성했습니다).

표 12: NTIRE 2024 투명 표면 챌린지 [54]의 다양한 모델 및 전략에 따른 결과.

그림 4: 실제 이미지(a)와 합성 이미지(b)의 뎁스 레이블 및 해당 모델 예측(c). 합성 이미지의 레이블은 매우 정밀하며, 학습된 모델도 마찬가지입니다.

위의 문제를 극복하기 위해 우리는 학습 데이터를 변경하고 주석이 훨씬 더 잘 달린 이미지를 찾기로 결정했습니다.

최근 SD 기반 연구 [31, 20, 25]에서 영감을 받아, 완전한 뎁스 정보를 가진 합성 이미지를 학습에 독점적으로 활용하는 여러 연구에서 영감을 받아, 합성 이미지의 라벨 품질을 광범위하게 점검하고 위에서 논의된 단점을 완화할 수 있는 잠재력을 주목합니다.

Advantages of synthetic images.

뎁스 라벨은 두 번 접으면 매우 정밀합니다.

1) 모든 세부 사항(예: 경계, 얇은 구멍, 작은 물체 등)은 올바르게 라벨링됩니다.

그림 4b에서 볼 수 있듯이 모든 얇은 메쉬 구조와 잎에도 실제 뎁스로 주석이 달려 있습니다.

2) 그림 4b의 테이블 위 꽃병과 같이 도전적인 투명 물체와 반사 표면의 실제 뎁스를 얻을 수 있습니다.

한마디로 합성 이미지의 뎁스는 진정한 "GT"입니다.

그림 4c의 오른쪽에서는 합성 이미지로 학습된 MDE 모델의 세밀한 예측을 보여줍니다.

또한 그래픽 엔진 [58, 63, 53]에서 수집하여 실제 이미지와 비교했을 때 프라이버시나 윤리적 문제를 일으키지 않는 합성 학습 이미지를 빠르게 확대할 수 있습니다.

3 Challenges in Using Synthetic Data

합성 데이터가 그렇게 유리하다면 실제 데이터가 여전히 MDE를 지배하는 이유는 무엇일까요?

이 섹션에서는 합성 이미지가 현실에서 쉽게 사용되지 않도록 하는 두 가지 한계를 파악합니다.

Limitation 1.

합성 이미지와 실제 이미지 사이에는 분포 변화가 존재합니다.

현재 그래픽 엔진은 사실적인 효과를 추구하지만, 스타일과 색상 분포는 여전히 실제 이미지와 분명히 다릅니다.

합성 이미지는 색상이 너무 "깨끗하고" 레이아웃이 "질서 있는" 반면, 실제 이미지는 더 많은 랜덤성을 포함합니다.

예를 들어, 그림 4a와 4b의 이미지를 비교하면 합성 이미지를 즉시 구별할 수 있습니다.

이러한 분포 변화로 인해 두 데이터 소스가 유사한 레이아웃을 공유하더라도 모델이 합성 이미지에서 실제 이미지로 전환하는 데 어려움을 겪습니다 [57, 9].

Limitation 2.

합성 이미지는 장면 커버리지에 제한이 있습니다.

이 이미지들은 "living room"과 "street scene"과 같이 미리 정의된 고정 장면 유형을 가진 그래픽 엔진에서 반복적으로 샘플링됩니다.

따라서 Hypersim [58] 또는 Virtual KITTI [9] (그림 4b)의 놀라운 정밀도에도 불구하고, "crowded people"과 같은 실제 장면에서는 이를 학습한 모델이 잘 일반화될 것으로 기대할 수 없습니다.

반면, 웹 스테레오 이미지 (예: HRWSI [83])나 단안 비디오(예: MegaDepth [37])로 구성된 일부 실제 데이터셋은 광범위한 실제 장면을 다룰 수 있습니다.

그림 5: 합성에서 실제로의 전이에 대한 다양한 비전 인코더의 정성적 비교. 오직 DINOv2-G만이 만족스러운 예측을 제공합니다. 정량적 비교는 섹션 B.6을 참조하세요.

Therefore, synthetic-to-real transfer is non-trivial in MDE.

이 주장을 검증하기 위해, 우리는 BEiT [4], SAM [33], SynCLR [75], DINov2 [50]을 포함한 네 가지 인기 있는 사전 학습 인코더를 사용하여 합성 이미지만으로 MDE 모델을 학습하는 파일럿 연구를 수행했습니다.

그림 5에 나타난 바와 같이, 오직 DINov2-G만이 만족스러운 결과를 달성했습니다.

다른 모든 모델 시리즈와 더 작은 DINov2 모델들은 심각한 일반화 문제를 겪고 있습니다.

이 파일럿 연구는 가장 큰 DINov2 인코더를 기반으로 하고 고유한 일반화 능력에 의존하는 등 MDE에서 합성 데이터를 사용하는 간단한 해결책을 제시하는 것으로 보입니다.

그러나 이 단순한 해결책은 두 가지 문제에 직면해 있습니다.

첫째, DINov2-G는 실제 테스트 이미지의 패턴이 합성 학습 이미지에 거의 제시되지 않을 때 자주 실패 사례에 직면합니다.

그림 6에서 우리는 하늘 (구름)과 사람의 머리에 대한 잘못된 뎁스 예측을 명확히 관찰할 수 있습니다.

이러한 실패는 우리의 합성 학습 세트가 다양한 하늘 패턴이나 사람을 포함하지 않기 때문에 예상할 수 있습니다.

게다가 대부분의 응용 프로그램은 저장 및 추론 효율 측면에서 자원 집약적인 DINov2-G 모델 (1.3B)을 수용할 수 없습니다.

실제로, Depth Anything V1에서 가장 작은 모델은 실시간 속도 때문에 가장 널리 사용됩니다.

그림 6: 합성 이미지로만 학습했을 때 가장 성능이 뛰어난 DINOv2-G 모델의 실패 사례. 왼쪽: 하늘은 매우 멀어야 합니다. 오른쪽: 머리의 뎁스가 몸과 일치하지 않습니다.

일반화 문제를 완화하기 위해 일부 연구 [7, 89, 28]는 실제 이미지와 합성 이미지의 결합된 학습 세트를 사용합니다.

불행히도, 섹션 B.9에 나타난 바와 같이 실제 이미지의 coarse 뎁스 맵은 세밀한 예측에 파괴적입니다.

또 다른 잠재적인 해결책은 더 많은 합성 이미지를 수집하는 것인데, 이는 모든 실제 시나리오를 모방하는 그래픽 엔진을 만드는 것이 어렵기 때문에 지속 불가능합니다.

따라서 합성 데이터를 사용하여 MDE 모델을 구축하는 데 있어 신뢰할 수 있는 해결책이 요구됩니다.

이 논문에서는 우리는 이 격차를 해소하고 정확성과 견고성 딜레마를 균형 있게 해결하고, 모든 모델 규모에 적용할 수 있는 로드맵을 제시할 것입니다.

4 Key Role of Large-Scale Unlabeled Real Images

우리의 해결책은 간단합니다: 라벨이 없는 실제 이미지를 통합하는 것입니다.

DINOv2-G를 기반으로 한 가장 유능한 MDE 모델은 처음에는 고품질 합성 이미지만을 사용하여 학습됩니다.

그런 다음 라벨이 없는 실제 이미지에 pseudo 뎁스 레이블을 할당합니다.

마지막으로, 우리의 새로운 모델은 대규모 정확한 pseudo 라벨이 있는 이미지로만 학습됩니다.
Depth Anything V1 [89]은 라벨이 없는 대규모 실제 데이터의 중요성을 강조했습니다.

여기서는 합성 라벨 이미지라는 특수한 맥락에서 세 가지 관점에서 더 많은 세부 사항에서 그 중요성을 입증하겠습니다.

Bridge the domain gap.

앞서 언급했듯이 분포 변화로 인해 합성 학습 이미지에서 실제 테스트 이미지로 직접 전송하는 것은 어렵습니다.

하지만 추가 실제 이미지를 중간 학습 대상으로 활용할 수 있다면 프로세스의 신뢰성이 높아질 것입니다.

직관적으로 pseudo 레이블이 지정된 실제 이미지를 명시적으로 학습한 후 모델은 실제 데이터 분포에 더 익숙해질 수 있습니다.

수동으로 주석을 단 이미지에 비해 자동 생성된 pseudo 레이블은 그림 17에서 시각화된 것처럼 훨씬 더 세분화되고 완전합니다.

그림 17: 생성된 pseudo 뎁스 레이블의 시각화. 매우 다양한 이미지는 각각 BDD100K [97], Google Landmarks [81], ImageNet-21K [60], LSUN [98], Objects365 [65], Open Images V7 [35], Places365 [103] 및 SA-1B [33] 데이터셋에서 샘플링되었습니다.

Enhance the scene coverage.

합성 이미지의 다양성은 실제 장면을 충분히 포함하지 않고도 제한적입니다.

그럼에도 불구하고, 공개 데이터셋에서 대규모 라벨이 없는 이미지를 통합함으로써 수많은 별개의 장면을 쉽게 다룰 수 있습니다.

게다가, 합성 이미지는 사전 정의된 비디오에서 반복적으로 샘플링되기 때문에 매우 중복됩니다.

이에 비해 라벨이 없는 실제 이미지는 명확하게 구분되며 매우 유익합니다.

충분한 이미지와 장면에 대한 학습을 통해 모델은 더 강력한 제로샷 MDE 능력을 입증할 뿐만 아니라 (그림 6 "+ 라벨이 없는 실제 이미지"에서 볼 수 있듯이) 다운스트림 관련 작업에 더 나은 사전 학습 소스로도 사용할 수 있습니다 [72].

Transfer knowledge from the most capable model to smaller ones.

우리는 그림 5에서 작은 모델들이 합성에서 실제로의 전이만으로는 직접적인 이점을 얻을 수 없다는 것을 보여주었습니다.

그러나 대규모 라벨이 없는 실제 이미지로 무장하면, knowledge distillation [27]과 유사하게 가장 유능한 모델의 고품질 예측을 모방하는 법을 배울 수 있습니다.

그러나 다르게, 우리의 distillation은 원래 라벨이 있는 데이터의 피쳐나 로짓 수준이 아닌 추가적인 라벨이 없는 실제 데이터를 통해 라벨 수준에서 시행됩니다.

이러한 관행은 특히 teacher-student 규모 차이가 클 때 피쳐 수준의 distillation이 항상 유익하지 않다는 증거가 있기 때문에 더 안전합니다 [48].

마지막으로, 그림 16에서 뒷받침된 바와 같이 라벨이 없는 이미지는 작은 모델의 견고성을 크게 향상시킵니다.

그림 16: 라벨이 붙은 합성 이미지와 pseudo 라벨이 붙은 실제 이미지만으로 학습된 DINOv2-small 기반 스 모델의 질적 비교. 견고성이 크게 향상되었습니다.

그림 7: Depth Anything V2. 먼저 가장 유능한 teacher를 정밀한 합성 이미지로 학습시킵니다. 그런 다음 합성 데이터의 분포 변화와 제한된 다양성을 완화하기 위해 라벨이 없는 실제 이미지에 주석을 달았습니다. 마지막으로 고품질의 pseudo 라벨이 있는 이미지로 student 모델을 학합니다.

5 Depth Anything V2

5.1 Overall Framework

위의 모든 분석에 따르면, Depth Anything V2를 학습하기 위한 최종 파이프라인은 명확합니다 (그림 7).
세 단계로 구성되어 있습니다:

• 고품질 합성 이미지만을 기반으로 DINOv2-G 기반의 신뢰할 수 있는 teacher 모델을 학습합니다.
• 라벨이 없는 대규모 실제 이미지에서 정밀한 pseudo 뎁스를 생성합니다.
• 강력한 일반화를 위해 pseudo-labeled real 이미지에서 최종 student 모델을 학습합니다 (이 단계에서는 합성 이미지가 필요하지 않음을 보여드리겠습니다).

DINOv2 small, base, large, 및 giant를 기반으로 한 네 가지 student 모델을 각각 출시할 예정입니다.

5.2 Details

표 7에 나타난 바와 같이, 우리는 학습을 위해 다섯 개의 정밀한 합성 데이터셋 (595K 개의 이미지)과 여덟 개의 대규모 pseudo 라벨링 실제 데이터셋 (62M 개의 이미지)을 사용합니다.

V1 [89]과 마찬가지로, 각 pseudo 라벨링 샘플에 대해 학습 중에 top-n-largest-loss 영역을 무시합니다, 여기서 n은 10%로 설정됩니다.

우리는 이를 잠재적으로 노이즈가 있는 pseudo 라벨로 간주합니다.

유사하게, 우리의 모델은 아핀 불변 역 뎁스를 생성합니다.

라벨링된 이미지에서 최적화를 위해 두 가지 loss 항을 사용합니다: 스케일- 및 시프트-불변 loss L_ssi와 그래디언트 매칭 loss L_gm입니다.

이 두 가지 objective 함수는 MiDaS [56]에서 제안한 것처럼 새로운 것이 아닙니다.

그러나 다르게, 합성 이미지를 사용할 때 L_gm이 뎁스 샤프함에 매우 유리하다는 것을 발견했습니다 (섹션 B.7).

pseudo 라벨링된 이미지에서, 우리는 V1을 따라 사전 학습된 DINOv2 인코더로부터 유익한 의미를 보존하기 위해 추가적인 피쳐 정렬 loss를 추가합니다.

6 A New Evaluation Benchmark: DA-2K

6.1 Limitations in Existing Benchmarks

섹션 2에서는 일반적으로 사용되는 실제 학습 세트에 노이즈가 있는 뎁스 레이블이 있음을 입증했습니다.

여기서 우리는 널리 채택된 테스트 벤치마크도 노이즈가 있음을 주장합니다.

그림 8은 특수 뎁스 센서를 사용했음에도 불구하고 NYU-D [70]에서 거울과 얇은 구조물에 대한 잘못된 주석을 보여줍니다.

이러한 빈번한 레이블 노이즈로 인해 강력한 MDE 모델의 보고된 메트릭을 더 이상 신뢰할 수 없게 됩니다.

그림 8: 널리 채택되었지만 실제로 노이즈가 있는 테스트 벤치마크의 시각화 [70]. 강조된 바와 같이, 거울의 뎁스와 얇은 구조는 부정확합니다 (검은색 픽셀은 무시됨). 이에 비해 우리의 모델 예측은 정확합니다. 노이즈로 인해 더 나은 모델이 낮은 점수를 얻을 수 있습니다.

라벨 노이즈 외에도 이러한 벤치마크의 또 다른 단점은 다양성이 제한적이라는 점입니다.

대부분은 원래 단일 장면에 대해 제안되었습니다.

예를 들어, NYU-D [70]은 몇 개의 실내 방에 초점을 맞추고 있는 반면, KITTI [24]는 여러 거리 장면만 포함하고 있습니다.

이러한 벤치마크에서의 성능은 실제 신뢰성을 반영하지 못할 수 있습니다.

이상적으로는 MDE 모델이 보이지 않는 장면을 견고하게 처리할 수 있을 것으로 기대합니다.

이러한 기존 벤치마크의 마지막 문제는 저해상도입니다.

대부분 약 500×500 해상도의 이미지를 제공합니다.

하지만 최신 카메라의 경우 일반적으로 1000×2000과 같은 고해상도 이미지에 대해 정확한 뎁스 추정이 필요합니다.

이러한 저해상도 벤치마크에서 도출된 결론을 고해상도 벤치마크로 안전하게 전달할 수 있을지는 아직 불분명합니다.

6.2 DA-2K

위의 세 가지 한계를 고려하여, 우리는 상대적인 단안 뎁스 추정을 위한 다재다능한 평가 벤치마크를 구축하는 것을 목표로 합니다.

이 벤치마크는 1) 정확한 뎁스 관계를 제공하고, 2) 광범위한 장면을 다루며, 3) 현대적인 용도로 주로 고해상도 이미지를 포함할 수 있습니다.

실제로, 인간이 각 픽셀의 뎁스에 주석을 다는 것은 특히 야생 이미지의 경우 비현실적입니다.

따라서 DIW [11]에 따라, 우리는 각 이미지에 대해 희소한 뎁스 쌍을 주석을 달았습니다.

일반적으로, 주어진 이미지에 대해 두 개의 픽셀을 선택하고, 그들 간의 상대적인 뎁스 (즉, 어느 픽셀이 더 가까운지)를 결정할 수 있습니다.

그림 9: 제안된 평가 벤치마크 DA-2K. (a) 두 점 사이의 상대적 뎁스에 대한 주석 파이프라인. 점들은 SAM [33] 마스크 예측을 기반으로 샘플링됩니다. 네 가지 뎁스 모델 간의 불일치 쌍이 주석자가 라벨링할 수 있도록 표시됩니다. (b) 시나리오 커버리지에 대한 세부 사항.

구체적으로, 우리는 픽셀 쌍을 선택하기 위해 두 개의 서로 다른 파이프라인을 사용합니다.

첫 번째 파이프라인에서는 그림 9a와 같이 SAM [33]을 사용하여 객체 마스크를 자동으로 예측합니다.

마스크를 사용하는 대신, 이를 유도하는 키 포인트 (픽셀)를 활용합니다.

우리는 랜덤으로 두 개의 주요 픽셀을 샘플링하고 네 개의 expert 모델 ([89, 31, 20] 및 우리 모델)을 쿼리하여 상대적 뎁스를 결정합니다.

의견 차이가 없는 경우, 이 쌍은 인간 주석가에게 보내져 실제 상대적 뎁스를 결정합니다.

잠재적인 모호성 때문에 주석가는 어떤 쌍이든 건너뛸 수 있습니다.

그러나 모든 모델이 어려운 쌍을 잘못 예측하고 플래그가 지정되지 않는 경우가 있을 수 있습니다.

이를 해결하기 위해, 우리는 두 번째 파이프라인을 도입하여 이미지를 신중하게 분석하고 수동으로 어려운 쌍을 식별합니다.

정확성을 보장하기 위해 모든 주석은 다른 두 명의 주석자가 삼중으로 검사합니다.

다양성을 보장하기 위해 먼저 MDE의 8가지 중요한 응용 시나리오를 요약하고 (그림 9b), GPT-4에 각 시나리오와 관련된 다양한 키워드를 생성하도록 요청합니다.

그런 다음 이러한 키워드를 사용하여 Flickr에서 해당 이미지를 다운로드합니다.

마지막으로 총 2K 픽셀 쌍으로 1K 이미지에 주석을 달았습니다.

공간에 제한이 있는 경우 섹션 C를 참조하여 DIW [11]와의 자세한 내용과 비교를 확인하세요.

Position of DA-2K.

이러한 장점에도 불구하고 DA-2K가 현재 벤치마크를 대체할 것으로 기대하지 않습니다.
정확한 희소 뎁스는 장면 재구성에 필요한 정확한 밀집 뎁스와는 여전히 거리가 멉니다.
그러나 DA-2K는 정확한 밀집 뎁스를 위한 전제 조건으로 간주될 수 있습니다.

따라서 DA-2K는 광범위한 장면 커버리지와 정밀도 덕분에 기존 벤치마크에 유용한 보완책으로 사용될 수 있다고 믿습니다.

또한 DA-2K에서 다루는 특정 시나리오에 대해 커뮤니티 모델을 선택하는 사용자에게 신속한 사전 검증 역할을 할 수 있습니다.

마지막으로, 이는 미래의 멀티모달 LLM [41, 21, 3]에 대한 3D 인식을 위한 잠재적인 테스트베드가 될 수 있다고 믿습니다.

7 Experiment

7.1 Implementation details

Depth Anything V1 [89]을 따라 뎁스 디코더로 DPT [55]를 사용하며, 이는 DINOv2 인코더를 기반으로 합니다.

모든 이미지는 518×518의 해상도로 짧은 크기를 518로 조정한 후 랜덤 크롭을 수행하여 학습됩니다.

합성 이미지에서 teacher 모델을 학습할 때는 16만 번의 반복에 대해 64의 배치 크기를 사용합니다.

pseudo 라벨이 붙은 실제 이미지에 대한 학습의 세 번째 단계에서는 480만 번의 반복에 대해 192의 배치 크기로 모델을 학습합니다.

우리는 Adam 옵티마이저를 사용하여 인코더와 디코더의 학습 속도를 각각 5e-6과 5e-5로 설정합니다.

두 학습 단계 모두에서 우리는 학습 데이터셋의 균형을 맞추지 않고 단순히 연결합니다.

L_ssi와 L_gm의 가중치 비율은 1:2로 설정됩니다.

표 2: 제로샷 상대 뎁스 추정. 더 나은 방법: AbsRel ↓ , δ_1 ↑. 지표만으로 볼 때, Depth Anything V2는 MiDaS보다 더 나은 성능을 보이지만, 단지 V1과 비교할 수 있습니다. 그러나 실제로 우리 V2의 초점과 강도 (예: 세밀한 세부 사항, 복잡한 레이아웃에 강함, 투명 객체 등)는 이러한 벤치마크에 올바르게 반영될 수 없습니다. 유사한 결과 (즉, 더 나은 모델이지만 더 나쁜 점수)도 [7, 28]에서 관찰되었습니다.

7.2 Zero-Shot Relative Depth Estimation

Performance on conventional benchmarks.

우리 모델은 아핀 불변 역 뎁스를 예측하기 때문에 공정성을 위해 다섯 개의 보이지 않는 테스트 데이터셋에서 Depth Anything V1 [89] 및 MiDaS V3.1 [7]과 비교합니다.

표 2에서 볼 수 있듯이, 우리의 결과는 MiDaS보다 우수하며 V1 [89]와 비교할 만합니다.

우리는 두 데이터셋에서 V1보다 약간 열등합니다.

그러나 이 데이터셋의 단순한 지표는 이 논문의 초점이 아닙니다.

이 버전은 얇은 구조물에 대한 세밀한 예측과 복잡한 장면, 투명한 물체 등에 대한 견고한 예측을 생성하는 것을 목표로 합니다.

이러한 차원의 개선은 현재 벤치마크에 정확하게 반영될 수 없습니다.

표 3: 8가지 대표 시나리오를 포함하는 제안된 DA-2K 평가 벤치마크의 성능. 가장 가벼운 모델도 다른 모든 커뮤니티 모델보다 우수합니다.

Performance on our proposed benchmark DA-2K.

표 3에서 볼 수 있듯이, 다양한 장면을 포함한 제안된 벤치마크에서 우리의 가장 작은 모델도 다른 무거운 SD 기반 모델보다 현저히 우수합니다, 예: Marigold [31] 및 Geowizard [20].

우리의 가장 유능한 모델은 상대 뎁스 판별 측면에서 Margold보다 10.6% 더 높은 정확도를 달성합니다.

우리 모델의 종합적인 시나리오별 성능은 표 14를 참조하세요.

표 14: 제안된 벤치마크 DA-2K에서 Depth Anything V2의 시나리오별 정확도(%).

7.3 Fine-tuned to Metric Depth Estimation

모델의 일반화 능력을 검증하기 위해 인코더를 다운스트림 메트릭 뎁스 추정 작업으로 전환합니다.

먼저, V1 [89]와 마찬가지로 ZoeDepth [6] 파이프라인을 따르지만, MiDaS [7] 인코더를 사전 학습된 인코더로 교체합니다.

표 4에 나타난 바와 같이, NYU-D 및 KITTI 데이터셋 모두에서 이전 방법들보다 상당한 개선을 이루었습니다.

특히, ViT-S를 기반으로 한 가장 가벼운 모델도 ViT-L [6]을 기반으로 한 다른 모델들보다 우수합니다.

표 4: 도메인 내 메트릭 뎁스 추정, 즉 학습 및 테스트 이미지가 동일한 도메인을 공유하도록 Depth Anything V2 사전 학습 인코더를 파인튜닝합니다. 비교된 모든 방법은 ViT-L에 가까운 인코더 크기를 사용합니다.

보고된 메트릭은 인상적으로 보이지만, NYUv2 또는 KITTI로 학습된 모델은 학습 세트의 고유한 노이즈로 인해 세밀한 뎁스 예측을 생성하지 못하고 투명한 물체에 강하지 않습니다.

따라서 멀티 뷰 합성과 같은 실제 응용 프로그램을 만족시키기 위해, 우리는 실내 및 실외 메트릭 뎁스 추정을 위해 Hypersim [58] 및 Virtual KITTI [9] 합성 데이터셋에서 강력한 인코더를 파인튜닝합니다.

이 두 가지 메트릭 뎁스 모델을 출시할 예정입니다.

이전 ZoeDepth 방법과의 질적 비교는 그림 15를 참조하세요.

그림 15: ZoeDepth [6]과 파인튜닝된 메트릭 뎁 모델 간의 비교.

7.4 Ablation Study

공간의 제약으로 인해 pseudo 레이블에서 두 개를 제외한 대부분의 ablation을 부록으로 연기합니다.

표 5: pseudo 라벨링된 (레이블되지 않은) 실제 이미지의 중요성 (D^u). D^l: 정확하게 라벨링된 합성 이미지.

Importance of large-scale pseudo-labeled real images.

표 5에서 볼 수 있듯이, 합성 이미지만으로 학습된 것과 비교했을 때, 우리의 모델은 pseudo 라벨이 붙은 실제 이미지를 통합함으로써 크게 향상되었습니다.

Depth Anything V1 [89]과는 달리, 우리는 student 모델을 학습하는 동안 합성 이미지를 제거하려고 시도합니다.

이는 더 작은 모델 (예: ViT-S 및 ViT-B)에서도 약간 더 나은 결과를 가져올 수 있음을 발견했습니다.

그래서 우리는 마침내 studnet 모델을 pseudo 라벨이 붙은 이미지만으로 학습시키기로 결정했습니다.

이 관찰은 실제로 pseudo 라벨이 붙은 마스크만 출시하는 SAM [33]과 유사합니다.

Pseudo label vs.manual label on real labeled images.

이전에 그림 4a에서 기존 라벨링된 실제 데이터셋이 매우 노이즈가 많다는 것을 입증한 바 있습니다.

여기서 우리는 정량적 비교를 수행합니다.

우리는 DIML [14] 데이터셋의 실제 이미지를 사용하여 원래의 수동 라벨과 생성된 pseudo 라벨 하에서 전송 성능을 각각 비교합니다.

표 6에서 pseudo 라벨로 학습된 모델이 수동 라벨 모델보다 현저히 우수하다는 것을 관찰할 수 있습니다.
큰 격차는 현재 라벨링된 실제 데이터셋에서 pseudo 라벨의 높은 품질과 풍부한 노이즈를 나타냅니다.

표 6: DIML 데이터셋에서 원래 수동 레이블과 우리가 생성한 pseudo 레이블 간의 비교 [14]. 우리가 생성한 pseudo 레이블은 DIML에서 제공하는 수동 레이블보다 훨씬 더 높은 품질을 자랑합니다.

8 Related Work

Monocular depth estimation.

초기 연구 [18, 19, 5]는 학습 이미지와 테스트 이미지가 동일한 도메인을 공유해야 하는 도메인 내 메트릭 뎁스 추정에 중점을 둡니다 [70, 24].

제한된 응용 시나리오로 인해 최근 제로샷 상대 단안 뎁스 추정에 대한 관심이 높아지고 있습니다.

그 중 일부 연구에서는 Stable Diffusion [59]을 뎁스 디노이저로 사용하는 등 더 나은 모델링 방식을 통해 이 작업을 해결합니다 [31, 25, 20].

다른 연구 [94, 96, 89]는 데이터 기반 관점에 중점을 둡니다.

예를 들어, MiDaS [56, 55, 7]와 Metric3D [95]는 각각 2M과 8M 라벨 이미지를 수집합니다.

라벨 이미지를 확장하는 어려움을 인식한 Depth Anything V1 [89]은 62M 라벨이 없는 이미지를 활용하여 모델의 견고성을 향상시킵니다.

이 연구에서는 다르게 널리 사용되는 라벨이 있는 실제 이미지의 여러 한계를 지적합니다.

따라서 뎁스 정확성을 보장하기 위해 합성 이미지에 의존해야 할 필요성을 특히 강조합니다.

한편, 합성 이미지로 인한 일반화 문제를 해결하기 위해 데이터 기반 (대규모 pseudo 라벨이 있는 실제 이미지)과 모델 기반 (teacher 모델 확장) 전략을 모두 채택합니다.

Learning from unlabeled real images.

라벨이 없는 이미지에서 유익한 표현을 학습하는 방법은 반지도 학습 [36, 86, 71, 90] 분야에서 널리 연구되고 있습니다.

그러나 이들은 소규모 라벨이 있는 이미지와 라벨이 없는 이미지만 사용할 수 있는 학술적 벤치마크 [34]에 초점을 맞추고 있습니다.

이와 비교하여, 우리는 실제 응용 시나리오, 즉 62M개의 라벨이 없는 이미지로 0.6M개의 라벨이 있는 이미지의 베이스라인을 더욱 강화하는 방법을 연구합니다.

더욱이, Depth Anything V1 [89]과는 구별되며, 특히 모든 라벨이 있는 실제 이미지를 합성 이미지로 대체할 때 라벨이 없는 실제 이미지의 필수적인 역할을 보여줍니다 [22, 23, 61].

우리는 "precise synthetic data + pseudo-labeled real data"가 라벨이 있는 실제 데이터보다 더 유망한 로드맵임을 입증합니다.

Knowledge distillation.

우리는 가장 유능한 teacher 모델에서 더 작은 모델로 전이 가능한 knowledge를 distill합니다.

이는 knowledge distillation (KD) [27]의 핵심 정신과 유사합니다.

그러나 우리는 추가적인 라벨이 없는 실제 이미지를 통해 예측 수준에서 distillation을 수행하는 반면, KD [2, 73, 100]는 일반적으로 라벨이 있는 이미지를 통해 피쳐나 로짓 수준에서 더 나은 distillation 전략을 연구한다는 점에서 근본적으로 다릅니다.

우리는 섬세한 loss 설계 [43, 69]나 distillation 파이프라인 [10]보다는 대규모 라벨이 없는 데이터와 더 큰 teacher 모델의 중요성을 밝히는 것을 목표로 합니다.

게다가, 두 모델 간의 피쳐 표현을 엄청난 규모의 차이로 직접 distill하는 것은 실제로 사소하지 않고 위험합니다 [48].

이에 비해, 우리의 pseudo 라벨 증류는 1.3B 매개변수 모델부터 25M 매개변수 모델까지 더 쉽고 안전합니다.

9 Conclusion

본 연구에서는 단안 뎁스 추정을 위한 보다 강력한 파운데이션 모델인 Depth Anything V2를 제시합니다.

이 모델은 1) 견고하고 세밀한 뎁스 예측을 제공하고, 2) 다양한 모델 크기 (25M에서 13B 매개변수)를 가진 광범위한 응용 프로그램을 지원하며, 3) 유망한 모델 초기화로서 다운스트림 작업에 쉽게 파인튜닝할 수 있습니다.

우리는 강력한 MDE 모델을 구축하기 위한 중요한 발견을 밝힙니다.

또한, 기존 테스트 세트의 낮은 다양성과 풍부한 노이즈를 실현하기 위해 다양한 고해상도 이미지를 정밀하고 도전적인 희소 뎁스 레이블로 포괄하는 다재다능한 평가 벤치마크 DA-2K를 구축합니다.

'Deep Learning' 카테고리의 다른 글

YOLOv12: Attention-Centric Real-Time Object Detectors (0)	2025.02.24
Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data (0)	2025.02.07
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding (0)	2024.12.26
YOLOv11: An Overview of the Key Architectural Enhancements (0)	2024.11.27
Fast Segment Anything (0)	2024.11.07

프린이씨롯메

프린이씨롯메

태그

최근글

댓글

공지사항

아카이브