WildGaussians: 3D Gaussian Splatting in the Wild

2024. 12. 17. 10:493D Vision/NeRF with Real-World

WildGaussians: 3D Gaussian Splatting in the Wild

 

Jonas Kulhanek, Songyou Peng, Zuzana Kukelova, Marc Pollefeys, Torsten Sattler

 

Abstract

3D 장면 재구성 분야는 포토리얼리티 품질로 인해 NeRF가 지배적인 반면, 최근에는 3D Gaussian Splatting (3DGS)이 등장하여 실시간 렌더링 속도와 유사한 품질을 제공하고 있습니다.

그러나 두 방법 모두 잘 제어된 3D 장면에서 주로 뛰어난 성능을 발휘하는 반면, 야생 데이터 - 폐쇄, 동적 객체, 다양한 조명으로 특징지어짐 - 는 여전히 도전적입니다.  

NeRF는 이미지별 임베딩 벡터를 통해 이러한 조건에 쉽게 적응할 수 있지만, 3DGS는 명시적인 표현과 공유 매개변수 부족으로 인해 어려움을 겪고 있습니다.

이를 해결하기 위해, 우리는 3DGS로 폐색 및 외관 변화를 처리하는 새로운 접근 방식인 WildGaussians를 소개합니다.

견고한 DINO 피쳐를 활용하고 3DGS 내에 외관 모델링 모듈을 통합함으로써, 우리의 방법은 SOTA 결과를 달성합니다.

우리는 WildGaussians가 3DGS의 실시간 렌더링 속도와 일치하면서도 현장 데이터 처리에서 3DGS와 NeRF 베이스라인을 모두 초과한다는 것을 간단한 아키텍처 프레임워크 내에서 입증했습니다.

 

 

 

1   Introduction

이미지 세트에서 포토리얼리스틱 3D 표현을 재구성하는 것은 몰입형 VR 경험 생성, 온라인 플랫폼, 게임, 영화를 위한 3D 콘텐츠 제작, 로봇 공학을 위한 3D 환경 시뮬레이션 등 다양한 분야에서 중요한 응용 분야를 가지고 있습니다.

주요 목표는 카메라 포즈가 알려진 입력 이미지 세트에서 멀티뷰 일관된 3D 장면 표현을 달성하여 새로운 관점에서 포토리얼리스틱 렌더링을 가능하게 하는 것입니다.

 

최근 Neural Radiance Fields (NeRFs) [1, 25, 37, 30, 38, 26, 9, 17, 29]는 밀도 필드와 뷰 방향에 따라 달라지는 색상 필드를 결합한 래디언스 필드를 학습하여 이 문제를 해결했습니다.

이러한 필드는 볼륨 렌더링 [12]을 사용하여 렌더링됩니다.

매우 리얼리스틱 렌더링을 수행함에도 불구하고, NeRFs는 볼륨 적분을 정확하게 근사하기 위해 픽셀당 필드에서 수많은 샘플을 평가해야 합니다.

Gaussian Splatting (3DGS) [14, 50, 49, 51, 15, 54]이 더 빠른 대안으로 떠오르고 있습니다.

3DGS는 장면을 명시적으로 3D 가우시안 집합으로 표현하여 NeRFs와 비슷한 렌더링 품질로 래스터라이제이션을 통해 실시간 렌더링을 가능하게 합니다.

 

학습 뷰만으로 장면 표현을 학습하는 것은 지오메트리와 뷰 종속 효과 사이에 모호성을 초래합니다.

NeRF와 3DGS는 non-Lambertian 효과를 시뮬레이션하면서 일관된 지오메트리를 학습하도록 설계되었으며, 이는 표현의 암묵적인 편향을 통해 모호성을 해결합니다.

이는 일관된 조명과 최소한의 가려짐이 있는 제어된 환경에서는 잘 작동하지만, 일반적으로 다양한 조건과 더 큰 가려짐 수준에서는 실패합니다.

그러나 실제 응용에서는 환경을 제어하지 않고 이미지를 캡처합니다.

예를 들어, 다양한 시간, 계절, 노출 수준에서 이미지를 수집하는 크라우드 소싱 3D 재구성 [34, 1]과 정기적인 이미지 재포획을 통해 3D 모델을 최신 상태로 유지하는 재구성이 있습니다.

환경 조건 변화, 예를 들어 낮과 밤의 변화 외에도 이러한 이미지에는 일반적으로 보행자와 자동차와 같은 가려짐 요소가 포함되어 있어 재구성 과정에서 이를 처리해야 합니다.

 

NeRF 기반 접근 방식은 특정 이미지 외관을 캡처하는 외관 임베딩에 래디언스 필드를 표시하는 MLP를 조건화하여 외관 변화를 처리합니다 [24, 38, 24].

이를 통해 임베딩을 조건으로 한 멀티뷰 일관된 3D 표현 클래스를 학습할 수 있습니다.

그러나 이 접근 방식은 지오메트릭 원시 요소의 색상을 명시적으로 저장하는 3DGS [14]와 같은 명시적 표현에는 잘 적용되지 않습니다.

외관 임베딩을 조건화한 MLP를 추가하면 렌더링 속도가 느려지며, 각 프레임은 모든 가우시안에 대해 MLP를 평가해야 하기 때문입니다.

폐색 처리를 위해 NeRF [24, 31]는 불확실성 모델링을 사용하여 어려운 픽셀의 loss를 할인합니다.

그러나 외관 변화와 폐색이 모두 있는 경우 이러한 loss들은 견고하지 않으며, 종종 폐색기에 초점을 맞추는 대신 외관을 포착하기 어려운 영역에 잘못 집중합니다.

NeRF는 매개변수 공유로 인한 초기 실수에서 회복할 수 있지만, 3DGS는 더 빠른 학습과 엔지니어링된 원시 성장 및 프루닝 과정을 통해 잘못된 학습 신호로 인해 지오메트리의 일부가 돌이킬 수 없게 제거될 수 있기 때문입니다.

 

이 문제를 해결하기 위해, 우리는 학습 가능한 외형 임베딩과 작은 MLP를 사용하여 이미지와 외형 임베딩을 통합하여 기본 색상의 아핀 변환을 예측하는 방법을 제안합니다.

이 MLP는 학습 중이거나 새로운 이미지의 외형을 캡처할 때만 필요합니다.

이 단계 이후에는 외형을 표준 3DGS 공식으로 "baked"하여 빠른 렌더링을 보장하면서 3DGS 표현의 편집 가능성과 유연성을 유지할 수 있습니다 [14].

강력한 폐색 처리를 위해, 우리는 DINO 피쳐를 기반으로 loss가 있는 불확실성 예측기를 도입하여 외형 변화에도 불구하고 학습 중에 효과적으로 폐색을 제거합니다.

 

우리의 기여는 다음과 같이 요약할 수 있습니다:
 (1) 외관 모델링: 톤 매핑 MLP와 결합된 가우시안 학습 가능 임베딩 벡터를 사용하여 3DGS [14]를 확장하여 렌더링된 이미지를 특정 입력 이미지의 임베딩에 맞게 조정할 수 있게 합니다. 이 확장은 렌더링 속도를 유지하고 3DGS [14]와의 호환성을 유지합니다.

 (2) 불확실성 최적화: 외관 변화에 강인한 불확실성 최적화 방식을 도입하여 적응형 밀도 제어에 사용되는 그래디언트 통계를 방해하지 않습니다. 이 방식은 학습과 예측 이미지 간의 DINO v2 [27] 피쳐의 코사인 유사성을 활용하여 불확실성 마스크를 생성하여 학습 중에 차단기의 영향을 효과적으로 제거합니다.

 

 

 

2   Related work

Novel View Synthesis in Dynamic Scenes.

최근의 새로운 뷰 합성 방법 [25, 1, 14, 50]은 주로 정적 환경을 재구성하는 데 중점을 둡니다.

그러나 동적 구성 요소는 일반적으로 실제 시나리오에서 발생하여 이러한 방법에 도전 과제를 제기합니다.

한 연구 라인은 비디오 시퀀스 [19, 28, 43, 44, 10, 21, 7, 46]에서 정적 구성 요소와 동적 구성 요소를 모두 모델링하려고 시도합니다.

그럼에도 불구하고, 이러한 방법들은 사진 모음 [32]에 적용될 때 종종 최적이 아닌 성능을 보입니다.

반면에, 우리의 연구는 동적 장면에서 정적 구성 요소를 합성하려는 노력과 일치합니다.

RobustNeRF [32]와 같은 방법들은 작고 제어된 설정에서 이상값 검증을 위해 Iteratively Reweighted Least Squares를 활용하는 반면, NeRF On-the-go [31]은 불확실성을 예측하기 위해 DINO v2 피쳐 [27]를 사용하여 다양한 폐색 수준을 가진 복잡한 장면을 처리할 수 있게 해줍니다.

이러한 접근 방식과는 달리, 우리의 방법은 훨씬 빠르게 최적화됩니다.

게다가 조명 변화에도 불구하고 동적 시나리오를 효과적으로 처리합니다.

 

Novel View Synthesis for Unconstructured Photo Collections.

현실 세계의 장면, 예를 들어 비정형 인터넷 사진 모음 [35]에서는 움직이는 보행자나 차량과 같은 동적 폐색뿐만 아니라 다양한 조명으로 인해 어려움이 발생합니다.

이전에는 이러한 문제를 multi-plane image (MPI) 방법 [20]을 사용하여 해결했습니다.

최근에는 이 분야의 선구적인 연구인 NeRF-W [24]가 이미지별 transient 및 외관 임베딩과 transient 객체 제거를 위한 알레토릭 불확실성을 활용하여 이러한 문제를 해결했습니다.

그러나 이 방법은 느린 학습 속도와 렌더링 속도로 인해 어려움을 겪었습니다.

다른 NeRF 기반 방법들은 NeRF-W를 따라 다양한 방식으로 확장되었습니다 [37, 47].

최근의 동시 연구들은 우리의 연구를 포함하여 NeRF 표현을 3DGS로 대체하는 방법을 탐구하고 있습니다.

일부 방법 [33, 6]은 무거운 폐색 하에서 3DGS를 학습시키거나, 폐색 없이 외관 변화만 처리하는 간단한 문제를 해결합니다.

그러나 주요 과제는 외관 조건을 로컬 독립 3D 가우시안과 통합하는 것입니다.

VastGaussian [22]은 부록에 나와 있듯이 큰 외관 변화로 전이되지 않는 3DGS 출력에 컨볼루션 네트워크를 적용합니다.

SWAG [5]와 Scaffold-GS [23]는 외관 데이터를 외부 해시 그리드 기반 암시 필드 [26]에 저장함으로써 이 문제를 해결하고, GS-W [52]와 WE-GS [41]는 참조 이미지에 외관 조건을 부여하기 위해 CNN 피쳐를 활용합니다.

반면, 우리의 방법은 외관 벡터를 각 가우시안 내에 직접 임베딩하여 더 간단하고 확장 가능한 전략을 사용합니다.

이 설계는 외관이 고정된 후 학습된 표현을 3DGS로 'bake'할 수 있게 하여 효율성과 적응성을 모두 향상시킵니다.

마지막으로, 동시 연구인 Spatfacto-W [45]는 유사한 외관 MLP를 사용하여 가우시안 및 이미지 임베딩을 결합하여 구형 고조파를 출력합니다.

 

 

그림 2: WildGaussians의 핵심 구성 요소에 대한 개요. 왼쪽: 외관 모델링 (섹션 3.2). 가우시안별 및 이미지별 임베딩은 가우시안의 뷰 의존 색상에 적용된 아핀 변환의 매개변수를 출력하는 외관 MLP에 입력으로 전달됩니다. 오른쪽: 불확실성 모델링 (섹션 3.3). 불확실성 추정치는 GT 이미지의 DINO 피쳐를 학습된 변환을 통해 얻습니다. 불확실성을 학습하기 위해 우리는 DINO 코사인 유사성 (점선)을 사용합니다.

3   Method

우리의 접근 방식인 WildGaussians는 그림 2에 나와 있습니다.

3DGS 기반 접근 방식이 장면의 제어되지 않는 캡처를 처리할 수 있도록, 우리는 두 가지 주요 구성 요소를 제안합니다:
 (1) 외관 모델링을 통해 관찰된 픽셀 색상이 시점뿐만 아니라 캡처 시간과 날씨와 같은 조건에도 의존한다는 사실을 처리할 수 있습니다.

다양한 조건에서 캡처된 이미지에서 장면을 재구성하기 위한 NeRF 기반 접근 방식 [24, 30]을 따라, 우리는 이러한 조건을 모델링하기 위해 학습 이미지별로 외관 임베딩을 학습합니다.

또한, 우리는 로컬 효과, 예를 들어 램프에서 장면의 부분을 능동적으로 조명하는 것과 같은 효과를 모델링하기 위해 가우시안당 외관 임베딩을 학습시킵니다.

두 임베딩 모두 주어진 장면 외관에 대해 예상되는 색상과 일치하도록 가우시안에 저장된 색상을 변환하는 데 사용됩니다.

이를 위해, 우리는 MLP를 통해 색상 공간에서 아핀 매핑 [30]을 예측합니다.

 (2) 불확실성 모델링을 통해 학습 단계에서 어떤 영역을 무시해야 하는지 결정함으로써 우리의 접근 방식이 가려진 부분을 처리할 수 있게 합니다.

이를 위해, 우리는 학습 이미지에서 DINO v2 피쳐 [27]를 추출하고, 이를 픽셀별 불확실성을 예측하는 학습 가능한 아핀 변환에 입력으로 전달합니다, 이 변환은 이미지의 어떤 부분이 정적 영역에 해당하고 어떤 부분이 가려진 부분을 나타내는지를 예측합니다.

불확실성 예측기는 학습 이미지와 렌더링에서 추출된 DINO 피쳐 간의 코사인 유사성을 사용하여 최적화됩니다.

 

3.1 Preliminaries: 3D Gaussian Splatting (3DGS)

우리의 방법은 3D Gaussian Splatting (3DGS) [14, 50] 장면 표현을 기반으로 합니다, 여기서 장면은 3D 가우시안 {G_i} 집합으로 표현됩니다.

각 가우시안 G_i는 평균 μ_i, 양의 반정의 공분산 행렬 Σ_i [54], 불투명도 α_i, 그리고 spherical harmonics (SH)를 사용하여 매개변수화된 뷰 의존 색상으로 표현됩니다.

렌더링 중에 3D 가우시안이 먼저 2D 이미지에 투영되어 2D 가우시안이 생성됩니다.

W를 뷰 변환이라고 하고, 이미지 공간에서 2D 공분산 행렬 Σ'_i는 [54]로 주어집니다:

 여기서 J는 투영의 아핀 근사의 야코비안입니다.

(·)_(1:2,1:2)는 행렬의 처음 두 행과 열을 나타냅니다.

2D 가우시안의 평균 μ′_i는 W를 사용하여 이미지에 μ_i를 투영하여 얻습니다.

가우시안을 투영한 후 다음 단계는 각 픽셀의 색상 값을 계산하는 것입니다.

각 픽셀에 대해 가우시안 목록을 앞에서 뒤로 이동(가우시안과 이미지 평면의 거리에 따라 정렬)하고, 뷰 종속 색상 ˆc_i(r)를 알파로 구성하여 픽셀 색상 ˆC를 생성합니다:

 여기서 α_i는 블렌딩 가중치입니다.

표현은 예측된 색상 ˆC와 실제 색상 C 사이에서 계산된 DSSIM [42] 및 L1 loss들의 조합을 사용하여 알려진 투영 행렬을 가진 이미지 세트에서 학습됩니다 (학습 이미지의 픽셀로 정의됨):

3DGS [14]는 α_i가 낮거나 3D 크기가 큰 미사용 가우시안을 프루닝하고, 2D 평균 μ′_i에 대해 큰 그래디언트를 가진 가우시안을 복제하거나 분할하여 새로운 가우시안을 추가하는 과정을 정의합니다.

본 연구에서는 두 가지 최근 개선 사항을 추가로 통합합니다.

첫째, 2D μ′_i 그래디언트는 실제 그래디언트 대신 그래디언트의 절대값을 누적하여 누적됩니다 [49, 51].

둘째, 우리는 Mip-Splatting [50]을 사용하여 앨리어싱 아티팩트를 줄입니다.

그림 1: WildGaussians은 외관 및 조명 변화가 있는 장면 (왼쪽)으로 3DGS를 확장합니다. 이는 DINO 기반의 [27] 불확실성 예측기를 공동으로 최적화하여 폐색을 처리합니다 (오른쪽).

3.2 Appearance Modeling

NeRF에 관한 문헌 [24, 30, 1]에 따르면, 우리는 학습 가능한 이미지별 임베딩 {e_j} _(j=1)^N을 사용합니다, 여기서 N은 학습 이미지의 수입니다, 이는 그림 1과 같이 다양한 외관과 조명을 가진 이미지를 처리하기 위한 것입니다.

또한, 다양한 외관을 가진 가우시안의 다양한 색상을 가능하게 하기 위해 각 가우시안 i에 대해 학습 가능한 임베딩 g_i를 포함시켰습니다.

우리는 이미지별 임베딩 e_j, 가우시안별 임베딩 g_i, 그리고 기본 색상 ¯c_i (0차 SH)를 MLP f에 입력합니다:

출력은 각 색상 채널 k에 대해 (β, γ) = {(β_k, γ_k)}_(k=1)^3인 아핀 변환의 매개변수입니다.

ˆc_i(r)을 ray 방향 r에 따라 조건화된 i번째 가우시안 뷰 종속 색상이라고 합시다.

가우시안 ˜c_i의 톤 색상은

로 주어집니다.

이러한 가우시안 단위 색상은 3DGS 래스터화 과정의 입력으로 사용됩니다.

우리의 접근 방식은 이미지의 노출 변화를 보상하기 위해 이미지 임베딩만으로 아핀 매개변수를 예측하는 [30]에서 영감을 받았습니다.

반면, 우리는 아핀 변환을 사용하여 훨씬 더 복잡한 외관 변화를 모델링합니다.

이 설정에서 우리는 또한 가우시안 단위 외관 임베딩을 사용하여 밤에 광원에 의해 장면의 일부가 능동적으로 조명되는 등의 지역 변화를 모델링하는 것이 필요하다는 것을 발견했습니다.

 

테스트 시점에서 렌더링 속도가 중요하고 장면을 단일 정적 조건에서만 렌더링하면 되는 경우, 가우시안당 아핀 매개변수를 사전 계산하여 가우시안의 SH 매개변수를 업데이트하는 데 사용할 수 있습니다.

이렇게 하면 기본적으로 효율적으로 렌더링할 수 있는 표준 3DGS 표현 [14, 50]이 됩니다.

 

Initialization of Per-Gaussian Embeddings g_i.

임베딩 g_i를 랜덤으로 초기화하면 로컬적 편향이 부족해져 보충 자료에 나타난 것처럼 일반화 및 학습 성능이 저하될 수 있습니다.
대신 Fourier features [25, 40]을 사용하여 로컬리티 prior를 적용하여 초기화합니다: 먼저 L^∞ 노름의 0.97 분위수를 사용하여 입력 포인트 클라우드를 [0, 1] 범위로 중심화하고 정규화합니다.

정규화된 점 p의 Fourier features는 sin(π p_k 2^m)과 cos(π p_k 2^m)의 결합으로 얻어지며, 여기서 k = 1, 2, 3은 좌표 지수이고 m = 1, . . ., 4입니다.

 

Training Objective.

3DGS [14] 이후, 우리는 학습을 위해 DSSIM [42]과 L1 loss를 결합하여 사용합니다 (식. (3)).
그러나 우리의 경우 DSSIM과 L1은 서로 다른 용도로 사용됩니다.
DSSIM의 경우, 외관 변화에 대해 L1보다 더 견고하고 구조와 지각 유사성에 더 중점을 두기 때문에 외관 모델링 없이 래스터화된 이미지에 적용합니다.
반면에, 우리는 올바른 외관을 학습하기 위해 L1 loss를 사용합니다.
구체적으로, ˆC와 ˜C를 각각 색상 톤 전후에 래스터화된 이미지의 렌더링된 색상이라고 가정합니다 (식 (5) 참조).
C를 학습 RGB 이미지라고 합니다.
학습 loss는

으로 쓸 수 있습니다.
모든 실험에서 우리는 λ_dssim = 0.2로 설정했습니다.
학습 중에 우리는 먼저 가우시안을 2D 이미지 평면에 투영하고, 톤이 있는 색상을 계산한 다음, 두 이미지 (톤이 있는 색상과 원래 색상)를 래스터화합니다.

 

Test-Time Optimization of Per-Image Embeddings e_j.

학습 중에 우리는 3DGS 표현 및 외관 MLP와 함께 이미지별 임베딩 e_j와 가우시안별 임베딩 g_i를 공동으로 최적화합니다.

그러나 이전에 보지 못한 이미지의 외형을 맞추고자 할 때는 보지 못한 이미지의 임베딩을 테스트 시간 최적화를 수행해야 합니다.

이를 위해 이미지의 외관 벡터를 0으로 초기화하고 Adam optimizer [16]를 사용하여 주요 학습 objective (식. (6))로 최적화합니다 - 다른 모든 것을 고정하면서.

그림 3: 외관 변화에 따른 불확실성 loss. 우리는 NeRF-W [24]와 NeRF On-the-go [31]에서 사용되는 MSE와 DSSIM 불확실성 loss들을 우리의 DINO 코사인 유사성 loss와 비교합니다. 이미지 1과 2와 같이 외관 변화가 심한 경우, MSE와 DSSIM 모두 가려짐 (인간)에 초점을 맞추지 못하고 배경을 잘못 가중치로 낮추면서도 가려짐을 부분적으로 무시합니다.

3.3 Uncertainty Modeling for Dynamic Masking

transient 물체와 occluders, 예를 들어 움직이는 자동차나 보행자의 영향을 줄이기 위해 우리는 불확실성 모델 [24, 31]을 학습합니다.

NeRF On-the-go [31]은 사전 학습된 피쳐 추출기의 피쳐, 예를 들어 DINO [3, 27]을 사용하면 불확실성 예측기의 견고성이 증가한다는 것을 보여주었습니다.

그러나 제어된 설정에서는 잘 작동하지만, 불확실성 loss 함수는 강한 외관 변화 (예: 제약 없는 이미지 컬렉션에서의 변화)를 처리할 수 없습니다.

따라서 우리는 그림 3에서 볼 수 있듯이 외관 변화에 더 견고한 대안적인 불확실성 loss를 제안합니다.

학습 중에 각 학습 이미지 j에 대해 먼저 DINO v2 [27] 피쳐를 추출합니다.

그런 다음, 우리의 불확실성 예측기는 단순히 DINO 피쳐에 적용된 학습 가능한 아핀 매핑과 소프트플러스 활성화 함수입니다.

피쳐들이 패치 단위(14 × 14px)이기 때문에, 이중선형 보간법을 사용하여 결과적으로 불확실성을 원래 크기로 확장합니다.

마지막으로, 각 픽셀에 최소한의 가중치가 할당되도록 불확실성을 [0.1, ∞] 간격으로 잘라냅니다 [24, 31].

 

Uncertainty Optimization.

NeRF 문헌 [24, 31]에서는 모델이 단일 색상 값 대신 각 픽셀에 대해 가우시안 분포를 출력하도록 함으로써 불확실성 모델링을 실현합니다.

각 픽셀에 대해 ˜ C와 C를 예측된 색상과 ground truth 색상으로 가정합니다.

σ를 (예측된) 불확실성으로 가정합니다.

픽셀당 loss 함수는 평균 ˜C와 분산 σ [24, 31]을 갖는 정규 분포의 (시프트된) 음의 log-likelihood입니다:

[31]에서 제곱 차이는 약간 수정된 DSSIM으로 대체되며, 이는 [24]에서 사용된 MSE loss보다 이점이 있는 것으로 나타났습니다.

DSSIM은 MSE [42, 2]와 다른 분포를 가지고 있지만 [31]은 안정적인 학습 역학을 이끌어낼 수 있음을 보여주었습니다.

불행히도 그림 3에서 볼 수 있듯이 MSE와 DSSIM 모두 외관 변화에 강건하지 않습니다.

이는 다양한 외관을 가진 영역이 최적화 과정에 의해 무시되기 때문에 이러한 MSE 기반 및 SSIM 기반 방법 [24, 31]이 올바른 외관을 학습하는 것을 방지합니다.

그러나 외관 변화에 더 강건한 DINO 피쳐를 다시 한 번 활용하여 학습 이미지와 예측 이미지의 DINO 피쳐 간의 코사인 유사성으로부터 loss 함수를 구성할 수 있습니다.

DINO 특징은 픽셀이 아닌 이미지 패치마다 정의되므로 패치당 불확실성 loss를 계산합니다.

예측된 이미지 패치와 학습 이미지 패치의 DINO 피쳐를 ˜D와 D라고 합시다.

loss는 다음과 같습니다:

, 여기서 '·'는 점 곱을 나타냅니다.

두 피쳐의 코사인 유사도가 1이면 이 loss 함수는 0이 되고, 유사도가 1/2 이하로 떨어지면 0이 됩니다.

 

마지막으로, 불확실성을 최적화하기 위해 로그 prior를 추가하여 다음과 같은 패치별 loss를 초래합니다:

, 여기서 σ는 패치의 불확실성 예측입니다.

우리는 이 loss를 렌더링 파이프라인을 통해 그래디언트가 전파되도록 하지 않고 불확실성 예측기 (단일 아핀 변환으로 구현)를 최적화하는 데만 사용합니다 [31].

또한, 3DGS 학습 중에는 로컬 최소값을 방지하기 위해 불투명도가 주기적으로 작은 값으로 재설정됩니다.

그러나 각 불투명도 재설정 후 렌더링이 (일시적으로) 잘못된 알파에 의해 손상됩니다.

이 문제가 불확실성 예측기로 전파되는 것을 방지하기 위해, 각 불투명도 재설정 후 몇 번의 반복에 대해 불확실성 학습을 비활성화합니다.

 

Optimizing 3DGS with Uncertainty.

NeRF의 경우 불확실성을 사용하여 학습 objective에 직접 가중치를 부여할 수 있습니다 [24, 31].

실험에서 우리는 그래디언트의 절대값이 밀집 알고리즘에 사용되고 절대 그래디언트의 크기가 지나치게 커지면 과도한 성장이 발생하기 때문에 이것이 안정적인 학습으로 이어지지 않는다는 것을 관찰했습니다.

불확실성 가중치는 하이퍼파라미터의 올바른 선택에 민감하게 만들 것입니다.

따라서 이 문제를 해결하기 위해 우리는 불확실성 점수를 (픽셀당) 이진 마스크로 변환하여 그래디언트 스케일링이 최대 1이 되도록 할 것을 제안합니다:

, 여기서 1은 불확실성 승수가 1보다 클 때마다 1이 되는 지표 함수입니다.

그런 다음 이 마스크를 사용하여 식 (6)에 정의된 픽셀당 loss를 곱합니다:

 

3.4 Handling Sky

다양한 조건에서 장면을 현실적으로 렌더링하려면 하늘을 모델링하는 것이 중요합니다 (그림 1 참조).

초기화로 Structure-from-Motion 점을 사용할 때 가우시안이 하늘에서 생성될 가능성은 낮습니다.

따라서 우리는 3D 장면 주변의 구에 있는 점들을 샘플링하여 3D 가우시안을 초기화하는 데 사용되는 점 집합에 추가합니다.

구에 있는 점들의 짝수 분포를 위해, 우리는 황금 비율 기반 공식을 사용하여 나선형 패턴으로 점들을 배열하는 피보나치 구 샘플링 알고리즘 [36]을 사용합니다.

이러한 점들을 구에 고정된 반경 r_s로 배치한 후, 우리는 이 점들을 모든 학습 카메라에 투영하여 적어도 하나의 카메라에서 보이지 않는 점들을 제거합니다.

자세한 내용은 보충 자료에 포함되어 있습니다.

 

 

 

4   Experiments

Datasets.

우리는 두 개의 도전적인 데이터셋에서 WildGaussian 접근 방식을 평가합니다.

NeRF On-the-go dataset [31]에는 실내 및 실외 시퀀스가 여러 개 포함되어 있으며, 폐색 비율은 5%에서 30%까지 다양합니다.

평가를 위해 데이터셋은 총 6개의 시퀀스를 제공합니다.

이 데이터셋에서는 뷰 간의 조명 변화가 거의 없습니다.

3DGS [14]는 방사형 왜곡 이미지를 처리할 수 없기 때문에, 모든 이미지가 왜곡되지 않은 데이터셋 버전에서 우리의 방법과 모든 베이스라인을 학습하고 평가합니다.

Photo Tourism dataset [35]은 잘 알려진 기념물의 여러 3D 장면으로 구성되어 있습니다.

각 장면은 사용자가 다양한 날짜와 시간에 다른 카메라와 노출 수준으로 촬영한 제한 없는 이미지 모음을 가지고 있습니다.

실험에서는 Brandenburg Gate, Sacre Coeur, 그리고 Trevi Fountain 장면을 사용하며, 평균 폐색 비율은 3.5%입니다.

참고로, 각 데이터셋 (NeRF On-the-go 및 Photo Tourism)에 대해 테스트 세트는 폐색이 없도록 신중하게 선택되었습니다.

 

Baselines.

우리는 우리의 접근 방식을 일련의 베이스라인과 비교합니다.

NerfBaselines [18]를 평가 프레임워크로 사용하여 원래 출시된 소스 코드에 대한 통합 인터페이스를 제공하면서 공정한 평가를 보장합니다.

조명 변화가 거의 없는 NeRF On-the-Go 데이터셋에서는 NeRF On-the-Go 데이터셋 [31], 원래 3DGS 공식 [14], Mip-Splating [50], 가우시안 불투명도 필드 [51]와 비교합니다.

Photo Tourism 데이터셋 [35]에서는 강한 조명 변화를 처리하기 위한 최신 방법들과 비교합니다: NeRF-W-re [24] (오픈 소스 구현), Ha-NeRF [4], K-Planes [9], RefinedFields [13], 3DGS [14], 그리고 동시 작업인 GS-W [52]와 SWAG [5].

우리는 NeRF-W 평가 프로토콜 [24]을 사용하여 GS-W [52]를 평가합니다 (아래 참조).

따라서 우리의 GS-W 수치는 [52]의 수치와 다릅니다 (전체 테스트 이미지를 조건으로 한).

 

Metrics.

우리는 일반적인 관행을 따르며 PSNR, SSIM [42], LPIPS [53]을 평가에 사용합니다.

Photo Tourism 데이터셋 [35]의 경우, NeRF-W [24, 18]에서 제안된 평가 프로토콜을 사용하여 이미지의 왼쪽 절반에 이미지 외관 임베딩을 최적화합니다.

그런 다음 메트릭은 오른쪽 절반에서 계산됩니다.

NeRF On-the-go 데이터셋 [31]의 경우 테스트 시간 최적화가 없습니다.

또한, 별도의 언급이 없는 한 NVIDIA RTX 4090에서 계산된 GPU 시간과 초당 프레임 (FPS) 렌더링 시간을 보고합니다.

표 1: NeRF On-the-go 데이터셋에서의 비교 [31]. 첫 번째 (빨강), 두 번째 (주황), 세 번째 (노랑) 값이 강조됩니다. 우리의 방법은 SOTA 기준 방법들보다 전반적으로 우수한 성능을 보여줍니다.
그림 4: NeRF On-the-go 데이터셋에서의 비교 [31]. Fountain과 Patio-High 장면 모두에서 기본 방법들이 렌더링에서 서로 다른 수준의 아티팩트를 보이는 반면, 우리의 방법은 모든 폐색기를 제거하고 최상의 뷰 합성 결과를 보여준다는 것을 알 수 있습니다.

4.1 Comparison on the NeRF On-the-go Dataset

표 1과 그림 4에서 볼 수 있듯이, 우리의 접근 방식은 특히 중간 (15-20%)에서 높은 폐색 (30%)을 가진 시나리오에서 두 베이스라인을 모두 크게 능가합니다.

NeRF On-the-go [31]에 비해 우리의 방법은 렌더링 속도가 400배 더 빠를 뿐만 아니라, 폐색을 더 효과적으로 제거할 수 있습니다.

게다가, 우리는 멀리 떨어져 있고 덜 자주 보이는 배경 영역 (그림 4의 첫 번째와 세 번째 행)을 더 잘 나타낼 수 있습니다.

흥미롭게도, 3DGS와 그 파생물 (Mip-Splating, Gaussian Opacity Fields)은 초기 포인트 클라우드 형태의 지오메트리 prior 덕분에 낮은 폐색 비율의 장면에서도 매우 견고합니다.

그럼에도 불구하고, 3DGS와 그 파생물은 높은 폐색 장면에서 폐색을 제거하는 데 어려움을 겪고 있습니다.

이는 우리의 불확실성 모델링 전략의 효과를 입증합니다.

표 2: Photo Tourism 데이터셋의 비교 [35]. 첫 번째 (빨강), 두 번째 (주황), 세 번째 (노랑)로 가장 우수한 성능을 보인 방법들이 강조됩니다. 우리는 모든 기본 방법들을 크게 능가하며 가장 빠른 렌더링 시간을 제공합니다.
그림 5: Photo Tourism 데이터셋의 비교 [35]. 첫 번째 줄에서는 흐르는 물의 반사와 세부 사항을 나타낼 수 있는 방법은 없지만, 3DGS와 WildGaussians은 흐르는 물에 대한 멀티뷰 제약이 없더라도 최소한 몇 가지 세부 사항을 제공할 수 있다는 점에 유의하세요. 두 번째 줄에서는 3DGS가 어두운 반투명 가우시안을 카메라 앞에 배치하여 어둠을 'simulate’하는 방법을 알아보세요. WildGaussians의 경우 건물의 텍스트를 읽을 수 있습니다. WildGaussians은 마지막 줄에서 세밀한 세부 사항을 복구할 수 있습니다.

4.2 Comparison on Photo Tourism

표 2와 그림 5는 도전적인 Photo Tourism 데이터셋의 결과를 보여줍니다.

NeRF On-the-go 데이터셋의 경우, 우리의 방법은 실시간 렌더링(3DGS와 유사)을 가능하게 하면서도 모든 NeRF 기반 베이스라인에 비해 눈에 띄는 개선을 보여줍니다.

3DGS와 비교했을 때, 우리는 세부 사항을 희생하지 않고도 주간에서 야간으로의 전환과 같은 외관 변화를 능숙하게 처리할 수 있습니다.

이는 우리의 외형 모델링의 효율성을 보여줍니다.

NeRF 기반 베이스라인인 K-Planes [9]와 비교했을 때, 우리의 방법은 흐르는 물과 Trevi Fountain의 텍스트에서 볼 수 있듯이 더 샤프한 디테일을 제공합니다.

3DGS [14]와 비교했을 때, 우리의 방법은 NeRF On-the-go 데이터셋에서 비슷한 렌더링 속도를 가지면서도 Photo Tourism 데이터셋 [35]에서 훨씬 빠릅니다.

이는 3DGS [14]가 외관 변화로 인해 불필요한 가우시안을 증가시켜 더 높은 그래디언트를 설명하려고 시도했기 때문에 발생합니다.

마지막으로, 다른 3DGS 기반 방법 [52, 5]와 비교했을 때, 우리의 방법은 더 강력한 성능을 달성하면서도 더 빠른 추론을 가능하게 합니다.

이는 외형 조정된 구형 고조파를 표준 3DGS 표현으로 다시 'bake'할 수 있기 때문입니다.

표 3: 우리는 다양한 폐색 정도를 가진 Photo Tourism [35], NeRF On-the-Go [31], 그리고 MipNeRF360 (bicycle) [1] 데이터셋에 대한 ablation 연구를 수행합니다. 첫 번째 (빨강), 두 번째 (주황), 세 번째 (노랑) 값이 강조됩니다.

4.3 Ablation Studies & Analysis

우리 방법의 각 구성 요소의 중요성을 검증하기 위해, 우리는 표 3에서 불확실성 또는 외관 모델링을 개별적으로 비활성화하는 ablation 연구를 수행했습니다.

표 3은 외관 모델링이 없으면 데이터셋에 의해 포착된 강한 외관 변화로 인해 Photo Tourism 데이터셋에서 성능이 크게 저하된다는 것을 보여줍니다.

NeRF On-the-go 데이터셋에서는 조명이나 기타 외관 변화가 거의 없거나 전혀 나타나지 않아 외관 모델링을 비활성화하면 성능이 약간 향상됩니다.

우리는 외관 변화가 강하지 않더라도 외관 임베딩을 사용하는 것이 안전하다는 결론을 내렸습니다.

마찬가지로, 불확실성 모델링을 비활성화하면 가려짐이 적은 데이터셋에는 거의 영향을 미치지 않으며, On-the-go low 데이터셋에서는 성능이 약간 저하될 수 있지만, high-occlusion 데이터셋 (On-the-go high 및 Photo Tourism)에서는 성능이 약간 저하될 수 있습니다.

 

예상대로, 낮은 폐색 비율을 가진 데이터셋의 경우 불확실성 모델링을 비활성화하면 전체 성능에 제한적인 영향을 미칩니다.

우리는 이를 초기 3D 포인트 클라우드가 일부 폐색을 걸러내는 데 도움이 되는 3DGS의 고유한 견고성 때문이라고 설명합니다.

그러나 폐색 비율이 증가함에 따라 불확실성 모델링의 중요성이 분명해집니다.

이는 NeRF On-the-go 고폐색 데이터셋에 불확실성 모델링을 사용하지 않을 때 성능이 크게 저하되는 것으로 나타났습니다.

그림 6: 외관 보간. 우리는 (주간) 뷰에서 (야간) 뷰의 외관으로 보간할 때 외관이 어떻게 변하는지 보여줍니다. 광원이 점차 나타나는 것을 주목하세요.
그림 7: 고정된 외관 멀티뷰 일관성. 카메라가 분수 주위를 이동할 때 고정된 야간 외관 임베딩의 멀티뷰뷰 일관성을 보여줍니다.

Behavior of the appearance embedding.

그림 6은 두 개의 외관 임베딩 사이를 보간합니다.

소스 뷰에서 타겟 뷰의 외관으로의 전환은 매끄럽고 빛이 점차 나타납니다.

이는 임베딩 공간의 매끄러움과 연속적인 특성을 보여줍니다.

그림 7에서는 고정된 외 임베딩을 가진 두 카메라 포즈 사이를 보간하여 멀티뷰 일관성을 보여줍니다.

다음으로, 학습 이미지의 임베딩을 t-SNE [39] 투영하여 임베딩 공간을 추가로 분석합니다.

그림 8의 t-SNE 시각화는 임베딩이 이미지 외관별로 그룹화되어 있으며, 예를 들어 야간 이미지가 함께 클러스터링되고 다른 이미지와 분리되어 있음을 보여줍니다.

그림 8: 외관 임베딩을 위한 t-SNE. 우리는 t-SNE를 사용하여 학습 이미지의 외관 임베딩을 시각화합니다. 낮과 밤의 구분을 참조하세요.

 

 

5   Conclusion

우리의 WildGaussians 모델은 가우시안 스플랫팅을 통제되지 않는 야생 환경으로 확장합니다, 이미지는 다양한 시간이나 계절에 걸쳐 캡처되며, 일반적으로 서로 다른 비율의 occluders를 사용합니다.

성공의 열쇠는 3DGS에 맞춘 새로운 외관과 불확실성 모델링으로, 고품질의 실시간 렌더링을 보장합니다.

우리는 우리의 방법이 노이즈가 많은 크라우드 소싱 데이터 소스로부터 견고하고 다재다능한 포토리얼리스틱 재구성을 달성하기 위한 한 걸음이라고 믿습니다.

 

Limitations.

우리의 방법은 실시간 렌더링을 통해 외관 모델링을 가능하게 하지만, 현재 객체의 하이라이트를 포착할 수 없습니다.

또한, 불확실성 모델링은 MSE나 SSIM보다 더 견고하지만 여전히 몇 가지 어려운 시나리오에서 어려움을 겪고 있습니다.

예를 들어, 거의 모든 학습 이미지에서 가려져 있기 때문에 장면의 일부를 충분히 관찰할 수 없는 경우, 우리의 접근 방식은 해당 영역을 올바르게 재구성하는 데 어려움을 겪을 것입니다.

이를 해결하는 한 가지 방법은 사전 학습된 디퓨전 모델과 같은 추가적인 priors를 통합하는 것입니다.

우리는 이를 향후 연구 과제로 남깁니다.