Splatfacto-W: A Nerfstudio Implementation of Gaussian Splatting for Unconstrained Photo Collections

Splatfacto-W: A Nerfstudio Implementation of Gaussian Splatting for Unconstrained Photo Collections

2024. 10. 3. 13:59ㆍ3D Vision/NeRF with Real-World

Splatfacto-W: A Nerfstudio Implementation of Gaussian Splatting for Unconstrained Photo Collections

Congrong Xu, Justin Kerr, Angjoo Kanazawa

Abstract

정확한 장면 재구성을 복잡하게 만드는 photometric 변화와 일시적인 폐색기로 인해 제약이 없는 야생 이미지 컬렉션의 새로운 뷰 합성은 여전히 중요하지만 어려운 작업입니다.

이전 방법은 이미지별 외관 피쳐 임베딩을 Neural Radiance Field (NeRF)에 통합하여 이러한 문제에 접근해 왔습니다.

3D Gaussian Splatting (3DGS)은 더 빠른 학습과 실시간 렌더링을 제공하지만, 아키텍처가 크게 다르기 때문에 제약이 없는 이미지 컬렉션에 적용하는 것은 쉽지 않습니다.

본 논문에서는 가우시안 신경 색상 피쳐와 이미지별 외관 임베딩을 래스터화 프로세스에 통합하는 접근 방식인 Splatfacto-W와 구형 고조파 기반 배경 모델을 소개하여 다양한 photometric 외관을 표현하고 배경을 더 잘 묘사합니다.

잠재 외관 모델링, 효율적인 일시적 객체 처리, 정확한 배경 모델링이 주요 기여 사항입니다.

Splatfacto-W는 야생 시나리오에서 장면 일관성이 향상된 고품질의 실시간 새로운 뷰 합성을 제공합니다.

우리의 방법은 3DGS에 비해 Peak Signal-to-Noise Ratio (PSNR)를 평균 5.3dB 개선하고, NeRF 기반 방법에 비해 학습 속도를 150배 향상시키며, 3DGS와 유사한 렌더링 속도를 달성합니다.

1. Introduction

2D 이미지 컬렉션에서 새로운 뷰 합성은 가상 현실, 증강 현실, 자율 내비게이션을 포함한 광범위한 응용 분야로 상당한 관심을 받고 있습니다.

Structure-from-Motion (SFM) [11] 및 Multi-View Stereo (MVS)와 같은 전통적인 방법과 최근에는 Neural Radiance Fields [8] 및 그 확장 [1, 9]가 3D 장면 photometric 재구성을 위한 토대를 마련했습니다.

그러나 이러한 접근 방식은 photometric 변화, 일시적인 폐색기 또는 장면 불일치를 나타내는 시간 또는 날씨 변화와 같이 서로 다른 모양의 동일한 위치에서 캡처된 이미지 컬렉션에 어려움을 겪는 경우가 많습니다.

NeRF-W [7] 또는 기타 [4, 5, 13]과 같은 NeRF 확장은 이미지별 외관 임베딩을 최적화하고 렌더링을 조건화하여 이러한 변화를 캡처할 수 있습니다.

그러나 이러한 방법은 최적화 및 렌더링 속도가 느립니다,

반면에 3D Gaussian Splatting [6]은 더 빠른 학습과 실시간 렌더링 기능을 제공하는 유망한 대안으로 부상했습니다.

3DGS는 명시적인 3D 가우시안 포인트를 사용하는 장면을 나타내며, 효율적인 렌더링을 달성하기 위해 미분 가능한 래스터라이저를 사용합니다.

그러나 3DGS의 명시적인 특성으로 인해 이미지별 외관 임베딩을 통한 야생 사례 처리가 사소하지 않습니다.

본 논문에서는 Nerfstudio에서 구현된 3DGS로 야생 문제를 처리하기 위한 간단하고 간단한 접근 방식인 Spatfacto-W를 소개합니다.

우리의 방법은 3DGS에 비해 평균 5.3dB 증가하여 PSNR을 크게 개선했습니다.

Spatfacto-W는 3DGS와 비슷한 렌더링 속도를 유지하여 RTX 2080Ti와 같은 상용 GPU에서 실시간 성능을 구현합니다.

또한, 우리의 접근 방식은 배경 표현을 효과적으로 처리하여 3DGS 구현의 일반적인 한계를 해결합니다.

SWAG [3] 및 GS-W [14]와 같이 3DGS로 야생 시나리오를 처리하려는 노력이 있었습니다.

그러나 이러한 접근 방식에는 한계가 있습니다.

SWAG의 암시적 색상 예측은 잠재 임베딩을 쿼리해야 하기 때문에 렌더링 속도가 느려지는 반면, GS-W는 2D 모델에 의존하기 때문에 학습 속도와 추론 속도가 모두 제한됩니다.

반면, Spatfacto-W는 몇 가지 주요 기여를 제공합니다:

1. 잠재적 외관 모델링: 가우시안 포인트마다 외관 기능을 할당하여 참조 이미지의 변화에 효과적인 가우시안 색상 적응을 가능하게 합니다. 이는 나중에 명시적인 색상으로 변환하여 렌더링 속도를 보장할 수 있습니다.
2. 일시적인 객체 처리: 최적화 과정에서 일시적인 객체를 마스킹하는 효율적인 휴리스틱 기반 방법으로, 2D 사전 학습된 모델에 의존하지 않고 일관된 장면 특징에 대한 집중도를 향상시킵니다.
3. 배경 모델링: 구형 고조파 기반 배경 모델로 하늘과 배경 요소를 정확하게 표현하여 멀티뷰 일관성을 향상시킵니다.

그림 1. Splatfacto-W: 야생 이미지의 실시간 탐색. 우리의 접근 방식은 nerfstudio 뷰어에서 실시간으로 외관을 변경할 수 있도록 지원합니다. 예를 들어, 각 입력 이미지를 클릭하고 해당 외관 컨디셔닝을 사용하여 장면을 탐색한 다음 입력 뷰를 클릭하여 다른 이미지로 원활하게 이동할 수 있습니다.

우리의 접근 방식은 그림 1과 같이 실시간 상호 작용을 가능하게 하면서도 NeRF-W보다 17% 높은 PSNR에서 다양한 조명과 같은 야생 문제를 처리할 수 있습니다.

2. Related Work

2.1. Neural Rendering in the Wild

NeRF-W [7]와 같은 선구적인 접근 방식은 장면의 정적 및 일시적 구성 요소에 대해 별도의 래디언스 필드와 함께 두 개의 이미지별 임베딩(외관 및 일시적)을 사용하여 정적 및 일시적 폐색기를 분리할 것을 제안했습니다.

반면, Ha-NeRF [2]는 2D 이미지 의존적 가시성 맵을 사용하여 폐색기를 제거하여 일시적 현상이 개별 2D 이미지에서만 관찰되므로 분리된 래디언스 필드의 필요성을 우회합니다.

이러한 단순화는 3D 일시적 필드로 일시적 현상을 재구성할 때 NeRF-W [7]가 직면하는 블러 아티팩트를 줄이는 데 도움이 됩니다.

이전 방법을 기반으로 CR-NeRF [13]는 여러 ray의 상호 작용 정보를 활용하고 전역 정보에 통합하여 성능을 향상시킵니다.

이 방법은 가벼운 세그멘테이션 네트워크를 사용하여 ground truth 세그멘테이션 마스크 없이도 가시성 맵을 학습하여 2D 이미지의 일시적인 부분을 효과적으로 제거합니다.

또 다른 최근 발전인 RefinedFields [5]는 야생 시나리오에 K-Plane과 생성 우선순위를 활용합니다.

이 접근 방식은 두 단계를 번갈아 가며 사용합니다: 사전 학습된 생성 prior를 파인튜닝하고 새로운 K-Planes 표현을 추론하기 위해 K-Planes [4] 표현을 최적화하고 장면을 풍부하게 하는 장면 피팅.

암시적 필드 표현은 야생 시나리오에 대해 다양한 적응을 보여 왔습니다.

그러나 학습 및 추론 프로세스는 시간이 많이 걸리기 때문에 실시간 렌더링을 달성하는 데 상당한 어려움이 있습니다.

이러한 한계는 빠른 렌더링 속도가 필수적인 실제 시나리오, 특히 다양한 대화형 3D 애플리케이션에서 적용을 방해합니다.

NeRF-W의 외관 임베딩에서 영감을 받은 Spatfacto-W는 조명 변형을 처리하기 위해 이미지와 현명한 외관 임베딩을 사용합니다.

2.2. Gaussian Splatting in the Wild

3D Gaussian Splatting (3DGS) [6]의 최근 발전은 특히 정적 장면에 대한 효율적이고 고품질의 새로운 뷰 합성에 대한 가능성을 보여주었습니다.

그러나 photometric 변형과 일시적인 폐색기를 포함하는 제약이 없는 야생 이미지 컬렉션에 이러한 방법을 적용하는 것은 여전히 어려운 과제입니다.

이 분야에 두 가지 중요한 기여를 한 것은 SWAG (Splatting in the Wild images with Appearance-conditioned Gaussians) [3]와 GS-W (Gaussian in the Wild) [14]입니다.

SWAG [3]는 외관 조건 가우시안을 도입하여 3DGS를 확장합니다.

이 방법은 multilayer perceptron (MLP)을 통해 가우시안의 색상을 변조하는 이미지별 임베딩을 학습하여 렌더링된 이미지의 외관 변화를 모델링합니다.

또한 SWAG는 일시적인 가우시안을 비지도 방식으로 학습하는 새로운 메커니즘을 사용하여 일시적인 폐색기를 해결하여 이전 방법 [2, 4, 7]에 비해 장면 재구성 품질과 렌더링 효율을 개선합니다.

그러나 SWAG의 각 가우시안에 대한 색상 예측은 암묵적이므로 해시 그리드의 각 가우시안에 대한 잠재 임베딩에 대한 쿼리가 필요하며, 렌더링 속도가 약 15FPS로 느려지면 3DGS의 181FPS가 형성됩니다.

마찬가지로 GS-W [14]는 각 3D 가우시안 포인트에 별도의 intrinsic 및 동적 외관 피쳐를 장착하여 야생 시나리오를 처리하기 위한 개선 사항을 제안합니다.

이러한 분리를 통해 GS-W는 장면의 각 포인트에 대한 고유한 재료 속성과 환경 영향을 더 잘 모델링할 수 있습니다.

또한 GS-W는 로컬 및 세부 정보를 보다 효과적으로 캡처하기 위해 적응형 샘플링 전략을 도입하고 일시적인 폐색기의 영향을 완화하기 위해 2D 가시성 맵을 사용합니다.

그러나 이 방법은 학습 속도와 추론 속도를 모두 늦추는 2D U-Net을 도입하고 렌더링 해상도를 제한합니다.

우리의 방법은 SWAG와 GS-W의 속도 제한을 개선하고 배경 문제를 해결하기 위해 구형 고조파 기반 배경 모델을 도입하여 멀티뷰 일관성을 향상시킵니다.

3. Preliminaries

3D Gaussian Splatting [6]은 알려진 카메라 포즈를 가진 정적 이미지에서 3D 장면을 재구성하는 방법입니다.

명시적인 3D 가우시안 포인트(가우시안)를 사용하여 장면을 표현하고 미분 가능한 타일 기반 래스터라이저를 통해 실시간 이미지 렌더링을 달성합니다.

이러한 가우시안 포인트의 위치(μ)는 이미지 세트에서 Structure-from-Motion (SFM) [11]으로 추출된 포인트 클라우드로 초기화됩니다.

3D 공분산 (Σ)은 각 가우시안 포인트가 주변 영역의 색 anisotropy에 미치는 영향을 모델링합니다:

각 가우시안 포인트에는 불투명도 (α) 및 색상 (c) 속성이 있으며, 색상은 3차 구형 고조파 계수로 표시됩니다.

렌더링할 때 3D 공분산 (Σ)은 뷰 변환 (W)과 투영 변환 (J)의 아핀 근사치의 자코비안을 사용하여 2D (Σ')에 투영됩니다:

각 픽셀의 색상은 α-블렌딩을 사용하여 집계됩니다:

여기서 r은 픽셀의 위치를 나타내며 G_r은 해당 픽셀과 관련된 정렬된 가우시안 포인트를 나타냅니다.

최종 렌더링된 이미지는 모든 가우시안 속성을 최적화하기 위해 학습용 참조 이미지로 loss를 계산하는 데 사용됩니다.

또한 그래디언트와 불투명도를 기반으로 포인트 성장과 가지치기 전략이 고안되었습니다.

4. Splatfacto-W

이제 야생 사진 모음에서 3D 장면을 재구성하는 시스템인 Splatfacto-W를 소개합니다.

우리는 Nerfstudio [12]의 Splatfacto 위에 구축하고 제약 없는 이미지의 문제를 처리하도록 명시적으로 설계된 세 가지 모듈을 소개합니다.

전체 파이프라인의 그림은 그림 2에서 확인할 수 있습니다.

그림 2. 우리는 외관 모델을 사용하여 각 가우시안의 색상을 예측하는 것으로 시작합니다. 그런 다음 이러한 가우시안을 래스터화하여 전경 객체를 생성합니다. 배경 모델은 주어진 ray 방향으로 배경을 예측합니다. 알파 블렌딩을 사용하여 전경과 배경을 병합하여 최종 이미지를 생성합니다. 이 최종 이미지는 마스킹된 ground truth 이미지와 비교된 다음 강건한 마스크를 통해 처리되어 모델 매개 변수를 업데이트합니다.

4.1. Latent Appearance Modeling

3D Gaussian Splatting [6]은 일관된 이미지 세트의 장면을 재구성하기 위해 설계되었으며 색상 모델링을 위해 구형 고조파 계수를 사용합니다.

우리의 접근 방식에서는 이러한 규칙에서 벗어납니다.

대신, 차원 n의 외관 임베딩 벡터 ℓ_j와 함께 참조 이미지의 변화에 적응하여 각 가우시안 포인트에 새로운 외관 피쳐 f_i를 도입합니다.

θ로 매개변수화된 multi-layer perceptron (MLP)을 사용하여 각 가우시안의 구형 고조파 계수 b_i를 예측합니다:

{ℓ_j} 및 {f_i} 임베딩은 θ와 함께 최적화되며, 여기서 N_img는 이미지의 수이고 N_gs는 가우시안 포인트의 수이다.

그런 다음 SH 계수 b_i에서 가우시안 포인트 i에 대한 색상 c_i를 복구합니다:

여기서 d_i는 가우스 포인트 i의 뷰 방향입니다.
Y_ℓ^m은 구형 고조파 기저 함수입니다.

이 접근 방식을 사용하면 MLP에 뷰 방향을 입력하는 것을 방지할 수 있으므로 모든 외관 임베딩에 대해 단일 추론으로 가우시안 상태를 캐시하여 3DGS와 동일한 렌더링 속도를 가질 수 있습니다.

4.2. Transient Handling with Robust Mask

우리의 objective는 가우시안 스플래팅의 최적화 프로세스 내에서 일시적인 객체를 처리하는 마스크 생성을 위한 효율적인 방법을 개발하는 것입니다.

초기화된 포인트 클라우드에 대한 가우시안 스플래팅의 의존성은 일시적인 객체 표현에 대한 최적의 성능을 저하시켜 영향을 받는 영역에서 loss를 증가시킵니다.

픽셀을 전략적으로 마스킹함으로써 보다 일관된 장면 피쳐에 대한 모델의 집중도를 향상시키는 것을 목표로 합니다.

우리는 RobustNeRF [10]와 유사한 전략을 채택합니다.

우리는 ground truth와 렌더링된 이미지 사이의 특정 백분위수를 초과하는 잔차가 일시적인 물체를 가리키므로 해당 픽셀을 마스킹해야 한다고 가정합니다.

또한, 우리는 ground truth와 예측 이미지 사이의 loss가 적을수록 더 정확한 표현을 의미하므로 일시적인 물체가 적다는 것을 의미한다고 가정합니다.

이전 가정에 따르면 마스킹하기 전에 ground truth 이미지와 예측 이미지 사이의 최대, 최소 및 현재 L1 loss를 기록합니다.

그런 다음 현재 마스크 비율을 최대 마스킹 비율과 최소 마스킹 비율(Per_max 및 Per_min) 사이에 선형 보간합니다.

최적화가 진행됨에 따라 일시적인 객체가 적은 이미지는 더 낮은 loss를 나타내므로 마스크 비율이 감소합니다.

반대로 일시적인 객체가 더 많은 이미지는 더 높은 loss를 유지합니다.

마스킹 임계값은 다음과 같이 결정됩니다.

모든 픽셀에 대한 잔차의 백분위수 T_ϵ = (1 - k)%, 여기서 k = (L!_current - L1_min) / (L1_max - L1_min) * (Per_max - Per_min) + Per_min

우리는 픽셀당 마스크 ˜ω(r)를 생성하는 것으로 시작하며, 여기서 인라이어(즉, 모델이 학습할 픽셀)는 1이고 아웃라이어(즉, 모델이 학습하지 않고 마스킹할 픽셀)는 0입니다.

보다 효율적인 모델 수렴을 보장하기 위해 추가 조건을 도입합니다: 대부분의 이미지에서 이 영역은 일반적으로 하늘에 해당하므로 이미지의 상위 n%에 속하는 픽셀은 항상 인라이어로 표시합니다.

상위 n%(실제로는 n=40 선택) 영역 마스크를 정의합니다:

, 여기서 H는 이미지의 높이이고 r_y는 픽셀의 행 좌표입니다.

따라서 픽셀 r의 loss ϵ(r)가 T_ϵ 이하이거나 이미지의 상위 40%에 속할 때 ˜ω(r)가 활성화됩니다(픽셀을 인라이어로 표시).

, 여기서 ∨는 논리적 OR 연산을 나타냅니다.

또한 일시적 객체의 공간적 평활성을 캡처하기 위해 5×5 박스 커널 B_(5×5)로 ˜ω의 인라이어/아웃라이어 레이블을 공간적으로 블러링합니다.

최종 마스크 W는

로 표현됩니다.

이는 일시적 객체의 픽셀로 분류되는 고주파 디테일을 제거하여 최적화 중에 캡처할 수 있도록 하는 경향이 있습니다.

4.3. Background Modeling

3DGS는 이미지에 대한 depth 인식이 부족하고 실외 이미지는 배경에 단색의 넓은 영역을 특징으로 하는 경우가 많기 때문에 실외 장면에서 배경을 정확하게 표현하는 것이 어렵습니다.

또한 초기 포인트 클라우드는 하늘의 공간적 위치를 부적절하게 표현합니다.

이로 인해 3DGS 최적화 과정에서 하늘 요소가 카메라에 가까워지거나 건물 구조물 및 나무 잎에 인접하여 나타날 수 있는 하늘의 일관성 없는 표현이 발생할 수 있습니다.

이는 배경을 표현하기 위한 새로운 가우시안이 전경 물체를 나타내는 가우시안과 분리되어 하늘과 전체 배경을 흩어져 부정확하게 묘사함에 따라 발생합니다.

또한, 야생 컬렉션의 이미지는 하늘의 다양한 모습을 보여 이 문제를 더욱 악화시킵니다.

3DGS는 이미지 공간 매칭에만 초점을 맞추기 때문에 하늘은 종종 최적화된 장면 구조와 연결되어 멀티뷰 일관성을 잃게 됩니다.

2D depth 모델 priors 또는 배경 세그멘테이션을 도입하여 가우시안이 멀리 있는 배경을 표현할 수 있지만, 이는 의심할 여지없이 계산 오버헤드와 추가 모델 의존성을 증가시킵니다.

또한 수만 개의 가우시안을 사용하여 이미지의 비교적 간단한 배경 부분을 표현하는 것은 현명하지 않습니다.

이 문제를 해결하기 위해 간단하지만 효과적인 prior를 소개합니다: 배경은 무한대로 표현되어야 합니다.

하늘 부분은 일반적으로 저주파 변형이 특징이라는 점을 감안할 때, 우리는 세 가지 수준의 Spherical Harmonics (SH) 기저 함수만 사용하면 하늘을 정확하게 모델링할 수 있다는 것을 발견했습니다.

배경이 일관된 장면의 경우 SH 계수 b 집합을 직접 최적화하여 배경을 효율적으로 모델링할 수 있습니다.

그러나 야생 시나리오에서는 배경이 이미지마다 달라지는 경우가 많습니다.

이러한 변동성을 수용하기 위해 외관 임베딩 벡터 ℓ_j를 입력으로 받아 현재 이미지의 배경에 대한 SH 계수 b를 예측하는 Multi-Layer Perceptron (MLP)을 사용합니다:

그런 다음 각 픽셀의 ray 방향 d_ray(r)에 대한 무한대 하늘의 색을 도출합니다.

위치 r의 픽셀에 대해 배경 색상 C_background(r)는

으로 예측되며, 여기서 Y_ℓ^m은 구형 고조파 기저 함수입니다.

각 픽셀에 대한 최종 색상을 계산하기 위해 전경 색상 C(r)와 배경 색상 사이의 알파 블렌딩을 사용합니다:

, 여기서 α(r)는 픽셀 위치 r의 알파 값(불투명도)입니다.

또한 새로운 loss 항을 도입합니다: 알파 loss.

이 loss는 배경 모델로 잘 표현되는 픽셀을 잘못 차지하는 가우시안(잠재적 전경 객체를 나타내는)에게 불이익을 주기 위해 설계되었습니다.

우리는 배경 모델에 의해 잘 표현되는 픽셀 p_i를 선택하는 것으로 시작합니다(즉, 배경과 ground truth 사이의 잔차가 특정 임계값 미만임).

false positive를 방지하고 배경의 저주파 특성을 활용하기 위해 선택한 각 픽셀의 주변 픽셀도 배경에 속하는지 확인합니다.

그렇지 않으면 해당 픽셀의 선택을 취소합니다.

이러한 픽셀에 해당하는 가우시안의 알파를 낮게 설정할 것을 권장합니다.

구체적으로 알파 loss L_α는

으로 표현할 수 있으며, 여기서 α(r)는 픽셀 r에서 가우시안의 축적이고 λ은 스케일링 팩터입니다.

집합 p_i는

로 정의되며, 여기서 M'(r)은

및

로 계산된 잔여 마스크 M에 3×3 박스 필터를 적용한 결과입니다.

이 접근 방식은 배경의 매끄러움을 고려하여 필터링된 마스크에서 확인할 수 있듯이 배경 모델로 유의미하게 표현된 픽셀만이 알파 loss에 기여하도록 보장합니다.

5. Experiments

5.1. Implementation Details

우리는 MLP F_θ 가중치, 외관 임베딩 및 가우스 외관 피쳐와 함께 3D 가우시안 매개변수를 최적화하기 위해 D-SSIM 항 및 알파 loss 항과 결합된 L1 loss를 최소화합니다.

우리는 단일 RTX2080Ti에서 65000회 반복을 학습합니다.

외관 임베딩은 48차원으로 구성되며 가우스 외관 피쳐는 72차원으로 설정됩니다.

외관 모델의 아키텍처는 너비 256의 3 레이어 MLP를 통합하고 배경 모델은 너비 128의 3 레이어 MLP를 사용합니다.

5.2. Quantitative Results

일반적인 렌더링 지표를 사용하여 정량적 결과를 제공합니다: Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index Measure (SSIM), 및 Learned Perceptual Image Patch Similarity (LPIPS).

학습 중에 이미지에 대한 임베딩만 최적화하는 NeRF-W [7] 평가 접근 방식에 따라 각 테스트 이미지의 왼쪽 절반에 임베딩을 최적화하고 오른쪽 절반에 메트릭을 보고합니다.

우리는 데이터 세트의 모든 이미지를 학습하고 평가를 위해 NeRF-W [7]와 동일한 테스트 이미지 세트를 선택합니다.

최종 정량적 평가는 표 1에 나와 있습니다.

표 1. 세 가지 NeRF-W 데이터 세트에 대한 결과. 우리는 각 열을 최고 (red), 두 번째 (orange), 세 번째 (yellow)로 최고로 색칠합니다. *는 상위 GPU를 사용하여 계산된 결과 [3]. †는 RTX3090 [14]을 사용하여 계산한 결과. 우리의 결과는 단일 RTX2080Ti로 계산되었습니다. FPS는 캐싱 없이 계산됩니다.

이 섹션에서는 또한 방법의 두 가지 변형을 비교하여 Spatfacto-W의 각 구성 요소의 기여도를 분석합니다:
• Spatfacto-W-A, 외관 모델만 활성화된 변형.
• Spatfacto-W-T, 외관 모델과 강력한 마스크만 사용할 수 있는 변형.

우리의 실험은 우리의 방법이 경쟁력 있는 결과를 도출한다는 것을 보여줍니다.

놀랍게도 배경 및 가우시안 포인트에 대한 SH 계수를 캐싱하지 않더라도 우리의 방법은 초당 40프레임(fps) 이상의 실시간 렌더링을 달성하고 동적 외관 변경을 지원합니다.

현재 하이퍼파라미터를 사용하면 학습 프로세스에 6GB 미만의 GPU 메모리가 필요하고 단일 RTX 2080Ti에서 가장 빠른 성능을 달성하여 가정용 컴퓨터에서 학습이 가능합니다.

추가 이미지 평가 결과는 그림 3에 나와 있습니다.

그림 3. Trevi Fountain, Brandenburg Gate, 및 Sacre Coeur에 대한 평가 결과 (왼쪽: ground truth, 오른쪽: Splatfacto-W)

5.3. Background Modeling

우리의 배경 모델은 Splatfacto에도 적용될 수 있습니다.

우리의 방법은 그림 4와 같이 대부분의 배경 플로터를 제거하여 2D 가이던스 없이 다양한 시점에서 더 큰 배경 및 depth 일관성을 제공합니다.

그림 4. Splatfacto의 배경 모델링(왼쪽: 배경 모델 없음, 오른쪽: 배경 모델 있음)

6. Discussion

U-Net과 같은 2D 모델에 의한 이미지 정보의 압축 및 이해 부족으로 인해, 우리의 방법은 특정 시간대의 햇빛으로 인한 그림자 및 하이라이트와 같은 특수 조명 조건을 가진 이미지에 느리게 수렴합니다.

이미지 하이라이트와 현재 예측 결과 사이의 잔차를 학습하기 위해 추가 네트워크와 가우시안 포인트 피쳐를 도입하면 이러한 문제를 완화할 수 있습니다.

그러나 이 접근 방식은 또한 추가적인 계산 및 저장 오버헤드를 도입하여 초기 목표와 모순됩니다.

따라서 궁극적으로 이 방법을 채택하지 않았습니다.

마스킹 전략은 대부분의 경우에 효과적이고 학습 기간에 미치는 영향은 미미하지만, 앞서 언급한 시나리오의 그림자와 하이라이트는 상당한 loss를 초래할 수 있으므로 모델이 이러한 부분을 간과하고 수렴을 더욱 복잡하게 만들 수 있습니다.

또 다른 문제는 SH 배경 모델이 저주파 배경만 모델링할 수 있기 때문에 클라우드 부분을 표현하는 데 효과적이지 않아 PSNR이 감소한다는 것입니다.

7. Conclusion

본 논문에서는 야생 시나리오에서 새로운 뷰 합성을 위한 3D Gaussian Splatting(3DGS)의 기능을 크게 향상시키는 접근 방식인 Splatfacto-W를 소개했습니다.

잠재적 외관 모델링, 효율적인 일시적 객체 처리 메커니즘, 강력한 신경 배경 모델을 통합하여 SWAG 및 GS-W와 같은 기존 접근 방식의 한계를 해결합니다.

우리의 실험은 Splatfacto-W가 여러 까다로운 데이터 세트에서 PSNR, SSIM 및 LPIPS 지표 측면에서 더 나은 성능을 달성하는 동시에 실시간 렌더링 기능을 보장한다는 것을 보여줍니다.

외관 피쳐와 강력한 마스킹 전략을 도입하면 모델이 photometric 변화와 일시적인 폐색기를 효과적으로 처리하여 보다 일관되고 고품질의 장면 재구성을 제공할 수 있습니다.

또한 신경 배경 모델은 하늘 및 배경 요소를 정확하게 표현하여 배경 플로터 및 잘못된 depth 배치와 관련된 문제를 제거함으로써 멀티뷰 일관성을 향상시킵니다.

이러한 발전에도 불구하고 특수 조명 조건에서의 느린 수렴과 고주파 배경 세부 정보를 표현하는 데 한계가 있는 등의 과제가 남아 있습니다.

향후 연구는 일시적 현상을 개선하고 배경 모델링을 더욱 향상시키기 위해 보다 정교한 신경 아키텍처와 추가 네트워크 구성 요소를 탐색하여 이러한 문제를 해결하는 데 중점을 둘 것입니다.

'3D Vision > NeRF with Real-World' 카테고리의 다른 글

Gaussian in the Wild: 3D Gaussian Splatting for Unconstrained Image Collections (0)	2024.10.11
NeRF On-the-go: Exploiting Uncertainty for Distractor-free NeRFs in the Wild (1)	2024.10.11
RobustNeRF: Ignoring Distractors with Robust Losses (0)	2024.10.03
Cross-Ray Neural Radiance Fields for Novel-view Synthesis from Unconstrained Image Collections (0)	2024.10.02
NeRF-MS: Neural Radiance Fields with Multi-Sequence (0)	2024.09.28

프린이씨롯메

프린이씨롯메

태그

최근글

댓글

공지사항

아카이브