VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction

VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction

2025. 3. 20. 14:16ㆍ3D Vision/Urban Scene Reconstruction

VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction

Jiaqi Lin, Zhihao Li, Xiao Tang, Jianzhuang Liu, Shiyong Liu, Jiayue Liu, Yangdi Lu, Xiaofei Wu, Songcen Xu, Youliang Yan, Wenming Yang

Abstract

기존의 NeRF 기반 대형 장면 재구성 방법은 종종 시각적 품질과 렌더링 속도에 한계가 있습니다.
최근 3D 가우시안 스플랫팅은 소규모 및 객체 중심 장면에서 잘 작동하지만, 이를 큰 장면으로 확장하는 것은 제한된 비디오 메모리, 긴 최적화 시간, 눈에 띄는 외관 변화로 인해 도전 과제가 됩니다.
이러한 문제를 해결하기 위해 3D 가우시안 스플랫팅을 기반으로 한 대형 장면에서 고품질 재구성 및 실시간 렌더링을 위한 최초의 방법인 VastGaussian을 소개합니다.
우리는 큰 장면을 여러 셀로 나누어 학습 카메라와 포인트 클라우드가 항공-인식 가시성 기준으로 적절히 분배되는 점진적 분할 전략을 제안합니다.
이 셀들은 병렬 최적화 후 완전한 장면으로 병합됩니다.
또한 렌더링된 이미지의 외관 변화를 줄이기 위해 최적화 프로세스에 분리된 외관 모델링을 도입합니다.
우리의 접근 방식은 기존 NeRF 기반 방법을 능가하며 여러 대규모 장면 데이터셋에서 SOTA 결과를 달성하여 빠른 최적화와 높은 충실도의 실시간 렌더링을 가능하게 합니다.

그림 1. UrbanScene3D 데이터셋의 Residence 장면에서 세 가지 SOTA 방법과 우리의 VastGaussian 렌더링 [26]. (a, b) Mega-NeRF [44]와 Switch-NeRF [61]은 느린 렌더링 속도로 블러 결과를 생성합니다. (c) 3D Gaussian Splatting (3DGS) [21]을 수정하여 32GB GPU에서 충분한 반복에 최적화할 수 있도록 합니다. 렌더링된 이미지는 훨씬 샤프하지만 플로터가 많습니다. (d) 우리의 VastGaussian은 대규모 장면 재구성에서 SOTA 방법들보다 더 높은 품질과 훨씬 빠른 렌더링을 달성하며, 학습 시간도 훨씬 짧습니다.

1. Introduction

대형 장면 재구성은 자율 주행 [22, 33, 54], 항공 측량 [6, 13], 가상 현실 등 많은 응용 분야에서 필수적이며, 이는 사진사실적인 시각적 품질과 실시간 렌더링이 필요합니다.
일부 접근 방식 [41, 44, 52, 53, 61]은 대규모 장면으로 neural radiance fields (NeRF) [31]을 확장하기 위해 도입되었지만, 여전히 세부 사항이 부족하거나 느리게 렌더링됩니다.
최근 3D Gaussian Splatting (3DGS) [21]은 시각적 품질과 렌더링 속도 면에서 인상적인 성능을 보이며 1080p 해상도의 포토리얼리티 및 실시간 렌더링을 가능하게 하는 유망한 접근 방식으로 떠오르고 있습니다.
동적 장면 재구성 [28, 51, 55, 56] 및 3D 콘텐츠 생성 [12, 42, 59]에도 적용됩니다.
그러나 이러한 방법들은 소규모 및 객체 중심 장면에 중점을 둡니다.
대규모 환경에 적용될 때, 여러 가지 확장성 문제가 있습니다.
첫째, 주어진 비디오 메모리에 의해 3D 가우시안의 수가 제한되는 반면, 큰 장면의 풍부한 디테일은 수많은 3D 가우시안을 필요로 합니다.
대규모 장면에 3DGS를 나이브하게 적용하면 저품질 재구성 또는 메모리 부족 오류가 발생할 수 있습니다.
직관적인 설명을 위해 32GB GPU를 사용하여 약 11M의 3D 가우시안을 최적화할 수 있으며, 면적이 100m^2 미만인 Mip-NeRF 360 데이터셋 [3]의 작은 Garden 장면은 이미 약 5.8M의 3D 가우시안이 필요하여 고충실도 재구성이 가능합니다.
둘째, 전체 대형 장면을 최적화하기 위해서는 충분한 반복이 필요하며, 이는 시간이 많이 걸리고 적절한 정규화 없이는 불안정할 수 있습니다.
셋째, 큰 장면에서는 조명이 보통 고르지 않으며, 그림 2(a)와 같이 캡처된 이미지에서 눈에 띄는 외관 변화가 있습니다.
3DGS는 다양한 관점에서 이러한 차이를 보완하기 위해 불투명도가 낮은 대형 3D 가우시안을 생성하는 경향이 있습니다.
예를 들어, 밝은 얼룩은 노출이 높은 이미지로 카메라 가까이 다가오는 경향이 있고, 어두운 얼룩은 노출이 낮은 이미지와 관련이 있습니다.
이 얼룩들은 그림 2(b, d)와 같이 새로운 관점에서 관찰될 때 공기 중의 불쾌한 플로터로 변합니다.

그림 2. (a) 인접한 학습 뷰에서는 외관이 달라질 수 있습니다. (b) 카메라 근처에 다양한 밝기의 학습 이미지가 있는 어두운 얼룩이나 밝은 얼룩이 생길 수 있습니다. (c) 3D 가우시안 스플랫팅은 이러한 블롭을 사용하여 외관 변화를 맞추어 렌더링을 (a)의 학습 이미지와 유사하게 만듭니다. (d) 이 얼룩들은 새로운 관점에서 플로터로 나타납니다. (e) 분리된 외관 모델링을 통해 모델은 일정한 색상을 학습할 수 있으므로 렌더링된 이미지는 다양한 뷰에서 더 일관된 외관을 유지할 수 있습니다. (f) 우리의 접근 방식은 새로운 관점에서 플로터를 크게 줄여줍니다.

이러한 문제를 해결하기 위해, 우리는 3D 가우시안 스플래팅을 기반으로 한 대형 장면 재구성을 위해 Vast 3D Gaussians (VastGaussian)을 제안합니다.
우리는 큰 장면을 분할 정복 방식으로 재구성합니다: 큰 장면을 여러 개의 셀로 분할하고 각 셀을 독립적으로 최적화한 다음, 마지막으로 전체 장면으로 병합합니다.
이 셀들은 더 fine한 공간 규모와 더 작은 데이터 크기로 인해 최적화하기가 더 쉽습니다.
자연스럽고 나이브한 분할 전략은 학습 데이터를 위치에 따라 지리적으로 배포하는 것입니다.
이는 일반적인 카메라가 거의 없기 때문에 인접한 두 셀 사이에 경계 아티팩트를 일으킬 수 있으며, 충분한 supervision 없이 공중에 플로터를 생성할 수 있습니다.
따라서, 우리는 더 많은 학습 카메라와 포인트 클라우드를 점진적으로 통합하여 원활한 병합을 보장하고 공중 플로터를 제거하기 위해 가시성 기반 데이터 선택을 제안합니다.
우리의 접근 방식은 3DGS보다 더 나은 유연성과 확장성을 제공합니다.
이 셀들 각각은 더 적은 수의 3D 가우시안을 포함하고 있어, 특히 여러 GPU와 병렬로 최적화될 때 메모리 요구 사항과 최적화 시간이 줄어듭니다.
병합된 장면에 포함된 3D 가우시안의 총 수는 전체적으로 학습된 장면의 수를 크게 초과하여 재구성 품질을 향상시킬 수 있습니다.
또한, 전체 큰 장면을 재학습하지 않고도 새로운 셀을 통합하거나 특정 영역을 파인튜닝하여 장면을 확장할 수 있습니다.

외관 변형으로 인한 플로터를 줄이기 위해 NeRF 기반 방법 [41, 61]에 외관 임베딩 [29]이 포함된 Generative Latent Optimization (GLO) [5]가 제안되었습니다.
이 접근 방식은 레이마칭을 통해 포인트를 샘플링하고, 포인트 피쳐를 외관 임베딩과 함께 MLP에 입력하여 최종 색상을 얻습니다.
렌더링 프로세스는 최적화와 동일하며, 여전히 입력으로 외관 임베딩이 필요합니다.
렌더링이 MLP 없이 프레임 단위 래스터화로 수행되기 때문에 3DGS에는 적합하지 않습니다.
따라서 최적화에만 적용되는 새로운 분리형 외관 모델링을 제안합니다.
렌더링된 이미지에 픽셀 단위로 외관 임베딩을 부착하고, 이를 CNN에 입력하여 렌더링된 이미지에 외관 조정을 적용하기 위한 변환 맵을 얻습니다.
렌더링된 이미지와 실제 이미지 간의 구조적 차이를 페널티화하여 일정한 정보를 학습하고, 조정된 이미지에서 학습 이미지의 외관 변화에 맞게 photometric loss를 계산합니다.
일관된 렌더링만 필요하므로 이 외관 모델링 모듈은 최적화 후 폐기할 수 있으므로 실시간 렌더링 속도가 느려지지 않습니다.

여러 대규모 장면 벤치마크에 대한 실험을 통해 NeRF 기반 방법보다 우리 방법이 우수하다는 것을 확인했습니다.
우리의 기여는 다음과 같이 요약됩니다:
• 우리는 3D 가우시안 스플래팅을 기반으로 한 대형 장면에서 고충실도 재구성 및 실시간 렌더링을 위한 최초의 방법인 VastGaussian을 소개합니다.
• 우리는 학습 뷰와 포인트 클라우드를 서로 다른 셀에 할당하여 병렬 최적화와 원활한 병합을 가능하게 하는 점진적인 데이터 분할 전략을 제안합니다.
• 우리는 외관 변화로 인한 플로터를 억제하는 최적화 과정에 분리된 외관 모델링을 도입합니다. 이 모듈은 최적화 후 폐기하여 실시간 렌더링 속도를 얻을 수 있습니다.

2. Related Work

2.1. Large Scene Reconstruction

지난 수십 년 동안 이미지 기반 대형 장면 재구성에서 상당한 진전이 있었습니다.
일부 작품 [1, 16, 23, 34, 38, 39, 62]은 카메라 포즈와 희소한 포인트 클라우드를 추정하기 위해 structure-from-motion (SfM) 파이프라인을 따릅니다.
다음 작품 [17, 19]은 multi-view stereo (MVS)를 기반으로 한 SfM 출력에서 밀집된 포인트 클라우드 또는 삼각형 메시를 생성합니다.
NeRF [31]이 최근 몇 년 동안 사진 현실적인 새로운 시각 합성을 위한 인기 있는 3D 표현이 되면서 품질을 향상시키고 [2–4, 24, 45, 47–49, 57] 속도를 증가시키며 [8, 9, 11, 14, 20, 32, 36, 37, 40, 43, 46, 58, 60] 동적 장면으로 확장하는 [7, 15, 18, 25, 27, 50] 많은 변형이 제안되고 있습니다.
일부 방법 [41, 44, 52, 53, 61]은 큰 장면으로 확장합니다.

Block-NeRF [41]은 도시를 여러 블록으로 나누고 위치에 따라 학습 뷰를 배포합니다.
Mega-NeRF [44]는 그리드 기반 분할을 사용하여 이미지의 각 픽셀을 ray가 통과하는 서로 다른 그리드에 할당합니다.
이러한 휴리스틱 분할 전략과 달리 Switch-NeRF [61]은 장면 분해를 학습하기 위해 NeRF 전문가 혼합 프레임워크를 도입합니다.
Grid-NeRF [53]은 장면 분해를 수행하지 않고 NeRF 기반 방법과 그리드 기반 방법의 통합을 사용합니다.
이러한 방법의 렌더링 품질은 기존 방법보다 크게 향상되었지만, 여전히 세부 사항이 부족하고 렌더링 속도가 느립니다.
최근 3D Gaussian Splatting [21]은 1080p 해상도의 고품질 실시간 렌더링을 통해 표현력 있는 명시적 3D 표현을 도입했습니다.
그러나 그것을 큰 장면으로 확장하는 것은 간단하지 않습니다.
우리의 VastGaussian은 장면 분할, 최적화 및 병합을 위한 새로운 디자인을 적용한 최초의 제품입니다.

2.2. Varying Appearance Modeling

외관 변형은 자동 노출, 자동 화이트 밸런스, 톤 매핑과 같은 다양한 카메라 설정이나 조명 변경 시 이미지 기반 재구성에서 흔히 발생하는 문제입니다.
NRW [30]는 데이터 기반의 외관 인코더를 대조 loss 방식으로 학습시키며, 이 인코더는 지연 셰이딩 딥 버퍼를 입력으로 받아 appearance embedding (AE)을 생성합니다.
NeRF-W [29]는 레이마칭에서 포인트 기반 피쳐에 AE를 부착하고 이를 MLP에 입력하여 최종 색상을 얻으며, 이는 많은 NeRF 기반 방법 [41, 44, 61]에서 표준 관행이 됩니다.
Ha-NeRF [10]은 AE를 다양한 뷰에서 전역적으로 표현하며, 뷰 일관성 loss로 학습합니다.
우리의 VastGaussian에서는 AE를 렌더링된 이미지와 연결하여 CNN에 입력하여 변환 맵을 얻고, 변환 맵을 사용하여 렌더링된 이미지를 외관 변화에 맞게 조정합니다.

3. Preliminaries

이 논문에서는 3D Gaussian Splatting (3DGS)을 기반으로 한 대형 장면 재구성 및 렌더링을 위한 VastGaussian을 제안합니다 [21].
3DGS는 3D 가우시안 G 집합을 통해 지오메트리와 외관을 나타냅니다.
각 3D 가우시안은 뷰 의존 색상에 대한 위치, 비등방성 공분산, 불투명도, 구면 조화 계수로 특징지어집니다.
렌더링 과정에서 각 3D 가우시안은 이미지 공간에 2D 가우시안으로 투영됩니다.
투영된 2D 가우시안은 서로 다른 타일에 할당되고, 정렬되어 알파 블렌딩되어 포인트 기반 볼륨 렌더링 방식으로 렌더링된 이미지가 됩니다 [63].

장면을 최적화하는 데 사용되는 데이터셋에는 희소 포인트 클라우드 P와 학습 뷰 V = {(C_i, I_i)}가 포함되어 있으며, 여기서 C_i는 i번째 카메라이고 I_i는 해당 이미지입니다.
P와 {C_i}는 {I_i}로부터 Structure-from-Motion (SfM)로 추정됩니다.
P는 3D 가우시안을 초기화하는 데 사용되며, V는 3D 가우시안의 미분 가능한 렌더링 및 그래디언트 기반 최적화에 사용됩니다.
카메라 C_i의 경우, 렌더링된 이미지 I_i^r = R(G, C_i)는 미분 가능한 래스터라이저 R에 의해 얻어집니다.
3D 가우시안의 특성은 다음

과 같이 I_i^r과 I_i 사이의 loss 함수에 대해 최적화됩니다, 여기서 λ는 하이퍼파라미터이고 L_D-SSIM은 DSSIM loss를 나타냅니다 [21].
이 과정은 포인트의 누적 그래디언트가 특정 임계값에 도달하면 트리거되는 적응형 포인트 밀도화와 맞물려 있습니다.

4. Method

3DGS [21]은 작은 장면과 객체 중심 장면에서 잘 작동하지만, 비디오 메모리 제한, 긴 최적화 시간, 그리고 외관 변화로 인해 큰 환경으로 확장될 때 어려움을 겪습니다.
이 논문에서는 실시간 고품질 렌더링을 위해 3DGS를 대형 장면으로 확장합니다.
우리는 큰 장면을 개별 최적화 후 병합되는 여러 셀로 분할할 것을 제안합니다.
섹션 4.1에서는 항공영역 인식 가시성 계산을 통한 점진적인 데이터 분할 전략을 소개합니다.
섹션 4.2에서는 개별 셀을 최적화하는 방법을 자세히 설명하며, 이미지의 외관 변화를 포착하기 위한 분리된 외관 모델링을 제시합니다.
마지막으로, 우리는 섹션 4.3에서 이 셀들을 병합하는 방법을 설명합니다.

4.1. Progressive Data Partitioning

우리는 큰 장면을 여러 셀로 나누고 최적화를 위해 포인트 클라우드 P와 뷰 V의 일부를 이 셀에 할당합니다.
이 각 셀에는 더 적은 수의 3D 가우시안이 포함되어 있어 메모리 용량이 낮은 최적화에 더 적합하며 병렬로 최적화하면 학습 시간이 더 적게 소요됩니다.
우리의 진보적인 데이터 분할 전략의 파이프라인은 그림 3에 나와 있습니다.

그림 3. 점진적인 데이터 분할. 맨 위 행: (a) 전체 장면은 지면에 투사된 2D 카메라 위치를 기준으로 여러 영역으로 나뉩니다. (b) 학습 카메라와 포인트 클라우드의 일부는 확장된 경계에 따라 특정 지역에 할당됩니다. (c) 공역 인식 가시성 기준에 따라 플로터를 줄이기 위해 더 많은 학습 카메라가 선택되며, 이 지역에서 충분한 가시성을 가진 카메라가 선택됩니다. (d) 선택된 카메라로 관찰되는 경우, 3D 가우시안을 더 잘 초기화하기 위해 포인트 클라우드의 더 많은 포인트가 통합됩니다. 하단 행: 더 많은 학습 카메라를 선택하기 위한 두 가지 가시성 정의. (e) 나이브한 방법: j번째 셀에서 i번째 카메라의 가시성은 Ω_ij^surf / Ω_i로 정의됩니다, 여기서 Ω_i는 이미지 I_i의 면적이고, Ω_ij^surf는 i_i에 투영된 j번째 셀의 표면 점들에 의해 형성된 볼록 껍질 면적입니다. (f) 공역 인식 솔루션: 볼록 껍질 영역 Ω_ij^air는 i_i의 j번째 셀 바운딩 박스 투영을 기반으로 계산됩니다. (g) 뎁스 모호성과 부적절한 점 초기화로 인해 발생하는 플로터는 학습 카메라의 충분한 supervision 없이는 제거할 수 없습니다.

Camera-position-based region division.

그림 3(a)에 나타난 바와 같이, 우리는 지면에서 투사된 카메라 위치를 기준으로 장면을 분할하고, 각 셀이 동일한 횟수의 반복 하에서 서로 다른 셀 간의 균형 잡힌 최적화를 보장하기 위해 유사한 수의 학습 뷰를 포함하도록 합니다.
일반성을 잃지 않고, m×n개의 셀 그리드가 문제의 장면에 잘 맞는다고 가정하면, 먼저 지상 평면을 한 축을 따라 m개의 섹션으로 나누며, 각 섹션에는 대략 |V|/m 뷰가 포함됩니다.
그런 다음 각 섹션은 다른 축을 따라 n개의 세그먼트로 더 세분화되며, 각 세그먼트에는 대략 |V|/(m×n) 뷰가 포함됩니다.
여기서는 그리드 기반 분할을 예로 들지만, 우리의 데이터 분할 전략은 섹터화 및 쿼드트리와 같은 다른 지리 기반 분할 방법에도 적용될 수 있습니다.

Position-based data selection.

그림 3(b)에 나타난 바와 같이, 경계를 확장한 후 각 셀에 학습 뷰 V와 포인트 클라우드 P의 일부를 할당합니다.
구체적으로, j번째 영역을 ℓ_j^h × ℓ_j^w 직사각형으로 경계짓고; 이 논문에서는 원래 경계를 일정 비율, 즉 20% 확장하여 크기가 더 큰 직사각형(ℓ_j^h + 0.2ℓ_j^h )×(ℓ_j^w + 0.2ℓ_j^w)으로 만듭니다.
우리는 확장된 경계를 기준으로 학습 뷰 V를 {V_j}로 분할하고, 같은 방식으로 포인트 클라우드 P를 {P_j}로 분할합니다.

Visibility-based camera selection.

이전 단계에서 선택된 카메라가 고충실도 재구성에 충분하지 않아 디테일이 떨어지거나 플로터가 발생할 수 있다는 사실을 발견했습니다.
이 문제를 해결하기 위해, 우리는 그림 3(c)와 같이 가시성 기준에 따라 더 관련성 있는 카메라를 추가할 것을 제안합니다.
아직 선택되지 않은 카메라 C_i가 주어졌을 때, Ω_ij를 이미지 I_i에서 j번째 셀의 투영 면적으로 하고, Ω_i를 I_i의 면적으로 합니다, 가시성은 Ω_ij/Ω_i로 정의됩니다.
가시성 값이 미리 정의된 임계값 T_h보다 큰 카메라가 선택됩니다.

Ω_ij를 계산하는 방법마다 카메라 선택이 다르다는 점에 유의하세요.
그림 3(e)에 나타난 바와 같이, 자연스럽고 나이브한 해결책은 객체 표면에 분포된 3D 점을 기반으로 합니다.
I_i에 투영되어 영역 Ω_ij^surf의 볼록 껍질을 형성합니다.
이 계산은 표면만 고려하기 때문에 항공영역에 구애받지 않습니다.
따라서 일부 관련 카메라는 이 계산에서 j번째 셀의 가시성이 낮아 항공영역에 대한 supervision이 부족하고 공중 플로터를 억제할 수 없기 때문에 선택되지 않습니다.

우리는 그림 3(f)와 같이 공역 인식 가시성 계산을 소개합니다.
구체적으로, 축 정렬 바운딩 박스는 j번째 셀의 포인트 클라우드에 의해 형성되며, 이 포인트 클라우드의 높이는 가장 높은 점과 지면 사이의 거리로 선택됩니다.
우리는 바운딩 박스를 I_i에 투영하고 볼록 껍질 영역 Ω_ij^air를 얻습니다.
이 공역 인식 솔루션은 모든 가시 공간을 고려하여 적절한 가시성 임계값이 주어지면 이 셀의 최적화에 크게 기여하는 뷰를 선택하고 공역에 대한 충분한 sueprvision을 제공합니다.

Coverage-based point selection.

j번째 셀의 카메라 세트 V_j에 더 많은 관련 카메라를 추가한 후, 그림 3(d)에 나타난 것처럼 V_j의 모든 뷰에서 다루는 포인트를 P_j에 추가합니다.
새로 선택된 포인트는 이 셀의 최적화를 위한 더 나은 초기화를 제공할 수 있습니다.
그림 3(g)에 나타난 바와 같이, J번째 셀 외부의 일부 객체는 V_j의 일부 뷰에 의해 캡처될 수 있으며, 적절한 초기화 없이 뎁스 모호성으로 인해 새로운 3D 가우시안이 잘못된 위치에서 생성됩니다.
그러나 초기화를 위해 이러한 객체 포인트를 추가하면 j번째 셀에 플로터를 생성하는 대신 이러한 학습 뷰에 맞게 올바른 위치에 새로운 3D 가우시안을 쉽게 생성할 수 있습니다.
셀 외부에서 생성된 3D 가우시안은 셀 최적화 후 제거된다는 점에 유의하세요.

4.2. Decoupled Appearance Modeling

고르지 않은 조명에서 촬영된 이미지에는 명백한 외관 변화가 있으며, 3DGS는 그림 2(a-d)와 같이 다양한 뷰에서 이러한 변화를 보정하기 위해 플로터를 생성하는 경향이 있습니다.

그림 4. 분리된 외관 모델링. 렌더링된 이미지 I_i^r은 더 작은 해상도로 다운샘플링되고, 최적화 가능한 외관 임베딩 ℓ_i로 픽셀 단위로 연결되어 D_i를 얻은 다음 CNN에 입력되어 변환 맵 M_i를 생성합니다. M_i는 I_i^r에 대해 외관 조정을 수행하여 외관 변형 이미지 I_i^a를 얻는 데 사용되며, 이 이미지 I_i^a는 groun d truth I_i에 대한 loss L_1을 계산하는 데 사용됩니다. 반면 I_i^r은 D-SSIM loss을 계산하는 데 사용됩니다.

이 문제를 해결하기 위해, 일부 NeRF 기반 방법 [29, 41, 44, 61]은 픽셀 단위 레이마칭에서 포인트 기반 피쳐에 외관 임베딩을 연결하고, 이를 래디언스 MLP에 입력하여 최종 색상을 얻습니다.
이는 MLP 없이 프레임 단위 래스터화를 통해 렌더링이 수행되는 3DGS에는 적합하지 않습니다.
대신, 최적화 과정에 분리된 외관 모델링을 도입하여, 그림 4와 같이 렌더링된 이미지를 학습 이미지의 외관 변화에 맞게 조정하는 변환 맵을 생성합니다.
구체적으로, 먼저 렌더링된 이미지 I_i^r을 다운샘플링하여 변환 맵이 고주파 세부 사항을 학습하는 것을 방지할 뿐만 아니라 계산 부담과 메모리 소비를 줄입니다.
그런 다음 3채널 다운샘플링된 이미지의 모든 픽셀에 길이 m의 ℓ_i를 포함하는 외관을 연결하고, 3+m 채널을 가진 2D 맵 D_i를 얻습니다.
D_i는 convolutional neural network (CNN)에 입력되며, 이 신경망은 점진적으로 D_i를 업샘플링하여 I_i^r과 동일한 해상도의 M_i를 생성합니다.
마지막으로, 외관 변형 이미지 I_i^a는 M_i를 사용하여 I_i^r에 대해 픽셀 단위 변환 T를 수행함으로써 얻어집니다:

실험에서 간단한 픽셀 단위 곱셈은 우리가 사용하는 데이터셋에서 잘 작동합니다.
외관 임베딩과 CNN은 식 (1)에서 수정된 loss 함수를 사용하여 3D 가우시안과 함께 최적화됩니다:

L_D-SSIM은 주로 구조적 비유사성을 처벌하기 때문에 I_i^r과 실제 I_i 사이에 적용하면 I_i^r의 구조 정보가 I_i에 가까워져 외관 정보는 ℓ_i와 CNN에 의해 학습됩니다.
loss L_1은 외관 변형 렌더링 I_i^a와 I_i 사이에 적용되며, 이는 다른 이미지와 외관 변형이 있을 수 있는 실제 이미지 I_i를 맞추는 데 사용됩니다.
학습 후, I_i^r는 다른 이미지들과 일관된 모습을 가질 것으로 예상되며, 이를 통해 3D 가우시안들은 평균적인 모습을 배우고 모든 입력 뷰의 정확한 지오메트리를 배울 수 있습니다.
이 외관 모델링은 실시간 렌더링 속도를 늦추지 않고 최적화 후 폐기할 수 있습니다.

4.3. Seamless Merging

모든 셀을 독립적으로 최적화한 후, 완전한 장면을 얻기 위해 셀을 병합해야 합니다.
각 최적화된 셀에 대해 경계 확장 전에 원래 영역을 벗어난 3D 가우시안을 삭제합니다 (그림 3(a)).
그렇지 않으면 다른 셀에서 플로터가 될 수 있습니다.
그런 다음 겹치지 않는 셀의 3D 가우시안을 병합합니다.
병합된 장면은 명확한 경계 아티팩트 없이 외관과 지오메트리가 매끄럽습니다, 이는 데이터 분할에서 인접한 셀 간에 일부 학습 뷰가 공통적이기 때문입니다.
따라서 Block-NeRF [41]처럼 추가적인 외관 조정을 수행할 필요가 없습니다.
병합된 장면에 포함된 3D 가우시안의 총 수는 전체적으로 학습된 장면의 수를 크게 초과하여 재구성 품질을 향상시킬 수 있습니다.

5. Experiments

5.1. Experimental Setup

Implementation.

우리는 주요 실험에서 8개의 셀을 사용하여 모델을 평가합니다.
가시성 임계값은 25%입니다.
렌더링된 이미지는 길이 64의 외관 임베딩과 concat되기 전에 32번 다운샘플링됩니다.
각 셀은 60,000번의 반복에 최적화되어 있습니다.
밀도화 [21]은 1,000번째 반복에서 시작하여 30,000번째 반복에서 끝나며, 200번의 반복 간격이 있습니다.
다른 설정은 3DGS [21]과 동일합니다.
외관 임베딩과 CNN 모두 0.001의 학습률을 사용합니다.
맨해튼 월드 정렬을 수행하여 월드의 y축이 지면에 수직이 되도록 합니다.
우리는 부록에서 CNN 아키텍처를 설명합니다.

Datasets.

실험은 다섯 개의 대규모 장면에서 수행됩니다: Mill-19 데이터셋의 Rubble과 Building [44]과 UrbanScene3D 데이터셋의 Campus, Residence, 그리고 Sci-Art [26].
각 장면에는 수천 개의 고해상도 이미지가 포함되어 있습니다.
우리는 공정한 비교를 위해 이전 방법 [44, 61]을 따라 학습 및 검증을 위해 이미지를 4배 다운샘플링합니다.

Metrics.

우리는 세 가지 정량적 지표를 사용하여 렌더링 품질을 평가합니다: SSIM, PSNR, 그리고 AlexNet 기반의 LPIPS.
앞서 언급한 photometric 변화로 인해 어떤 photometric 조건을 재현해야 할지 불확실하기 때문에 평가가 어렵습니다.
이 문제를 해결하기 위해, 우리는 Mip-NeRF 360 [3]을 따라 렌더링된 이미지에 대해 색상 보정을 수행한 후 모든 방법의 지표를 평가합니다, 이 방법은 렌더링된 이미지와 해당하는 실제 값 사이의 RGB 값을 맞추기 위해 이미지별 최소 제곱 문제를 해결합니다.
우리는 또한 1080p 해상도의 렌더링 속도, 평균 학습 시간, 그리고 비디오 메모리 소비를 보고합니다.

Compared methods.

우리는 VastGaussian을 네 가지 방법과 비교합니다: Mega-NeRF [44], Switch NeRF [61], Grid-NeRF [53], 그리고 3DGS [21].
3DGS의 경우, 주요 실험에서 비교 가능하도록 최적화 반복을 늘려야 하지만, 나이브하게 그렇게 하면 메모리 부족 오류가 발생합니다.
따라서, 우리는 실현 가능한 베이스라인 (수정된 3DGS라고 함)을 구축하기 위해 밀도화 간격을 증가시킵니다.
다른 구성은 원래 3DGS 논문의 구성과 동일합니다.
Grid-NeRF의 경우, 기밀성 요구 사항으로 인해 렌더링된 이미지와 신중하게 조정된 구성 파일 없이 코드가 공개됩니다.
이러한 사용할 수 없는 파일은 성능에 매우 중요하므로 결과를 재현할 수 없습니다.
따라서 우리는 품질 지표가 논문에서 복사되는 동안 학습 시간, 메모리 및 렌더링 속도만을 평가하기 위해 코드를 사용합니다.

그림 5. VastGaussian과 이전 연구의 질적 비교. 플로터 녹색 화살표로 표시됩니다.

표 1. 다섯 개의 대형 장면에 대한 이전 연구와 비교한 우리 방법의 정량적 평가. SSIM↑, PSNR↑, LPIPS↓를 테스트 뷰로 보고합니다. 가장 좋은 결과와 두 번째로 좋은 결과가 강조됩니다. "–"는 Grid-NeRF 논문에서 누락된 데이터를 나타냅니다.

5.2. Result Analysis

Reconstruction quality.

표 1에서는 각 장면의 평균 SSIM, PSNR 및 LPIPS 지표를 보고합니다.
우리의 VastGaussian은 모든 SSIM 및 LPIPS 지표에서 비교된 방법들을 상당한 차이로 능가하며, 이는 더 나은 인식 렌더링으로 더 풍부한 세부 사항을 재구성함을 시사합니다.
PSNR 측면에서 VastGaussian은 더 나은 또는 비슷한 결과를 달성합니다.
우리는 또한 그림 5에서 시각적 비교를 보여줍니다.
NeRF 기반 방법은 세부 사항에 미치지 못하고 블러 결과를 초래합니다.
수정된 3DGS는 렌더링이 더 샤프하지만 불쾌한 플로터를 생성합니다.
우리의 방법은 깨끗하고 시각적으로 만족스러운 렌더링을 제공합니다.
일부 테스트 이미지에서 눈에 띄게 과도하게 노출되거나 노출이 적기 때문에 VastGaussian은 PSNR 값이 약간 낮지만 훨씬 더 나은 시각적 품질을 제공하며, 때로는 그림 5의 3번째 행 예시와 같이 실제보다 더 명확한 시각적 품질을 제공하기도 합니다.
VastGaussian의 높은 품질은 부분적으로 많은 수의 3D 가우시안 덕분입니다.
캠퍼스 장면을 예로 들어보면, 수정된 3DGS의 3D 가우시안 수는 8.9M이고, VastGaussian의 경우 27.4M입니다.

표 2. 학습 시간, 학습 비디오 메모리 소비 (VRAM) 및 렌더링 속도 비교.

Efficiency and memory.

표 2에서는 학습 시간, 최적화 중 비디오 메모리 소비, 렌더링 속도를 보고합니다.

Mega-NeRF, Switch-NeRF 및 VastGaussian은 8개의 Tesla V100 GPU에서 학습되며, Grid-NeRF 및 Modified 3DGS는 장면 분해를 수행하지 않기 때문에 단일 V100 GPU에서 학습됩니다.
렌더링 속도는 단일 RTX 3090 GPU에서 테스트됩니다.
우리의 VastGaussian은 장면을 사실적인 렌더링으로 재구성하는 데 훨씬 짧은 시간이 필요합니다.
수정된 3DGS와 비교했을 때, VastGaussian은 단일 GPU에서 비디오 메모리 소비를 크게 줄여줍니다.
VastGaussian은 병합된 장면에서 수정된 3DGS보다 더 많은 3D 가우시안을 가지고 있기 때문에 렌더링 속도는 수정된 3DGS보다 약간 느리지만, 여전히 NeRF 기반 방법보다 훨씬 빠르며 1080p 해상도의 실시간 렌더링을 달성합니다.

5.3. Ablation Study

우리는 Sci-Art 장면에 대한 ablation 연구를 수행하여 VastGaussian의 다양한 측면을 평가합니다.

그림 6. 가시성 기반 카메라 선택과 커버리지 기반 포인트 선택은 공역 내 플로터를 줄일 수 있습니다.

표 3. 데이터 분할에 대한 ablation, 가시성 계산 및 분리된 외관 모델링(Decouplled AM).

Data partition.

그림 6과 표 3에 나타난 바와 같이, 가시성 기반 카메라 선택 (VisCam)과 커버리지 기반 포인트 선택 (CovPoint) 모두 시각적 품질을 향상시킬 수 있습니다.
각각 또는 둘 다 없이 셀 외부를 관찰하는 영역에 맞게 셀의 공역에 플로터를 만들 수 있습니다.
그림 7에 나타난 바와 같이, 가시성 기반 카메라 선택은 인접한 셀들 간에 더 많은 공통 카메라를 보장할 수 있으며, 이는 구현되지 않을 때 외관 점프의 눈에 띄는 경계 아티팩트를 제거합니다.

그림 7. 가시성 기반 카메라 선택은 셀 경계에서 점프하는 외관을 제거할 수 있습니다.

그림 8. 가시성을 공역에 구애받지 않는 방식으로 계산하면 무거운 플로터 나타납니다.

Airspace-aware visibility calculation.

표 3과 그림 8의 네 번째 행에서 볼 수 있듯이, 공역 인식 가시성 계산을 기반으로 선택된 카메라는 셀 최적화를 위한 더 많은 supervision을 제공하므로 공역에 구애받지 않는 방식으로 가시성을 계산할 때 나타나는 플로터를 생성하지 않습니다.

Decoupled appearance modeling.

그림 2와 표 3의 5번째 행에서 볼 수 있듯이, 우리의 분리된 외관 모델링은 렌더링된 이미지의 외관 변화를 줄여줍니다.
따라서 3D 가우시안은 이러한 변화를 보완하기 위해 플로터를 만드는 대신 외관 변화가 있는 학습 이미지에서 일관된 지오메트리와 색상을 학습할 수 있습니다.
부록에 있는 동영상도 참조해 주세요.

Different number of cells.

표 4에 나타난 바와 같이, 더 많은 셀이 VastGaussian에서 더 나은 세부 사항을 재구성하여 SSIM 및 LPIPS 값을 개선하고, 셀이 병렬로 최적화될 때 학습 시간을 단축할 수 있습니다.
그러나 셀 수가 16개 이상에 도달하면 품질 향상이 미미해지고, 멀리 떨어져 있는 셀에서 렌더링된 이미지에 점진적인 밝기 변화가 있을 수 있기 때문에 PSNR이 약간 감소합니다.

6. Conclusion and Limitation

이 논문에서는 대규모 장면에서 최초의 고품질 재구성 및 실시간 렌더링 방법인 VastGaussian을 제안합니다.
도입된 점진적인 데이터 분할 전략은 독립적인 셀 최적화와 원활한 병합을 가능하게 하여 충분한 3D 가우시안으로 완전한 장면을 얻을 수 있게 합니다.
우리의 분리된 외관 모델링은 학습 이미지에서 외관 변화를 분리하고, 다양한 뷰에서 일관된 렌더링을 가능하게 합니다.
이 모듈은 최적화 후 폐기하여 더 빠른 렌더링 속도를 얻을 수 있습니다.
우리의 VastGaussian은 어떤 형태의 공간 분할에도 적용될 수 있지만, 장면 레이아웃, 셀 수 및 학습 카메라 분포를 고려해야 하는 최적의 분할 솔루션을 제공하지는 않습니다.
또한, 장면이 방대할 때는 3D 가우시안이 많아 큰 저장 공간이 필요하고 렌더링 속도가 크게 느려질 수 있습니다.

'3D Vision > Urban Scene Reconstruction' 카테고리의 다른 글

Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting (0)	2025.04.09
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes (0)	2025.03.24
CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians (0)	2025.03.14
Grid-guided Neural Radiance Fields for Large Urban Scenes (0)	2025.03.11

프린이씨롯메

프린이씨롯메

태그

최근글

댓글

공지사항

아카이브