RegNeRF: Regularizing Neural Radiance Fields for View Synthesis from Sparse Inputs

2022. 4. 13. 15:54View Synthesis

RegNeRF: Regularizing Neural Radiance Fields for View Synthesis from Sparse Inputs

 

Michael Niemeyer, Jonathan T. Barron, Ben Mildenhall, Mehdi S. M. Sajjadi, Andreas Geiger, Noha Radwan

 

Abstract

신경 방사장(NeRF)은 단순성과 SOTA 성능으로 인해 새로운 뷰 합성 작업에 대한 강력한 표현으로 부상했다.
많은 입력 뷰를 사용할 수 있을 때 NeRF는 보이지 않는 관점의 사실적인 렌더링을 생성할 수 있지만, 이 숫자가 줄어들면 성능이 크게 떨어진다.
희소 입력 시나리오의 아티팩트의 대부분은 추정된 장면 지오메트리의 오류와 학습 시작 시 다른 동작에 의해 발생한다는 것을 관찰한다.
우리는 관찰되지 않은 시점에서 렌더링된 패치의 기하학적 구조와 외관을 정규화하고 학습 중에 ray 샘플링 공간을 annealing함으로써 이를 해결한다.
우리는 또한 관측되지 않은 관점의 색상을 정규화하기 위해 정규화 흐름 모델을 사용한다.
우리의 모델은 단일 장면에서 최적화하는 다른 방법뿐만 아니라 많은 경우 대규모 다중 뷰 데이터 세트에서 광범위하게 사전 학습된 조건부 모델도 능가한다.

 

 

1. Introduction

좌표 기반 신경 표현[7, 34, 35, 44]은 3D 비전 분야에서 점점 더 인기를 얻고 있다.
특히, 신경 방사장(NeRF)[37]은 주어진 입력 이미지 세트에서 장면의 보이지 않는 관점을 렌더링하는 것이 목표인 새로운 뷰 합성 작업을 위한 강력한 표현으로 등장했다.

 

NeRF는 SOTA 성능을 달성하지만 현장에 대한 고밀도 커버리지가 필요하다.
그러나 AR/VR, 자율 주행 및 로봇 공학과 같은 실제 응용 프로그램에서 입력은 일반적으로 훨씬 더 희소하며 장면당 사용할 수 있는 특정 물체 또는 영역의 뷰만 거의 없다.
이 희박한 설정에서, NeRF의 렌더링된 새로운 뷰의 품질은 현저하게 떨어진다(그림 1 참조).

그림 1. 희소 입력에서 뷰 합성. NeRF(Neural Radience Fields)는 많은 입력 이미지를 제공할 경우 SOTA 뷰 합성을 허용하지만, 사용 가능한 뷰가 거의 없을 때(1b) 결과가 저하된다. 대조적으로, 희소 입력에도 불구하고 우리의 새로운 정규화 및 최적화 전략은 현실적인 새로운 보기(1c)를 렌더링하는 3D 일관적인 표현으로 이어진다.

여러 연구는 이러한 한계를 극복하기 위해 조건부 모델을 제안했다[6: MVSNeRF, 8: SRF, 30: NeuRay, 56: GRF, 58:IBrnet, 62: pixelNeRF].
이러한 모델은 주어진 테스트 장면에 대해 처음부터 수행되는 테스트 시간 최적화와는 달리, 많은 장면의 대규모 데이터 세트에서 모델을 멀티 뷰 이미지와 카메라 포즈 주석을 사용하여 학습하는 등 비용이 많이 든다.
테스트 시, 장면별 테스트 시간 미세 조정과 선택적으로 결합되어 상각 추론을 통해 몇 개의 입력 이미지에서만 새로운 뷰를 생성할 수 있다.
이러한 모델은 유망한 결과를 얻지만, 많은 다양한 장면을 캡처하거나 렌더링하여 필요한 사전 학습 데이터를 얻는 것은 엄청난 비용이 들 수 있다.
더욱이, 이러한 기술은 테스트 시 새로운 영역으로 잘 일반화되지 않을 수 있으며, 희소 입력 데이터의 고유한 모호성으로 인해 흐릿한 아티팩트를 나타낼 수 있다.

 

한 가지 대안적 접근법은 모든 새로운 장면에서 네트워크 가중치를 처음부터 최적화하고, 예를 들어 추가 감독[24]을 추가하거나 입력 뷰를 대표하는 임베딩을 학습하여 희소 입력에 대한 성능을 향상시키기 위해 정규화를 도입하는 것이다.
그러나 기존 방법은 항상 사용할 수 없는 외부 감독 신호에 크게 의존하거나, 높은 수준의 정보만 제공하는 장면의 저해상도 렌더링에서 작동한다.

 

Contribution:

본 논문에서는 희소 입력 시나리오를 위한 NeRF 모델을 정규화하는 새로운 방법인 RegNeRF를 제시한다.

우리의 주요 기여는 다음과 같습니다:
• 관찰되지 않은 시점에서 렌더링되는 depth 맵을 위한 패치 기반 정규화기로, 부동 아티팩트를 줄이고 장면 형상을 개선합니다.
• 렌더링된 패치의 log-likelihood를 최대화하여 보이지 않는 시점에서 예측되는 색상을 정규화하여 서로 다른 뷰 간의 색상 이동을 방지하는 정규화 흐름 모델입니다.
• Ray를 따라 포인트를 샘플링하기 위한 annealing 전략, 여기서 우리는 학습 중 초기 분산을 방지하는 전체 장면 경계로 확장하기 전에 먼저 작은 범위 내에서 장면 콘텐츠를 샘플링한다.

 

 

2. Related Work

Neural Representations:

3D vision에서 좌표 기반 신경 표현[7, 34, 35, 44]은 3D 재구성[1, 7, 13, 14, 40, 43–45, 48, 51, 55, 57], 3D 하드웨어 생성 모델링[5, 9, 15, 16, 33, 39, 42, 49, 64], 그리고 새로운 합성[2, 3, 12, 22, 25, 28, 32, 37, 41, 52, 60, 61]과 같은 다양한 작업에 대한 인기 있는 표현이 되었다.
포인트 클라우드, 메쉬 또는 복셀과 같은 전통적인 표현과 달리, 이 패러다임은 신경망의 가중치로 3D 기하학 및 색상 정보를 나타내어 콤팩트한 표현을 이끌어낸다.
여러 작품들[29, 37, 41, 52, 61]은 다중 뷰 이미지 감독에서만 신경 표현을 학습하기 위해 미분 가능한 렌더링 접근 방식을 제안했다.
이 중 신경 방사장(NeRF)[37]은 단순성과 SOTA 성능으로 인해 새로운 관점 합성의 강력한 방법으로 떠올랐다.
mip-NeRF [2]에서 포인트 기반 광선 추적은 앨리어싱을 방지하기 위해 원뿔 추적을 사용하여 대체된다.
이것은 다양한 카메라 거리가 있는 장면에 대해 보다 강력한 표현이며, NeRF의 coarse하고 fine한 MLP 네트워크를 단일 멀티스케일 MLP로 감소시키기 때문에, 우리는 mip-NeRF를 장면 표현으로 채택한다.
그러나 이전 작업[2, 37]과 비교하여, 우리는 NeRF와 mip-NeRF 모두 현실적인 새로운 뷰를 생성할 수 없는 훨씬 희소성 입력 시나리오를 고려한다.
장면 지오메트리 및 외관을 정규화하여 3개의 와이드 베이스 입력 이미지만 사용함에도 불구하고 고품질 렌더링을 합성할 수 있다.

 

Sparse Input Novel-View Synthesis:

고밀도 입력의 요구사항을 피하기 위한 한 가지 접근법은 방사장 조건 모델을 사전 학습하여 사전 지식을 통합하는 것이다 [6, 8, 20, 27, 30, 47, 56, 58, 62].
우리는 다른 작업과 달리 희소 입력 시나리오를 명시적으로 고려하기 때문에 다음 토론과 실험 비교를 [6, 8, 62]로 제한한다.
PixelNeRF [62] 및 Stereo Radiance Fields [8]는 입력 이미지에서 추출된 로컬 CNN 피쳐을 사용하는 반면 MVSNeRF [6]는 이미지 왜곡을 통해 3D 비용 볼륨을 얻은 다음 3D CNN에 의해 처리된다.
뛰어난 결과를 얻지만, 이러한 방법은 사전 학습을 위해 다양한 장면의 다중 뷰 이미지 데이터 세트를 필요로 하며, 이는 항상 쉽게 사용할 수 있는 것은 아니며, 얻는 데 비용이 많이 들 수 있다.
또한 대부분의 접근 방식은 긴 사전 학습 단계에도 불구하고 테스트 시간에 네트워크 가중치를 미세 조정해야 하며, 테스트 시간에 데이터 도메인이 변경될 때 새로운 뷰의 품질이 떨어지기 쉽다.
Tancik et al. [54]은 새로운 장면에서 테스트 시간 최적화가 더 빠르게 수렴되는 네트워크 초기화를 학습한다.
이 접근법은 학습과 테스트 데이터가 동일한 도메인에서 가져온다고 가정하고, 테스트 시간에 도메인이 변경되면 결과가 저하될 수 있다.

 

본 연구에서는 새로운 (가상) 뷰에서 모양과 형상을 정규화하여 값비싼 사전 학습을 피하는 대안적 접근 방식을 탐구한다.
이 방향의 이전 작업에는 DS-NeRF [24]와 DietNeRF [19]가 포함된다.
DS-NeRF는 depth 감시를 추가하여 재구성 정확도를 향상시킵니다.
대조적으로, 우리의 접근 방식은 RGB 이미지만 사용하고 depth 입력은 필요하지 않다.
Diet-NeRF [19]는 저해상도로 렌더링된 보이지 않는 관점의 CLIP [11, 46] 임베딩을 비교한다.
이러한 의미론적 일관성 손실은 높은 수준의 정보만 제공할 수 있으며 희소 입력에 대한 장면 형상을 개선하지 않는다.
우리의 접근 방식은 대신 렌더링된 패치를 기반으로 장면 지오메트리 및 외관을 정규화하고 장면 공간 annealing 전략을 적용한다.
우리는 우리의 접근 방식이 더 현실적인 장면 기하학과 더 정확한 새로운 뷰로 이어진다는 것을 발견했다.

 

 

3. Method

우리는 희소 입력에서 신경 방사장 필드에 대한 새로운 최적화 절차를 제안한다.
보다 구체적으로, 우리의 접근 방식은 mip-NeRF [2]를 기반으로 하며, 이는 장면을 나타내기 위해 다중 스케일 방사장 모델을 사용한다(섹션 3.1).
희소 뷰의 경우, 우리는 주로 잘못된 장면 지오메트리 및 학습 차이 때문에 mip-NeRF의 뷰 합성 품질이 떨어진다는 것을 발견했다.
이를 극복하기 위해 보이지 않는 관점에서 예측된 색상과 형상을 정규화하는 패치 기반 접근법을 제안한다(섹션 3.2).
우리는 또한 학습 시작 시 분산을 피하기 위해 장면 샘플링 경계를 annealing하는 전략을 제공한다(섹션 3.3).
마지막으로, 최적화 프로세스의 속도를 높이기 위해 그레이디언트 클리핑과 함께 더 높은 학습률을 사용한다(섹션 3.4).
그림 2는 우리 방법의 개요를 보여준다.

그림 2. 개요. NeRF는 지정된 입력 영상 세트(파란색 카메라)에 대해 재구성 손실을 최적화합니다. 그러나 희소 입력의 경우 이는 퇴화된 솔루션으로 이어진다. 본 연구에서는 관찰되지 않은 뷰(빨간색 카메라)를 샘플링하고 이러한 뷰에서 렌더링된 패치의 지오메트리 및 외관을 정규화할 것을 제안한다. 보다 구체적으로, 우리는 장면을 통해 광선을 캐스트하고 주어진 방사도 필드 f_θ에 대해 관찰되지 않은 시점에서 패치를 렌더링한다. 그런 다음 학습된 정규화 흐름 모델 ϕ를 통해 예측 RGB 패치를 공급하고 예측 log-likelihood을 최대화하여 외관을 정규화한다. 렌더링된 depth 패치에 평활도 손실을 적용하여 형상을 정규화한다. 우리의 접근 방식은 현실적인 새로운 뷰를 렌더링할 수 있는 희소 입력에 대한 3D 일관적인 표현으로 이어진다.

 

3.1. Background

Neural Radiance Fields

방사장은 3차원 위치 x ∈ R^3과 시야 방향 d ∈ S^2를 부피 밀도 σ ∈ [0,∞) 및 색값 c [0, 1]^3에 매핑하는 연속 함수 f이다.
Mildenhall 등 [37]은 MLP의 가중치가 특정 장면의 입력 이미지 세트를 재구성하도록 최적화되는 MLP(다층 퍼셉트론)를 사용하여 이 기능을 매개 변수화한다:

여기서 θ는 네트워크 가중치를 나타내고 γ는 x와 d에 적용되는 사전 정의된 위치 부호화 [37, 55]를 나타냅니다.

 

Volume Rendering:

신경 방사장 f_θ가 주어지면, 카메라 중심 o에서 d 방향을 따라 픽셀을 통해 ray r(t) = o + td를 캐스팅하여 픽셀을 렌더링한다.
주어진 근접 및 원거리 경계 t_n과 t_f에 대해, 픽셀의 예측 색상 값 ^c_θ는 알파 합성법을 사용하여 계산된다:

그리고 σ_θ(·)와 c_θ(·,·)는 각각 방사장 f_θ의 밀도 및 색 예측을 나타낸다.
실제로, 이러한 적분은 quadrature [37]를 사용하여 근사한다.
신경 방사장은 평균 제곱 오차

를 최소화하여 입력 이미지 세트와 카메라 포즈에 대해 최적화된다, 여기서 R_i는 입력 ray 세트를 나타내고 c_GT는 GT 색상을 나타낸다.

 

mip-NeRF:

NeRF는 픽셀당 하나의 광선만 캐스트하는 반면, mip-NeRF [2]는 대신 원뿔을 캐스트합니다.
위치 인코딩은 무한소점을 나타내는 것에서 원뿔형 접힘으로 덮인 볼륨에 대한 적분으로 바뀝니다.
이것은 다양한 카메라 거리를 가진 장면에 더 적합한 표현이며, NeRF의 coarse하고 fine한 MLP를 단일 멀티스케일 MLP로 결합할 수 있으므로 학습 속도를 높이고 모델 크기를 줄일 수 있다.
우리는 이 작업에서 mip-NeRF 표현을 채택한다.

 

3.2. Patch-based Regularization

입력 뷰 수가 희박할 경우 NeRF의 성능이 크게 저하됩니다.
왜 그럴까요?
최적화 절차를 분석하면, 모델은 (3)의 재구성 손실로 인해 이러한 희박한 관점에서만 감독된다.
입력 뷰를 완벽하게 재구성하는 방법을 학습하는 동안 모델이 그러한 희박한 입력 시나리오에서 3D 일관된 솔루션을 학습하는 데 편향되지 않기 때문에 새로운 뷰가 퇴화될 수 있다(그림 1 참조).
이 한계를 극복하기 위해 보이지 않는 관점을 정규화한다.
보다 구체적으로, 우리는 보이지 않지만 관련 있는 관점의 공간을 정의하고 이러한 카메라에서 무작위로 샘플링된 작은 패치를 렌더링한다.
우리의 핵심 아이디어는 이러한 패치를 정규화하여 부드러운 지오메트리 및 가능성이 높은 색상을 생성할 수 있다는 것이다.

 

Unobserved Viewpoint Selection:

관찰되지 않은 관점에 정규화 기술을 적용하려면 먼저 관찰되지 않은 카메라 포즈의 샘플 공간을 정의해야 한다.
알려진 타겟 포즈 집합 {P^i_target}_i를 가정한다, 여기서

이러한 타겟 포즈는 테스트 시 새로운 뷰를 렌더링하려는 포즈 세트를 제한하는 것으로 생각할 수 있다.
우리는 가능한 카메라 위치의 공간을 주어진 모든 대상 카메라 위치

의 바운딩 박스로 정의한다, 여기서 t_min과 t_max는 각각 {t^i_target}_i의 요소별 최소값과 최대값이다.

 

카메라 회전의 샘플 공간을 얻기 위해, 우리는 모든 카메라가 대략 중앙 장면 포인트에 초점을 맞춘다고 가정한다.
우리는 모든 타켓 포즈의 위쪽 축에 대해 정규화된 평균을 계산하여 공통 "위" 축 ¯p_u를 정의한다.
다음으로, 우리는 최소 제곱 문제를 해결하여 모든 타겟 포즈의 광학 축에 대한 최소 제곱 거리로 3D 점을 결정함으로써 평균 초점 ¯p_f를 계산한다.
보다 강력한 표현을 배우기 위해 카메라 회전 행렬을 계산하기 전에 초점에 랜덤 지터를 추가한다.
우리는 가능한 모든 카메라 회전의 집합(샘플링된 위치 t가 주어졌을 때)을

로 정의한다, 여기서 R(·,·,·)은 결과적인 "관찰" 카메라 회전 행렬을 나타내고 ϵ는 초점에 추가된 작은 지터이다.
우리는 위치와 회전을 샘플링하여 랜덤 카메라 포즈를 얻는다:

 

Geometry Regularization:

실제 기하학은 조각별로 매끄러운 경향이 있다는 것은 잘 알려져 있다, 즉, 평탄한 표면이 고주파 구조보다 더 가능성이 높다[18].
우리는 관찰되지 않은 관점에서 depth smoothness을 장려함으로써 이 사전 작업을 모델에 통합한다.
(2)에서 픽셀의 색이 렌더링되는 방법과 유사하게, 우리는 예상 depth를 다음과 같이 계산한다:


depth smoothness 손실을

로 공식화한다, 여기서 R_r은 카메라 포즈 S_P에서 샘플링된 광선 세트를 나타내고, r_ij는 r 중심 패치의 광선 통과 픽셀(i, j)이며, S_patch는 렌더링된 패치의 크기이다.

 

Color Regularization:

우리는 희소 입력의 경우 대부분의 아티팩트가 잘못된 장면 지오메트리에 의해 발생한다는 것을 관찰한다.
그러나 정확한 지오메트리를 사용하더라도 NeRF 모델을 최적화하면 입력의 희소성으로 인해 장면 모양 예측에 색상 이동 또는 기타 오류가 발생할 수 있다.
퇴화 색상을 피하고 안정적인 최적화를 보장하기 위해 색상 예측도 정규화한다.
우리의 핵심 아이디어는 렌더링된 패치의 가능성을 추정하고 최적화 중에 이를 최대화하는 것이다.
이를 위해, 우리는 쉽게 사용할 수 있는 구조화되지 않은 2D 이미지 데이터 세트를 사용한다.
포즈된 다중 뷰 이미지의 데이터 세트는 수집 비용이 많이 들지만, 구조화되지 않은 자연 이미지의 컬렉션은 풍부하다.
데이터 세트에 대한 유일한 기준은 다양한 자연 이미지를 포함하고 있어 재구성하는 모든 유형의 실제 장면에서 동일한 흐름 모델을 재사용할 수 있다는 것이다.
우리는 JFT-300M 데이터 세트의 패치에 대해 RealNVP[10] 정규화 흐름 모델을 학습한다[53].
이 학습된 흐름 모델을 사용하여 렌더링된 패치의 로그 우도(LL)를 추정하고 최적화 중에 최대화한다.

을 크기 S_patch = 8 ~ R^d의 RGB 패치를 매핑하는 학습된 바이젝션이라고 하자, 여기서 d = S_patch · S_patch · 3.
우리는 색 정규화 손실을

로 정의하며, R_r은 S_P에서 샘플링된 광선 집합, ^P_r은 중앙이 있는 예측 RGB 색상 패치, 그리고 -log p_Z는 가우스 p_Z로 음의 로그 우도("NLL")를 나타낸다.

 

Total Loss:

각 반복에서 우리가 최적화하는 총 손실은

이다, 여기서 R_i와 R_r은 각각 입력 포즈와 랜덤 포즈의 광선을 나타내며, 우리는 λ_N = 10^-6을 λ_D를 0.1로 anneal한다.

 

3.3. Sample Space Annealing

매우 희박한 시나리오(예: 3개 또는 6개 입력 뷰)의 경우, NeRF의 또 다른 고장 모드를 관찰한다: 학습 시작 시 서로 다른 행동을 합니다.
이로 인해 광선 원점에서 고밀도 값이 발생합니다.

입력 뷰가 올바르게 재구성되는 동안, 새로운 뷰는 3D 일관성이 있는 표현이 복구되지 않기 때문에 퇴화된다.
최적화 중 초기 반복에 걸쳐 샘플링된 장면 공간을 빠르게 annealing하는 것이 이 문제를 피하는 데 도움이 된다는 것을 발견했다.
장면 샘플링 공간을 모든 입력 이미지에 대해 정의된 더 작은 영역으로 제한함으로써 장면 중앙의 기하학적 구조로 입력 이미지를 설명하기 위한 유도 편향을 도입한다.

 

(2)에서 t_n, t_f가 각각 카메라의 근방면과 원방면임을 상기하고, t_m이 정의된 중심점(일반적으로 t_n과 t_f 사이의 중간점)이 되도록 한다.
우리는

을 정의한다, 여기서 i는 현재 학습 반복, N_t는 하이퍼 파라미터를 나타낸다.
최대가 될 때까지 몇 번 반복하는지 나타냅니다.
범위에 도달하고 p_s는 시작 범위(예: 0.5)를 나타내는 하이퍼 파라미터입니다.
이 annealing은 입력 포즈와 샘플링된 관찰되지 않은 시점 모두에서 렌더링에 적용된다.
우리는 이 annealing 전략이 초기 학습 동안 안정성을 보장하고 퇴화 솔루션을 피한다는 것을 발견했다.

 

3.4. Training Details

우리는 공식 JAX [4] mip-NeRF 코드베이스 위에 우리의 코드를 구축한다.
우리는 2·10^-3에서 2·10^-5로 지수 학습 속도 감소를 사용하여 Adam[26]으로 최적화한다.
값별로 0.1에서 그래디언트를 클리핑한 다음 표준별로 0.1에서 그래디언트를 클리핑한다.
우리는 각각 3/6/9 입력 보기에 대해 DTU에서 44K, 88K 및 132K 반복과 같은 500픽셀 에폭스를 학습한다. (모두 mip-NeRF의 기본 250K 단계[37]보다 반복 횟수가 적다.)
우리는 8개의 코어가 있는 TPU에서 모든 모델을 학습한다[23].

 

 

4. Experiments

Datasets

우리는 실제 다중 뷰 데이터 세트 DTU[21] 및 LLFF[36]에 대한 결과를 보고한다.
DTU는 테이블에 배치된 객체의 이미지를 포함하며, LLFF는 복잡한 정향 장면으로 구성된다.
DTU의 경우 흰색 테이블과 검은색 배경이 있는 장면에서 모델이 렌더링된 관심 개체의 품질과 관계없이 잘못된 배경 예측에 대해 크게 불이익을 받는 것을 관찰한다(그림 3 참조).
이러한 배경 편향을 피하기 위해 렌더링된 이미지에 객체 마스크를 적용한 모든 방법을 평가한다(서포트 매트의 전체 이미지 평가).
우리는 Yu et al. [62]의 규약을 준수합니다, 15개의 장면으로 구성된 보고된 테스트 세트에서 평가합니다.
LLFF의 경우 커뮤니티 표준 [37]을 준수하고 모든 8번째 이미지를 보류 테스트 세트로 사용하며 나머지 이미지에서 입력 뷰를 고르게 선택한다.
이전 작업[62]에 이어 3, 6, 9 입력 뷰 시나리오에 대한 결과를 보고한다.

 

Metrics:

우리는 PSNR, 구조 유사성 지수(SSIM)[59] 및 LPIPS 지각 메트릭[63]의 평균을 보고한다.

비교를 용이하게 하기 위해 MSE = 10^(-PSNR/10), √(1 - SSIM), LPIPS[2]의 기하학적 평균도 보고한다.

 

Baselines:

우리는 SOTA 조건부 모델 PixelNeRF [62], Stereo Radiance Fields (SRF) [8] 및 MVSNeRF [6]와 비교한다.
6/9 뷰 시나리오를 위해 PixelNeRF를 재학습하여 더 나은 결과를 도출하고, 마찬가지로 3/6/9 뷰를 사용하여 SRF를 사전 학습한다.
우리는 대규모 DTU 데이터 세트에 대한 모든 방법을 사전 학습한다.
LLFF 데이터 세트는 사전 학습[24]에 비해 너무 작은 것으로 나타났으며, 따라서 조건부 모델에 대한 분포 외 테스트 역할을 한다.
우리는 또한 추가적인 장면별 테스트 시간 최적화("미세 조정"을 위한 "ft") 후에 두 데이터 세트에 대한 조건부 모델을 보고한다.
또한, 우리는 우리의 접근 방식과 같이 사전 학습이 필요하지 않은 mip-NeRF [2] 및 DietNeRF [19]와 비교한다.
공식 코드를 사용할 수 없기 때문에 mip-NeRF 코드베이스 위에 DietNeRF를 다시 구현하고(더 나은 결과를 달성함) 5·10^-4에서 5·10^-5로 지수 학습률 감소로 장면당 250K 반복에 대한 두 가지 방법을 모두 학습한다.

 

4.1. View Synthesis from Sparse Inputs

먼저 모델을 vanilla mip-NeRF 베이스라인과 비교하여 장면 지오메트리, 모양 및 데이터 효율성에 대한 정규화기의 영향을 분석한다.

그림 4. 지오메트리의 중요성. 우리는 mip-NeRF[2]에 대한 예상 depth 맵(왼쪽)과 RGB 렌더링(오른쪽)과 LLFF 데이터 세트에 대한 방법을 비교한다. 최적화된 지오메트리의 품질은 뷰 합성 성능과 관련이 있습니다. 우리가 제안한 장면 공간 어닐링 및 지오메트리 정규화 전략은 부동 아티팩트를 제거하고(확대 참조) 부드러운 지오메트리로 이어져 렌더링된 새로운 뷰의 품질을 향상시킨다.

Geometry Prediction:

우리는 새로운 뷰 합성 성능이 장면 지오메트리가 얼마나 정확하게 예측되는지와 직접적인 상관 관계가 있음을 관찰한다.

그림 4에서는 mip-NeRF에 대한 예상 depth 맵과 RGB 렌더링을 보여주고 LLFF room 장면에서 우리의 방법을 보여준다.

우리는 3개의 입력 뷰의 경우 mip-NeRF가 낮은 품질의 렌더링과 열악한 지오메트리를 생성한다는 것을 발견했다.

대조적으로, 우리의 방법은 낮은 입력 수에도 불구하고 허용되는 새로운 뷰와 현실적인 장면 기하학을 생성한다.

입력 영상 수를 6 또는 9로 늘리면 mip-NeRF의 예측 지오메트리가 개선되지만 부동 아티팩트가 계속 포함됩니다.

우리의 방법은 부드러운 장면 기하학을 생성하며, 이는 고품질 신규 뷰에 반영된다.

 

Data Efficiency:

데이터 효율성의 이득을 평가하기 위해 다양한 수의 입력 뷰에 대한 mip-NeRF와 방법을 학습하고 성능을 비교한다.

우리는 희소 입력의 경우, 우리의 방법이 테스트 세트에서 mip-NeRF의 평균 PSNR과 일치하기 위해 최대 55% 적은 입력 뷰를 필요로 한다는 것을 발견했다.

여기서 차이는 적은 입력 뷰에 더 크다.

18개의 입력 뷰의 경우, 두 방법 모두 유사한 성능을 달성한다(이 연구는 희소 입력에 초점을 맞추고 있기 때문에, 더 많은 입력 뷰에 대한 하이퍼 매개 변수를 조정하면 이러한 시나리오에 대한 성능이 향상될 수 있다).

표 1. DTU에 대한 정량적 비교. 3개의 입력 뷰의 경우, 우리의 모델은 값비싼 사전 학습 단계가 필요하지 않음에도 불구하고 조건부 모델 (SRF, PixelNeRF, MVSNeRF)에 버금가는 정량적 결과를 달성하고 우리와 동일한 환경에서 작동하는 다른 베이스라인 (mip-NeRF, DietNeRF)를 크게 능가한다. 6 및 9 입력 뷰의 경우, 우리의 모델은 가장 좋은 전체 정량적 결과를 달성한다.
그림 6. DTU에서 합성 뷰. 베이스라인이 흐릿하거나 잘못된 장면 지오메트리로 인해 어려움을 겪는 동안, 우리의 접근 방식은 날카로운 새로운 뷰로 이어진다. 3개의 입력 뷰의 경우, DietNeRF는 의미적 일관성 손실의 전역 특성으로 인해 잘못된 지오메트리 예측으로 이어지고 3D 일관된 표현을 얻는 대신 입력 이미지를 혼합한다.

4.2. Baseline Comparison

DTU Dataset

3개의 입력 뷰의 경우, 우리의 방법은 다른 DTU 장면에서 사전 학습된 가장 성능이 뛰어난 조건부 모델(표 1 참조)에 버금가는 정량적 결과를 달성한다.

사전 학습을 필요로 하지 않는 다른 방법과 비교하여 우리는 최고의 결과를 달성한다.

6 및 9 입력 보기의 경우, 우리의 접근 방식은 모든 베이스라인과 비교하여 가장 잘 수행된다.

그림 6에서 입증되었듯이, 우리는 조건부 모델이 전반적으로 좋은 새로운 뷰를 예측할 수 있지만, 특히 가장자리 주변에서 흐릿해지고 카메라가 입력 뷰에서 멀리 떨어진 새로운 뷰에 대해 덜 일관된 외관을 보인다는 것을 알 수 있다.

(우리의 방법처럼) 사전 학습되지 않은 mip-NeRF 및 DietNeRF의 경우, 기하학 예측과 그에 따라 합성된 새로운 뷰가 매우 희박한 시나리오에서 저하된다.

입력 뷰가 6개 또는 9개인 경우에도 결과에 부동 아티팩트와 잘못된 지오메트리가 포함됩니다.

대조적으로, 우리의 접근 방식은 모든 시나리오에서 잘 수행되어 더 정확한 장면 지오메트리로 날카로운 결과를 생성한다.

표 2. LLFF에 대한 정량적 비교. 일부 조건부 모델(SRF, PixelNeRF)은 학습 데이터(DTU)에 과적합하지만 모두 테스트 시간에 추가적인 미세 조정으로 이점을 얻는다. 두 개의 무조건 베이스라인 mip-NeRF와 DietNeRF는 3개의 입력 뷰에 대해 경쟁적인 결과를 달성하지 못하지만 6/9 입력 뷰 시나리오에 대해서는 조건부 모델을 능가한다. 우리의 방법은 모든 시나리오에서 최상의 결과를 달성한다.
그림 7. LLFF에 대한 뷰 합성. 조건부 모델은 학습 데이터에 과적합하므로 새로운 도메인의 테스트 데이터에 대해 성능이 떨어진다. 또한 추가적인 미세 조정("ft")에도 불구하고 새로운 뷰는 여전히 약간 흐릿하게 보인다. DietNeRF는 우리의 접근 방식과 유사한 값비싼 사전 학습을 요구하지 않지만, 우리의 방법은 더 정확한 장면 지오메트리로 이어져 더 선명하고 현실적인 렌더링을 제공한다.

LLFF Dataset:

조건부 모델의 경우, LLFF 데이터 세트는 모델이 DTU에서 학습될 때 분포 외 시나리오 역할을 한다.

우리는 SRF와 PixelNeRF가 학습 데이터에 과적합하는 것으로 보여 낮은 정량적 결과로 이어진다는 것을 관찰한다(표 2 참조).

MVSNeRF는 새로운 데이터에 더 잘 일반화되며, 세 모델 모두 추가 미세 조정의 혜택을 받는다.

3개의 입력 뷰의 경우 mip-NeRF와 DietNeRF는 경쟁력 있는 새로운 뷰를 생성할 수 없다.

그러나 입력 뷰가 6개 또는 9개인 경우 최상의 조건부 모델보다 성능이 우수합니다.

mip-NeRF 및 DietNeRF보다 더 적은 최적화 단계가 필요하고 사전 학습이 전혀 필요 없음에도 불구하고, 우리의 방법은 모든 시나리오에서 최고의 결과를 달성한다.

그림 7에서 조건부 모델의 예측은 입력에서 멀리 떨어진 뷰에 대해 흐릿한 경향이 있으며 테스트 시간 최적화된 베이스라인은 예측된 장면 기하학의 오류를 포함한다.

우리의 방법은 우수한 기하학적 예측과 보다 현실적인 새로운 관점을 달성한다.

표 3. Ablation 연구. 매우 드문 시나리오의 경우, 우리는 장면 공간 어닐링이 퇴보 솔루션을 피하는 데 중요하다는 것을 발견했다. 또한 장면 지오메트리를 정규화하는 것은 외관 정규화보다 성능에 더 큰 영향을 미친다. 모든 구성 요소를 결합하면 최상의 성능을 얻을 수 있습니다.
그림 8. 정성 ablation 연구. 장면 공간 어닐링(-Annal.)과 지오메트리 정규화(-Geo. Reg.)는 외관 정규화기 (-App. Reg.)가 안정적인 색상 예측을 보장하는 동안 부동 아티팩트를 피하는 데 중요하다.

4.3. Ablation Studies

표 3과 그림 8에서 우리는 우리 방법의 구성 요소를 제거한다.

우리는 제안된 장면 공간 어닐링 전략이 희소 입력에 대한 퇴보 솔루션을 피한다는 것을 발견했다.

게다가, 기하학을 정규화하는 것이 외모보다 더 중요하며, 모든 것을 결합하면 최상의 결과를 얻을 수 있습니다.

표 4. 지오메트리 정규화. 우리는 DTU(3개의 입력 뷰)에서 다양한 지오메트리 정규화 전략의 선택을 비교하고 우리의 depth 평활성이 이전에 가장 잘 수행된다는 것을 발견했다.

Ablation of Geometry Regularizer:

표 4에서는 다른 기하학적 정규화 기법의 성능을 조사한다.

불투명도 기반 정규화기(예: 0 또는 1에 가까운 렌더링 불투명도 값 적용)와 밀도 또는 정상 평활도 이전(예: 3D에서 인접 정상 벡터 간의 거리 최소화)은 견고하고 매끄러운 표면을 적용하는 데 자주 사용되는 두 가지 전략으로 정확한 장면 지오메트리를 생성하지 못한다는 것을 발견했다.

Hedman et al. [17]의 이전 희소성을 사용하면 더 나은 정량적 결과를 얻을 수 있지만, 새로운 뷰는 여전히 부동 아티팩트를 포함하고 최적화된 지오메트리에 구멍이 있다. 

대조적으로, 우리의 지오메트리 정규화 전략은 최고의 성능을 달성한다.

우리는 좌표 기반 방법에 대한 밀도 기반 [37] vs. 단일 표면 최적화 [41,52]와 유사하게 단일 지점보다 전체 ray를 따라 그라데이션 정보를 제공하면 보다 안정적이고 유익한 학습 신호를 제공한다는 가설을 세웠다.

 

 

5. Conclusion

우리는 데이터 제한 체제에서 신경 방사장(NeRF)을 최적화하기 위한 새로운 접근 방식인 RegNeRF를 제시하였다.
우리의 핵심 통찰력은 희소 입력 시나리오의 경우, 잘못 최적화된 장면 지오메트리 및 최적화 시작 시 발산 동작으로 인해 NeRF의 성능이 크게 떨어진다는 것이다.
이러한 한계를 극복하기 위해 보이지 않는 관점에서 렌더링된 패치의 지오메트리 및 모양을 정규화하는 기술을 제안한다.
새로운 샘플 공간 어닐링 전략과 결합하여, 우리의 방법은 고품질의 새로운 뷰를 합성할 수 있는 3D 일관적인 표현을 배울 수 있다.
우리의 실험 평가는 우리의 모델이 우리와 유사하게 단일 장면에서만 최적화하는 방법뿐만 아니라 많은 경우 대규모 다중 뷰 데이터 세트에서 광범위하게 사전 학습된 조건부 모델도 능가한다는 것을 보여준다.

 

Limitations and Future Work:

이 작업에서는 기하학적 세부 사항을 환각으로 인식하려고 시도하지 않는다.
결과적으로, 우리의 모델은 미세한 기하학적 구조를 가진 관찰되지 않은 영역에서 흐릿한 예측을 초래할 수 있다(그림 9 참조).
우리는 불확실성 예측 메커니즘[50] 또는 생성 구성 요소[5,15,39,49]를 통합하는 것을 유망한 미래 작업으로 식별한다.

 

Potential Negative Impact:

우리는 오해의 소지가 있는 콘텐츠 생성, 민감한 데이터의 재구성, 딥러닝 기반 시스템의 높은 에너지 소비를 사회와 환경에 대한 잠재적인 부정적인 영향으로 식별한다.