NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (번역)

2021. 5. 24. 15:04View Synthesis

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

 

Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng

 

Abstract

희소한 입력 뷰 세트를 사용하여 기본 연속 체적 장면 함수를 최적화하여 복잡한 장면의 새로운 뷰를 합성하기 위한 최첨단 결과를 달성하는 방법을 제시합니다.

우리의 알고리즘은 완전히 연결된 (비컨볼루션) 심층 네트워크를 사용하는 장면을 나타냅니다, 입력은 단일 연속 5D 좌표(공간적 위치 (x, y, z) 및 보기 방향 (θ, Φ))이고 출력은 해당 공간 위치에서 볼륨 밀도 및 뷰에 따라 방출되는 방사광입니다.
카메라 광선을 따라 5D 좌표를 쿼리하여 뷰를 합성하고 고전적인 볼륨 렌더링 기술을 사용하여 출력 색상과 밀도를 이미지에 투영합니다.
볼륨 렌더링은 자연스럽게 구별할 수 있기 때문에 표현을 최적화하는 데 필요한 유일한 입력은 알려진 카메라 포즈가 있는 이미지 세트입니다.
복잡한 지오메트리와 모양이 있는 장면의 사실적인 참신한 뷰를 렌더링하기 위해 신경 방사 필드를 효과적으로 최적화하는 방법을 설명하고, 신경 렌더링 및 뷰 합성에 대한 이전 작업을 능가하는 결과를 보여줍니다.
합성 결과 보기는 비디오로 보는 것이 가장 좋으므로 독자들이 설득력 있는 비교를 위해 보충 비디오를 보도록 촉구합니다.

 

1. Introduction

이 작업에서 우리는 연속 5D 장면 표현의 매개 변수를 직접 최적화하여 캡처된 이미지 세트를 렌더링하는 오류를 최소화함으로써 뷰 합성의 오랜 문제를 새로운 방식으로 해결합니다.

그림 2 : 신경 방사 필드 장면 표현 및 미분 가능한 렌더링 절차에 대한 개요. 카메라 광선 (a)을 따라 5D 좌표 (위치 및 보기 방향)를 샘플링하고 해당 위치를 MLP에 입력하여 색상 및 볼륨 밀도를 생성하고 (b) 볼륨 렌더링 기술을 사용하여 이러한 값을 이미지로 합성하여 이미지를 합성합니다 (C). 이 렌더링 기능은 미분 가능하므로 합성된 이미지와 실측 관찰 이미지 (d) 사이의 잔차를 최소화하여 장면 표현을 최적화할 수 있습니다.

우리는 정적 장면을 공간의 각 지점 (x, y, z)에서 각 방향 (θ, Φ)으로 방출되는 빛을 출력하는 연속적인 5D 함수로 표현하고, 각 지점의 밀도는 어떻게 제어하는 ​​차동 불투명도처럼 작동합니다, (x, y, z)를 통과하는 광선에 의해 많은 빛이 축적됩니다.

우리의 방법은 단일 5D 좌표 (x, y, z, θ, Φ)에서 단일 볼륨 밀도 및 뷰 종속 RGB 색상으로 회귀하여 이 기능을 나타내기 위해 컨볼루션 레이어 (종종 다층 퍼셉트론 또는 MLP라고 함)없이 심층적으로 완전히 연결된 신경망을 최적화합니다.

특정 시점에서 이 신경 방사장 (NeRF)을 렌더링하려면 1) 장면을 통해 카메라 광선을 이동하여 샘플 3D 포인트 세트를 생성하고, 2) 해당 포인트와 해당 2D 보기 방향을 신경망에 대한 입력으로 사용하여 색상 및 밀도의 출력 세트를 생성하고 3) 고전적인 볼륨 렌더링 기술을 사용하여 해당 색상과 밀도를 2D 이미지에 축적합니다.
이 프로세스는 자연스럽게 미분할 수 있기 때문에 경사 하강법을 사용하여 관찰된 각 이미지와 표현에서 렌더링된 해당 뷰 사이의 오류를 최소화하여 이 모델을 최적화할 수 있습니다.
여러 뷰에서 이 오류를 최소화하면 네트워크가 실제 기본 장면 콘텐츠를 포함하는 위치에 높은 볼륨 밀도와 정확한 색상을 할당하여 장면의 일관된 모델을 예측할 수 있습니다.
그림 2는 이 전체 파이프 라인을 시각화합니다.

 

복잡한 장면에 대한 신경 방사장 표현을 최적화하는 기본 구현은 충분히 고해상도 표현으로 수렴되지 않으며 카메라 광선 당 필요한 샘플 수에 비효율적이라는 것을 알게되었습니다.
우리는 입력 5D 좌표를 MLP가 더 높은 주파수 기능을 표현할 수 있도록 하는 위치 인코딩으로 변환하여 이러한 문제를 해결하고, 이 고주파 장면 표현을 적절하게 샘플링하는데 필요한 쿼리 수를 줄이기 위한 계층적 샘플링 절차를 제안합니다.

 

우리의 접근 방식은 체적 표현의 장점을 상속합니다, 둘 다 복잡한 실제 형상과 모양을 나타낼 수 있으며 투영된 이미지를 사용하는 그래디언트 기반 최적화에 적합합니다.
결정적으로 우리의 방법은 복잡한 장면을 고해상도로 모델링할 때 이산화된 복셀 그리드의 엄청난 저장 비용을 극복합니다.
요약하면, 우리의 기술적 기여는 다음과 같습니다.

- 기본 MLP 네트워크로 매개변수화된 5D 신경 방사 필드로 복잡한 지오메트리 및 재료가 있는 연속 장면을 표현하는 접근 방식입니다.

- 표준 RGB 이미지에서 이러한 표현을 최적화하는 데 사용하는 고전적인 볼륨 렌더링 기술을 기반으로 한 미분 가능한 렌더링 절차입니다.
  여기에는 가시적인 장면 콘텐츠가 있는 공간에 MLP의 용량을 할당하기 위한 계층적 샘플링 전략이 포함됩니다.

- 각 입력 5D 좌표를 더 높은 차원의 공간에 매핑하는 위치 인코딩으로, 고주파 장면 콘텐츠를 표현하기 위해 신경 방사 필드를 성공적으로 최적화할 수 있습니다.

우리는 결과로 얻은 신경 방사능 필드 방법이 신경 3D 표현을 장면에 맞추는 작업과 심층 컨볼루션 네트워크를 훈련시켜 샘플링된 체적 표현을 예측하는 작업을 포함하여 최첨단 뷰 합성 방법을 양적 및 질적으로 능가한다는 것을 보여줍니다.
우리가 아는 한, 이 논문은 자연 환경에서 캡처한 RGB 이미지에서 실제 물체와 장면의 고해상도 사실적 참신한 뷰를 렌더링할 수 있는 최초의 연속 신경 장면 표현을 제시합니다.

 

2. Related Work

컴퓨터 비전에서 유망한 최근 방향은 3D 공간 위치에서 해당 위치의 부호 있는 거리[6]와 같은 형상의 암시적 표현으로 직접 매핑하는 MLP의 가중치로 객체와 장면을 인코딩하는 것입니다.

그러나 이러한 방법은 지금까지 삼각형 메시 또는 복셀 그리드와 같은 개별 표현을 사용하여 장면을 표현하는 기술과 동일한 충실도로 복잡한 지오메트리로 사실적인 장면을 재현할 수 없었습니다.
이 섹션에서는 이 두 가지 작업 라인을 검토하고 우리의 접근 방식과 대조하여 복잡한 사실적인 장면을 렌더링하기 위한 최첨단 결과를 생성하는 신경 장면 표현의 기능을 향상시킵니다.

 

MLP를 사용하여 저차원 좌표에서 색상으로 매핑하는 유사한 접근 방식은 이미지[44], 텍스처 재질[12, 31, 36, 37] 및 간접 조명 값[38]과 같은 다른 그래픽 기능을 나타내는데도 사용되었습니다.

 

Neural 3D shape representations 

최근 연구는 xyz 좌표를 부호 있는 거리 함수 [15, 32] 또는 점유 필드 [11, 27]에 매핑하는 심층 네트워크를 최적화하여 레벨 세트로 연속 3D 모양의 암시적 표현을 조사했습니다.
그러나 이러한 모델은 일반적으로 ShapeNet [3]과 같은 합성 3D 모양 데이터 세트에서 얻은 Ground Truth 3D 지오메트리에 대한 액세스 요구 사항으로 제한됩니다.
후속 작업은 2D 이미지만을 사용하여 신경 암시적 모양 표현을 최적화할 수 있는 미분 가능한 렌더링 함수를 공식화하여 Ground Truth 3D 모양에 대한 이러한 요구 사항을 완화했습니다.
Niemeyer et al. [29] 표면을 3D 점유장으로 표현하고 수치적 방법을 사용하여 각 광선에 대한 표면 교차점을 찾은 다음 암시적 미분을 사용하여 정확한 미분을 계산합니다.
각 광선 교차 위치는 해당 지점의 확산 색상을 예측하는 신경 3D 텍스처 필드에 대한 입력으로 제공됩니다.
Sitzmann et al. 각 연속 3D 좌표에서 특징 벡터와 RGB 색상을 단순히 출력하는 덜 직접적인 신경 3D 표현을 사용하고 각 광선을 따라 행진하여 표면 위치를 결정하는 반복 신경망으로 구성된 미분 가능한 렌더링 함수를 제안합니다. 

 

이러한 기술은 잠재적으로 복잡하고 고해상도 지오메트리를 나타낼 수 있지만 지금까지는 기하학적 복잡성이 낮은 단순한 모양으로 제한되어 렌더링이 지나치게 부드럽습니다.
우리는 네트워크를 최적화하여 5D 방사 필드 (2D 뷰에 종속된 모양의 3D 볼륨)를 인코딩하는 대체 전략이 복잡한 장면의 사실적인 참신한 뷰를 렌더링하기 위해 고해상도 지오메트리와 모양을 나타낼 수 있음을 보여줍니다.

 

View synthesis and image-based rendering

조밀한 뷰 샘플링이 주어지면, 단순한 라이트 필드 샘플 보간 기술[21, 5, 7]로 사실적인 참신한 뷰를 재구성할 수 있습니다.
희소 뷰 샘플링을 사용한 새로운 뷰 합성의 경우, 컴퓨터 비전 및 그래픽 커뮤니티는 관찰된 이미지에서 전통적인 형상 및 모양 표현을 예측하여 상당한 진전을 이루었습니다.
널리 사용되는 접근 방식 중 하나는 확산 [48] 또는 뷰 종속 [2,8,49] 모양의 장면의 메시 기반 표현을 사용합니다.
미분 가능한 래스터 라이저 [4, 10, 23, 25] 또는 경로 추적기 [22, 30]는 그라디언트 하강법을 사용하여 입력 이미지 세트를 재현하기 위해 메시 표현을 직접 최적화할 수 있습니다.
그러나 이미지 재투영에 기반한 그래디언트 기반 메시 최적화는 로컬 최소값 또는 손실 랜드 스케이프의 열악한 조건 때문에 종종 어렵습니다.
더욱이 이 전략은 고정된 토폴로지를 가진 템플릿 메시가 최적화 전에 초기화로 제공되어야합니다 [22], 이것은 일반적으로 제한되지 않은 실제 장면에서는 사용할 수 없습니다.

 

또 다른 종류의 방법은 입력 RGB 이미지 세트에서 고품질의 사실적 뷰 합성 작업을 처리하기 위해 체적 표현을 사용합니다.
체적 접근 방식은 복잡한 모양과 재료를 사실적으로 표현할 수 있고, 그래디언트 기반 최적화에 적합하며, 메시 기반 방법보다 시각적으로 산만한 아티팩트를 덜 생성하는 경향이 있습니다.
초기 체적 접근 방식은 관찰된 이미지를 사용하여 복셀 격자를 직접 채색했습니다 [19, 40, 45].
최근에는 여러 가지 방법 [9, 13, 17, 28, 33, 43, 46, 52]이 여러 장면의 대규모 데이터 세트를 사용하여 입력 이미지 세트에서 샘플링된 체적 표현을 예측하는 심층 네트워크를 훈련한 다음 둘 중 하나를 사용합니다, 알파 합성 [34] 또는 광선을 따라 배운 합성을 통해 테스트 시간에 새로운 뷰를 렌더링합니다.

다른 작품은 각 특정 장면에 대해 컨볼루션 네트워크 (CNN) 및 샘플링된 복셀 그리드의 조합을 최적화하여 CNN이 저해상도 복셀 그리드 [41]의 이산화 아티팩트를 보상하거나 예측된 복셀 그리드가 입력 시간 또는 애니메이션 컨트롤 [24]에 따라 달라질 수 있도록 합니다.
이러한 체적 기술은 새로운 뷰 합성에서 인상적인 결과를 얻었지만, 더 높은 해상도 이미지로 확장하는 능력은 이산 샘플링으로 인해 시간과 공간의 복잡성이 낮아 근본적으로 제한됩니다, 더 높은 해상도 이미지를 렌더링 하려면 3D 공간의 더 나은 샘플링이 필요합니다.
대신 완전히 연결된 심층 신경망의 매개 변수 내에서 연속 볼륨을 인코딩하여 이 문제를 피합니다, 이전의 볼륨 방식 보다 훨씬 더 높은 품질의 렌더링을 생성할 뿐만 아니라 샘플링된 볼륨 표현의 저장 비용의 일부만 필요합니다.

 

3. Neural Radiance Field Scene Representation

연속 장면은 입력이 3D 위치 x = (x, y, z) 및 2D 보기 방향 (θ, Φ)이고 출력이 방출된 색상 c = (r, g, b) 이고 부피 밀도 σ 인 5D 벡터 값 함수로 표현됩니다. 
실제로 방향을 3D 데카르트 단위 벡터 d로 표현합니다.
MLP 네트워크 FΘ : (x, d) → (c, σ)를 사용하여 이 연속 5D 장면 표현을 근사화하고 가중치 Θ를 최적화하여 각 입력 5D 좌표에서 해당 볼륨 밀도 및 방향 방출 색상으로 매핑합니다.

 

우리는 네트워크가 볼륨 밀도 σ를 위치 x의 함수로만 예측하도록 제한하고 RGB 색상 c를 위치와 보기 방향의 함수로 예측할 수 있도록 함으로써 멀티 뷰 일관성을 유지하도록 장려합니다.
이를 수행하기 위해 MLP FΘ 첫번째는 입력 3D 좌표 x를 8개의 완전히 연결된 레이어 (ReLU 활성화 및 레이어 당 256개 채널 사용)로 처리하고 σ 및 256차원 특징 벡터를 출력합니다.
그런 다음 이 특징 벡터는 카메라 광선의 보기 방향과 연결되고 뷰 종속 RGB 색상을 출력하는 하나의 추가 완전 연결 레이어 (ReLU 활성화 및 128개 채널 사용)로 전달됩니다.

그림 3 : 뷰에 따라 방출되는 방사광의 시각화. 우리의 신경 방사장 표현은 공간 위치 x와 보기 방향 d의 5D 함수로 RGB 색상을 출력합니다. 여기에서는 Ship 장면의 신경 표현에서 두 공간 위치에 대한 방향성 색상 분포의 예를 시각화합니다. (a)와 (b)에서는 두 개의 서로 다른 카메라 위치에서 두 개의 고정된 3D 점의 모양을 보여줍니다. 하나는 선박 측면 (주황색 삽입)과 다른 하나는 수면 (파란색 삽입)입니다. 우리의 방법은 이 두 3D 점의 변화하는 반사 모양을 예측하고 (c)에서 이 동작이 보는 방향의 전체 반구에서 어떻게 일반화되는지 보여줍니다.
그림 4 : 여기에서는 뷰에 따라 방출되는 방사광을 표현하고 고주파 위치 인코딩을 통해 입력 좌표를 전달함으로써 전체 모델이 어떻게 이점을 얻을 수 있는지 시각화합니다. 뷰 의존성을 제거하면 모델이 불도저 트레드에서 정반사를 다시 만들지 못합니다. 위치 인코딩을 제거하면 고주파 지오메트리 및 텍스처를 표현하는 모델의 기능이 크게 감소하여 외관이 지나치게 부드러워집니다.

 

우리의 방법이 람 베르트가 아닌 효과를 표현하기 위해 입력 보기 방향을 사용하는 방법의 예는 그림 3을 참조하십시오.
그림 4에서 볼 수 있듯이 뷰 의존성 없이 훈련된 모델 (입력으로 x만)은 반사성을 나타내는 데 어려움이 있습니다.

 

4. Volume Rendering with Radiance Fields

우리의 5D 신경 방사 필드는 공간의 어느 지점에서나 볼륨 밀도 및 방향 방출 방사광으로 장면을 나타냅니다.
우리는 고전적인 볼륨 렌더링 [16]의 원리를 사용하여 장면을 통과하는 광선의 색상을 렌더링합니다.
체적 밀도 σ(x)는 위치 x의 극소 입자에서 종결되는 광선의 미분 확률로 해석될 수 있습니다.

근거리 및 원거리 경계가 tn 및 tf 인 카메라 광선 r(t) = o + td의 예상 색상 C(r)는 다음과 같습니다:

함수 T(t)는 tn에서 t까지 광선을 따라 누적된 투과율, 즉 광선이 다른 입자에 부딪히지 않고 tn에서 t로 이동할 확률을 나타냅니다.
연속 신경 방사 필드에서 뷰를 렌더링하려면 원하는 가상 카메라의 각 픽셀을 통해 추적되는 카메라 광선에 대해 이 적분 C(r)를 추정해야 합니다.

 

우리는 구적법을 사용하여 이 연속 적분을 수치적으로 추정합니다.
일반적으로 이산화된 복셀 그리드를 렌더링하는 데 사용되는 결정적 구적법은 MLP가 고정된 이산 위치 집합에서만 쿼리되기 때문에 표현의 해상도를 효과적으로 제한합니다.
대신, 우리는 [tn, tf]를 N개의 균일한 간격의 빈에 넣은 다음 각 빈 내에서 무작위로 균일하게 하나의 샘플을 그립니다:

적분을 추정하기 위해 개별 샘플 세트를 사용하지만 계층화된 샘플링을 사용하면 최적화 과정에서 MLP가 연속 위치에서 평가되기 때문에 연속 장면 표현을 나타낼 수 있습니다.
Max [26]의 볼륨 렌더링 검토에서 논의된 구적 법칙으로 C(r)를 추정하기 위해 이 샘플을 사용합니다:

여기서 δi = ti+1 - ti는 인접한 샘플 사이의 거리입니다.
(ci, σi) 값 집합에서 ^C(r)을 계산하는 이 함수는 사소하게 미분할 수 있으며 알파 값 αi = 1- exp(-σiδi)를 사용하는 기존 알파 합성으로 축소됩니다.

 

5. Optimizing a Neural Radiance Field

이전 섹션에서 우리는 장면을 신경 복사 필드로 모델링하고 이 표현에서 새로운 뷰를 렌더링하는 데 필요한 핵심 구성 요소를 설명했습니다.
그러나 섹션 6.4에서 설명한 것처럼 이러한 구성 요소가 최첨단 품질을 달성하는 데 충분하지 않다는 것을 확인했습니다.
고해상도의 복잡한 장면을 표현할 수 있도록 두 가지 개선 사항을 소개합니다.
첫 번째는 MLP가 고주파 함수를 나타내는 데 도움이 되는 입력 좌표의 위치 인코딩이고, 두 번째는 이 고주파 표현을 효율적으로 샘플링할 수 있는 계층적 샘플링 절차입니다.

 

5.1. Positional encoding

신경망이 보편적인 함수 근사자 [14]라는 사실에도 불구하고, 우리는 네트워크 FΘ가 xyzθΦ 입력 좌표에서 직접 작동하면 색상과 기하학적 구조에서 고주파수 변화를 제대로 표현하지 못하는 렌더링이 발생한다는 것을 발견했습니다.
이것은 Rahaman 등의 최근 연구와 일치합니다 [35], 이는 딥 네트워크가 저주파 기능 학습에 편향되어 있음을 보여줍니다.
추가적으로 네트워크로 전달하기 전에 고주파 함수를 사용하여 입력을 더 높은 차원의 공간에 매핑하면 고주파 변동이 포함된 데이터를 더 잘 맞출 수 있음을 보여줍니다.

표 2 : 우리 모델의 절제 연구. 메트릭은 실제 합성 데이터 세트의 8개 장면에 대한 평균입니다. 자세한 설명은 섹션 6.4를 참조하십시오.

우리는 신경 장면 표현의 맥락에서 이러한 발견을 활용하고 FΘ를 두 함수 FΘ = F'Θ · γ (하나는 학습되고 다른 하나는 학습되지 않음)의 구성으로 재구성하면 성능이 크게 향상된다는 것을 보여줍니다 (그림 4 및 표 2 참조). 
다음은 R에서 더 높은 차원의 공간 R^2L로의 매핑이며 F'Θ는 여전히 단순히 일반 MLP입니다.
공식적으로 우리가 사용하는 인코딩 함수는 다음과 같습니다:

이 함수 γ(·)는 x의 세 좌표 값 ([-1, 1]에 있도록 정규화 됨)과 데카르트 관측 방향 단위 벡터 d (구성에 의해 [-1, 1]).
실험에서 γ(x)에 대해 L=10을 설정하고 γ(d)에 대해 L=4를 설정했습니다.

 

유사한 매핑이 인기 있는 Transformer 아키텍처 [47]에서 사용되며 위치 인코딩이라고합니다.
그러나 Transformers는 순서 개념을 포함하지 않는 아키텍처에 대한 입력으로 시퀀스에서 토큰의 개별 위치를 제공하는 다른 목표를 위해 이를 사용합니다.
대조적으로, 우리는 MLP가 더 높은 주파수 함수에 더 쉽게 접근할 수 있도록 이 함수를 사용하여 연속 입력 좌표를 더 높은 차원의 공간에 매핑합니다.
투영에서 3D 단백질 구조를 모델링하는 관련 문제에 대한 동시 연구 [51]도 유사한 입력 좌표 매핑을 활용합니다.

 

5.2. Hierarchical volume sampling

각 카메라 광선을 따라 N개의 쿼리 지점에서 신경 방사 필드 네트워크를 조밀하게 평가하는 렌더링 전략은 비효율적입니다: 렌더링된 이미지에 기여하지 않는 여유 공간과 가려진 영역은 여전히 반복적으로 샘플링됩니다.
우리는 볼륨 렌더링의 초기 작업에서 영감을 얻고 [20] 최종 렌더링에 대한 예상 효과에 비례하여 샘플을 할당하여 렌더링 효율성을 높이는 계층적 표현을 제안합니다.

 

장면을 표현하기 위해 단일 네트워크를 사용하는 대신 동시에 두 개의 네트워크를 최적화합니다: 하나는 "거친"이고 하나는 "미세"입니다.
먼저 계층화된 샘플링을 사용하여 Nc 위치 집합을 샘플링하고 방정식 2와 3에 설명된 대로 이러한 위치에서 "거친" 네트워크를 평가합니다.
이 "거친" 네트워크의 출력이 주어지면 샘플이 볼륨의 관련 부분으로 편향되는 각 광선을 따라 더 많은 정보를 바탕으로 포인트 샘플링을 생성합니다.
이를 위해 먼저 방정식 3의 거친 네트워크 ^Cc(r)에서 알파 합성된 색상을 광선을 따라 샘플링된 모든 색상 ci의 가중치 합으로 다시 작성합니다:

이러한 가중치를

로 정규화하면 광선을 따라 조각 별 상수 PDF가 생성됩니다.
역변환 샘플링을 사용하여 이 분포에서 두 번째 Nf 위치 집합을 샘플링하고, 첫 번째와 두 번째 샘플 집합의 합집합에서 "미세" 네트워크를 평가하고, 다음을 사용하여 광선 ^Cf(r)의 최종 렌더링된 색상을 계산합니다, 방정식 3이지만 모든 Nc+Nf 샘플을 사용합니다.
이 절차는 가시적 콘텐츠를 포함할 것으로 예상되는 지역에 더 많은 샘플을 할당합니다.
이것은 중요도 샘플링과 유사한 목표를 다루지만, 각 샘플을 전체 적분의 독립적인 확률 추정치로 취급하는 대신 전체 통합 도메인의 불균일 이산화로 샘플링된 값을 사용합니다.

 

5.3. Implementation details

각 장면에 대해 별도의 신경 연속 볼륨 표현 네트워크를 최적화합니다.
여기에는 장면의 캡처된 RGB 이미지 데이터 세트, 해당 카메라 포즈 및 내장 매개 변수, 장면 경계만 필요합니다 (우리는 합성 데이터에 Ground Truth 카메라 포즈, 내장 및 경계를 사용하고 COLMAP 구조-모션 패키지를 사용합니다. [39] 실제 데이터에 대한 이러한 매개 변수를 추정).
각 최적화 반복에서 데이터 세트의 모든 픽셀 세트에서 카메라 광선 배치를 무작위로 샘플링한 다음 섹션 5.2에 설명된 계층적 샘플링에 따라 거친 네트워크의 Nc 샘플과 미세 네트워크의 Nc+Nf 샘플을 쿼리합니다.
그런 다음 섹션 4에 설명된 볼륨 렌더링 절차를 사용하여 두 샘플 세트에서 각 광선의 색상을 렌더링합니다.
우리의 손실은 단순히 거친 렌더링과 미세 렌더링 모두에 대해 렌더링된 픽셀 색상과 실제 픽셀 색상 사이의 총 제곱 오차입니다:

여기서 R은 각 배치의 광선 세트이고 C(r), ^Cc(r) 및 ^Cf(r)는 각각 광선 r에 대한 Ground Truth, Coarse Volume 예측 및 Fine Volume 예측 RGB 색상입니다.
최종 렌더링이 ^Cf(r)에서 나왔음에도 불구하고 ^Cc(r) 손실을 최소화하여 거친 네트워크의 가중치 분포를 사용하여 최종 네트워크에 샘플을 할당할 수 있습니다.

 

우리의 실험에서 우리는 4096 광선의 배치 크기를 사용하며, 각각은 거친 부피의 Nc=64 좌표 및 미세 부피의 Nf=128 추가 좌표에서 샘플링되었습니다.
학습률이 5x10^-4에서 시작하고 최적화 과정에서 5x10^-5로 기하 급수적으로 감소하는 Adam 최적화 프로그램 [18]을 사용합니다 (다른 Adam 하이퍼 파라미터는 기본값인 β1=0.9, β2=0.999 및 ε=10^-7로 유지됩니다).
단일 장면에 대한 최적화는 일반적으로 단일 NVIDIA V100 GPU에서 수렴하는 데 약 100~300,000 회 반복 (약 1-2 일)이 걸립니다.

 

6. Results

표 1 : 우리의 방법은 합성 및 실제 이미지의 데이터 세트에 대한 이전 작업을 정량적으로 능가합니다. PSNR / SSIM (높을수록 좋음) 및 LPIPS [50] (낮을수록 좋음)를 보고합니다. DeepVoxels [41] 데이터 세트는 단순한 기하학을 가진 4개의 확산 오브젝트로 구성됩니다. 우리의 사실적인 합성 데이터 세트는 복잡한 비 람 베르트 재료를 사용하여 기하학적으로 복잡한 8개 개체의 경로 추적 렌더링으로 구성됩니다. 실제 데이터 세트는 8개의 실제 장면의 핸드 헬드 전방 캡처로 구성됩니다 (NV는 제한된 볼륨 내부의 객체만 재구성하기 때문에 이 데이터에서 평가할 수 없습니다). LLFF가 약간 더 나은 LPIPS를 달성하지만, 우리는 독자들에게 우리의 방법이 더 나은 멀티 뷰 일관성을 달성하고 모든 기준보다 더 적은 아티팩트를 생성하는 보충 비디오를 볼 것을 촉구합니다.
그림 6 : 실제 장면의 테스트 세트 보기 비교. LLFF는 이 사용 사례 (실제 장면의 전방 캡처)를 위해 특별히 설계되었습니다. 우리의 방법은 Fern의 잎과 T-rex의 뼈대 갈비뼈와 난간에서 볼 수 있듯이 LLFF보다 렌더링 된 뷰에서 더 일관되게 정밀한 지오메트리를 표현할 수 있습니다. 우리의 방법은 또한 하단 고사리 작물의 잎 뒤에 있는 노란색 선반과 하단 난초 작물의 배경에 있는 녹색 잎과 같이 LLFF가 깨끗하게 렌더링하기 위해 고군분투하는 부분적으로 가려진 영역을 올바르게 재구성합니다. 여러 렌더링을 혼합하면 상단 난초 자르기에서 볼 수 있듯이 LLFF에서 반복되는 가장자리가 발생할 수도 있습니다. SRN은 각 장면의 저주파 기하학과 색상 변화를 캡처하지만 세부적인 부분을 재현 할 수는 없습니다.
그림 8 : DeepVoxels [41] 합성 데이터 세트의 장면에 대한 테스트 세트 보기 비교. 이 데이터 세트의 객체는 단순한 형상과 완벽한 확산 반사율을 가지고 있습니다. 많은 수의 입력 이미지 (479 뷰)와 렌더링된 객체의 단순성 때문에 우리의 방법과 LLFF [28]는 이 데이터에서 거의 완벽하게 수행됩니다. LLFF는 각 개체의 상단 삽입에서와 같이 3D 볼륨 간에 보간할 때 가끔 아티팩트를 표시합니다. SRN [42]과 NV [24]는 미세한 디테일을 표현할 수 있는 표현력이 없습니다.

우리는 정량적으로 (표 1) 및 정성적으로 (그림 8 및 6) 우리의 방법이 이전 작업을 능가하고 우리의 설계 선택을 검증하기 위한 광범위한 절제 연구를 제공함을 보여줍니다 (표 2).
독자들이 새로운 뷰의 부드러운 경로를 렌더링할 때 기준 방법에 비해 우리 방법의 현저한 개선을 더 잘 이해하기 위해 보충 비디오를 볼 것을 촉구합니다.

 

6.1. Datasets

Synthetic renderings of objects

먼저 개체 합성 렌더링의 두 데이터 세트에 대한 실험 결과를 보여줍니다 (표 1, "Diffuse Synthetic 360˚" 및 "Realistic Synthetic 360˚").
DeepVoxels [41] 데이터 셋은 단순한 기하학을 가진 4개의 Lambertian 객체를 포함합니다.
각 개체는 상반구에서 샘플링된 시점에서 512x512 픽셀로 렌더링됩니다 (입력으로 479개, 테스트용으로 1000개).
또한 복잡한 지오메트리와 사실적인 비 람베르트 재료를 나타내는 8개 개체의 경로 추적 이미지를 포함하는 자체 데이터 세트를 생성합니다.
6개는 상반구에서 샘플링된 시점에서 렌더링되고 2개는 전체 구에서 샘플링된 시점에서 렌더링됩니다.
각 장면의 100개의 뷰를 입력으로 렌더링하고 테스트를 위해 200개의 뷰를 모두 800x800 픽셀로 렌더링합니다.

 

Real images of complex scene

대략 전방을 향하는 이미지로 캡처한 복잡한 실제 장면에 대한 결과를 보여줍니다 (표 1, "진짜 전방을 향함").
이 데이터 세트는 핸드 헬드 휴대 전화로 캡처한 8개의 장면 (LLFF 용지에서 가져온 5개, 캡처한 3개), 20~62개의 이미지로 캡처하고 이들 중 1/8개를 테스트 세트로 유지합니다.
모든 이미지는 1008x756 픽셀입니다.

 

6.2. Comparisons

모델을 평가하기 위해 아래에 자세히 설명된 뷰 합성을 위한 현재 최고 성능의 기술과 비교합니다.
모든 방법은 동일한 입력 뷰 세트를 사용하여 각 장면에 대해 별도의 네트워크를 훈련합니다, 단, 대규모 데이터 세트에서 단일 3D 컨볼루션 네트워크를 훈련하는 Local Light Field Fusion [28]은 예외입니다, 그런 다음 동일한 훈련된 네트워크를 사용하여 테스트 시간에 새 장면의 입력 이미지를 처리합니다.

 

Neural Volumes (NV) [24]는 별개의 배경 (관심 대상 없이 별도로 캡처해야 함) 앞의 경계 볼륨 내에 완전히 있는 객체의 새로운 보기를 합성합니다.
딥 3D 컨벌루션 네트워크를 최적화하여 1283개 샘플이 있는 이산화된 RGBα 복셀 그리드와 323개 샘플이 있는 3D 워프 그리드를 예측합니다.
알고리즘은 뒤틀린 복셀 그리드를 통해 카메라 광선을 행진하여 새로운 뷰를 렌더링합니다.

 

Scene Representation Networks (SRN) [42]은 각 (x, y, z) 좌표를 특징 벡터에 매핑하는 MLP에 의해 암시적으로 정의 된 불투명 표면으로 연속 장면을 나타냅니다.
그들은 광선을 따라 다음 단계 크기를 예측하기 위해 임의의 3D 좌표에서 특징 벡터를 사용하여 장면 표현을 통해 광선을 따라 행진하도록 순환 신경망을 훈련시킵니다.
최종 단계의 특징 벡터는 표면의 해당 지점에 대해 단일 색상으로 디코딩됩니다.
SRN은 동일한 저자에 의한 DeepVoxels [41]에 대한 더 나은 성능의 후속 조치이므로 DeepVoxels와의 비교를 포함하지 않습니다.

 

Local Light Field Fusion (LLFF) [28]는 잘 샘플링된 전방을 향한 장면에 대해 사실적인 참신한 뷰를 생성하도록 설계되었습니다.
훈련된 3D 컨벌루션 네트워크를 사용하여 각 입력 뷰에 대해 이산화된 절두체 샘플링 RGBα 그리드 (다중 평면 이미지 또는 MPI [52])를 직접 예측한 다음, 근처 MPI를 새로운 시점에 알파 합성 및 혼합하여 새로운 뷰를 렌더링합니다.

 

6.3. Discussion

우리는 모든 시나리오에서 장면 당 별도의 네트워크 (NV 및 SRN)를 최적화하는 두 기준을 철저히 능가합니다.
또한 입력 이미지만 전체 교육 세트로 사용하면서 LLFF (하나의 메트릭을 제외한 모든 항목에 걸쳐)에 비해 질적 및 양적으로 우수한 렌더링을 생성합니다.

 

SRN 방법은 매우 부드러운 지오메트리와 텍스처를 생성하며 뷰 합성을 위한 표현력은 카메라 광선 당 단일 깊이와 색상 만 선택함으로써 제한됩니다.
NV 기준선은 상당히 상세한 체적 기하학 및 모양을 캡처할 수 있지만 기본 명시적 128^3 복셀 그리드를 사용하면 고해상도에서 미세한 세부 사항을 나타내기 위해 확장되지 않습니다.
LLFF는 특히 입력 뷰 간의 차이가 64 픽셀을 초과하지 않도록 "샘플링 지침"을 제공하므로 뷰간에 최대 400-500 픽셀의 차이가 포함된 합성 데이터 세트에서 올바른 지오메트리를 추정하지 못하는 경우가 많습니다.
또한 LLFF는 서로 다른 뷰를 렌더링하기 위해 서로 다른 장면 표현을 혼합하여 보충 비디오에서 명백한 것처럼 지각을 분산시키는 불일치를 초래합니다. 

 

이러한 방법 사이의 가장 큰 실질적인 절충점은 시간 대 공간입니다.
비교된 모든 단일 장면 방법은 장면 당 학습하는 데 최소 12시간이 걸립니다.
반대로 LLFF는 10분 이내에 작은 입력 데이터 세트를 처리할 수 있습니다.
그러나 LLFF는 모든 입력 이미지에 대해 큰 3D 복셀 그리드를 생성하므로 엄청난 스토리지 요구 사항이 발생합니다 (하나의 "현실적인 합성"장면에 대해 15GB 이상).
우리의 방법은 네트워크 가중치에 5MB만 필요합니다 (LLFF에 비해 3000배의 상대적 압축), 이는 데이터 세트의 단일 장면에 대한 입력 이미지 단독보다 훨씬 적은 메모리입니다.

 

6.4. Ablation studies

표 2의 광범위한 절제 연구를 통해 알고리즘의 설계 선택 및 매개 변수를 검증합니다.
"Realistic Synthetic 360˚" 장면에 대한 결과를 제시합니다.
9행은 참조 지점으로 전체 모델을 보여줍니다.
1행은 위치 인코딩 (PE), 뷰 의존성 (VD) 또는 계층적 샘플링(H)이 없는 모델의 최소 버전을 보여줍니다.
2-4행에서 전체 모델에서 이 세 가지 구성 요소를 한 번에 하나씩 제거하여 위치 인코딩 (2행) 및 뷰 의존성 (3행)이 가장 큰 양적 이익을 제공하고 계층적 샘플링 (4행)을 제공합니다.
5-6행은 입력 이미지 수가 감소함에 따라 성능이 어떻게 감소하는지 보여줍니다.
25개의 입력 이미지만 사용하는 방법의 성능은 100개의 이미지가 제공될 때 모든 메트릭에서 NV, SRN 및 LLFF를 초과합니다 (보충 자료 참조).
7-8행에서 x에 대한 위치 인코딩에 사용된 최대 주파수 L의 선택을 확인합니다 (d에 사용되는 최대 주파수는 비례적으로 조정됩니다).
5개 주파수만 사용하면 성능이 저하되지만 주파수 수를 10개에서 15개로 늘려도 성능이 향상되지는 않습니다.
2L이 샘플링된 입력 이미지에 있는 최대 주파수 (데이터에서 약 1024개)를 초과하면 L 증가의 이점이 제한됩니다.

 

7. Conclusion

우리의 작업은 MLP를 사용하여 객체와 장면을 연속 기능으로 표현하는 이전 작업의 결함을 직접 해결합니다.

우리는 장면을 5D 신경 방사능 필드(3D 위치 및 2D 보기 방향의 함수로 볼륨 밀도 및 보기에 따라 방출되는 방사광을 출력하는 MLP)로 표현하는 것이 이산화 된 복셀 표현을 출력하기 위해 딥 컨볼루션 네트워크를 훈련시키는 이전에 지배적인 접근 방식보다 더 나은 렌더링을 생성한다는 것을 보여줍니다.

 

우리는 보다 효율적인 샘플 렌더링을 만들기 위해 계층적 샘플링 전략을 제안했지만 (훈련과 테스트 모두에 대해), 신경 방사 필드를 효율적으로 최적화하고 렌더링하는 기술을 조사하는 데 여전히 훨씬 더 많은 진전이 이루어지고 있습니다.
향후 작업의 또 다른 방향은 해석 가능성입니다. 복셀 그리드 및 메시와 같은 샘플링된 표현은 렌더링된 뷰 및 실패 모드의 예상 품질에 대한 추론을 인정하지만 심층 신경망의 가중치로 장면을 인코딩할 때 이러한 문제를 분석하는 방법이 명확하지 않습니다.
우리는 이 작업이 실제 이미지를 기반으로 한 그래픽 파이프 라인으로 나아가고 있다고 믿습니다, 복잡한 장면은 실제 물체와 장면의 이미지에서 최적화된 신경 방사 필드로 구성될 수 있습니다.