Stereo Radiance Fields (SRF): Learning View Synthesis for Sparse Views of Novel Scenes

2022. 4. 28. 13:33View Synthesis

Stereo Radiance Fields (SRF): Learning View Synthesis for Sparse Views of Novel Scenes

 

Julian Chibane, Aayush Bansal, Verica Lazova, Gerard Pons-Moll

 

Abstract

최근의 신경 뷰 합성 방법은 다중 뷰 재구성에 의존하는 고전적인 파이프라인을 능가하는 인상적인 품질과 사실성을 달성했다.
NeRF[34]와 같은 SOTA 방법은 신경망으로 단일 장면을 학습하도록 설계되었으며 고밀도 멀티뷰 입력이 필요하다.
새로운 장면에서 테스트를 하려면 처음부터 다시 학습해야 하는데, 2-3일이 걸린다.
본 연구에서는 종단 간 학습을 받고, 새로운 장면으로 일반화하며, 테스트 시 희소 뷰만 요구하는 신경 뷰 합성 접근법인 Stereo Radience Fields (SRF)를 소개한다.
핵심 아이디어는 스테레오 이미지에서 유사한 이미지 영역을 찾아 표면 점을 추정하는 고전적인 다중 뷰 스테레오 방법에서 영감을 얻은 신경 아키텍처이다.
SRF에서는 입력 이미지에서 스테레오 대응 인코딩이 주어지면 각 3D 포인트에 대한 색과 밀도를 예측한다.
인코딩은 고전 스테레오 에뮬레이션과 같은 쌍별 유사성의 앙상블에 의해 암묵적으로 학습된다.
실험에 따르면 SRF는 장면에 오버핏하는 대신 구조를 학습한다.
우리는 DTU 데이터 세트의 여러 장면에서 학습하고 재학습 없이 새로운 장면으로 일반화하여 입력으로 10개의 희소 및 분산 뷰만 필요로 한다.
우리는 10-15분 간의 미세 조정이 결과를 더욱 개선하여 장면별 모델보다 훨씬 더 샤프하고 자세한 결과를 달성한다는 것을 보여준다.

 

 

1. Introduction

그림 1. 우리의 방법은 새로운 장면의 희박하고 펼쳐진 10개의 뷰에서 단일 네트워크 전진 패스로 새로운 뷰를 합성할 수 있다. 여기서 우리는 (a) NeRF[34]와 새로운 뷰를 합성하는데, 이는 이틀 동안 장면별 학습이 필요하다. (b) 결과를 즉시 생성하는 방법과 (c) 10개의 뷰에서 사전 학습된 모델을 15분 동안 미세 조정한 후 개선된 결과를 사용한다.

우리는 종단 간 학습을 받고, 새로운 장면으로 일반화되며, 테스트 시 희소 뷰만 필요한 신경 다중 뷰 합성 접근법을 도입한다(그림 1-(b)).
이는 특정 장면에 대해 학습되고 샤프한 결과를 내기 위해 고밀도 다중 뷰가 필요한 NeRF[34]와 같은 SOTA 뷰 합성 방법과 극명한 대조를 이룬다.

그림 2. 순수 데이터 중심 뷰 합성 및 SRF (ours). 기존 방법은 신경망을 사용하여 장면을 나타내는 놀라운 사실성을 달성한다. 모델은 고품질의 새로운 뷰를 합성하기 위해 한 장면용으로 특별히 학습된다. 그러나 이를 위해서는 조밀한 뷰와 장면당 2일간의 학습이 필요하다. 본 연구에서는 네트워크를 통한 단일 전진 패스를 사용하여 희박하고 분산된 뷰에서 새로운 뷰 합성이라는 보다 어려운 과제를 해결하여 결과를 즉시 얻는다.

방법의 뷰 합성 스펙트럼의 한쪽 끝에는 인상적인 결과를 보여 준 NeRF[34]와 같은 순수한 데이터 중심 방법이 있다.
NeRF는 위치와 방향에서 방출된 radiance에 대한 매핑을 학습하여 급진적인 데이터 중심 접근 방식을 취한다.
이 매핑은 특정 장면에 대해 특별히 학습됩니다(그림 2-(a)).
새로운 장면으로 일반화하려면 2일 동안 재학습이 필요하며 희박하고 분산된 뷰에 대해 학습할 경우 결과가 블러하다(그림 1-(a)).
다른 한편으로, 널리 사용되는 고전적인 이미지 기반 렌더링 기법[46]은 기하학[8, 29, 44, 45]을 사용한다.
이러한 접근 방식은 대응[39, 41, 49] 또는 멀티뷰 3D 재구성[42, 43]을 통해 원하는 타겟 뷰로 픽셀을 왜곡합니다.
결과적으로, 이러한 방법은 고밀도 멀티 뷰가 필요한 고품질 3D 재구성 또는 고밀도 픽셀당 대응에 의존한다.
최근 연구[5, 38]는 고전적인 방법의 왜곡된 관점을 수정하는 방법을 학습하여 고전적인 방법과 데이터 기반 접근 방식을 결합한다.
이러한 방법[5, 38]의 순차적 파이프라인은 종단 간 학습을 허용하지 않는다.

 

우리는 고전적인 방법과 순수한 데이터 중심 방법 모두에서 영감을 얻는다.
NeRF와 마찬가지로, 우리는 또한 radiance(특히 색과 밀도)를 예측하기 위한 신경망을 배운다.
그러나 3D 위치에서 장면 radiance를 기억하는 대신 이미지 기반 피쳐 인코딩을 사용하여 네트워크가 장면 지오메트리에 대해 추론할 수 있다(그림 2-(b)).
고전 스테레오 재구성 [41, 49]에서, 뷰 간의 대응은 유사성 점수를 계산하여 찾을 수 있다.
우리는 명시적 대응을 계산하지 않고 고전적인 접근 방식을 모방하지만 종단 간 학습이 가능한 SRF(Steadio Radience Fields)라는 아키텍처를 고안한다.
3D 점이 각 사용 가능한 뷰에 투영되어 점별 뷰 피쳐를 추출합니다.
그런 다음 뷰 피쳐는 필터 뱅크에 의해 쌍으로 처리되며, 필터 뱅크는 고전적인 방법의 대응 결과를 에뮬레이트한다(그림 3).
쌍별 점수의 결과 매트릭스는 사용 가능한 뷰의 정보를 통합하여 해당 지점에서 원하는 radiance를 예측하는 컨볼루션 신경망[21]으로 추가로 처리된다.

그림 3. 우리의 방법의 직관: 우리는 기하학적 관찰에서 영감을 얻은 모델을 구성한다: 표면에 있는 장면의 3D 포인트는 다른 관점(파란색)에서 볼 때 비슷하게 생긴 영역으로 투영된다. 우리는 이것을 사진 일치점이라고 부릅니다. 그러나 여유 공간의 한 점은 사진 일치(빨간색)가 아닙니다. 이는 불투명하고 막히지 않은 표면 점을 유지합니다.

우리의 실험은 아키텍처 내에 다중 뷰 재구성 아이디어를 통합하면 일반화 능력이 크게 향상된다는 것을 보여준다.

단일 장면에서 학습하고 새로운 장면에서 테스트할 때 SRF는 합리적인 결과를 생성할 수 있습니다.

이것은 네트워크가 장면을 기억하지 않고 구조에 대해 추론하는 방법을 배운다는 것을 나타낸다.

여러 장면(100개 이상)에 대해 학습할 때 SRF는 10개의 희소 및 분산 뷰만 입력으로 사용할 수 있는 경우에도 새로운 장면으로 일반화할 수 있다.

추가적인 개선은 10개의 뷰(그림 1-(c))를 미세 조정함으로써 얻을 수 있습니다(그림 1-(c)).

이는 일반적으로 처음부터 다시 학습하는 방법에 필요한 2-3일보다 훨씬 짧은 시간입니다[34, 47].

SRF 결과는 더 샤프해서 다중 뷰 재구성 구조가 일반화에 도움이 될 뿐만 아니라 학습 문제를 제한한다는 것을 검증한다.

우리는 독자들이 우리의 결과를 우리의 프로젝트 페이지에서 이용 가능한 비디오로 볼 것을 권장한다.

요약하면 우리의 기여는 다음과 같습니다:

 • 우리는 다중 뷰 합성을 위한 종단 간 self-supervised 아키텍처인 Stereo Radiance Fields (SRF)를 소개한다.

우리는 고전적인 다중 뷰 재구성 파이프라인과 신경 렌더링 접근법의 통찰력을 수집한다.
 • 실험은 SRF가 희소하고 분산된 뷰를 입력으로 제공하는 새로운 장면으로 일반화한다는 것을 보여준다.

또한 테스트 분포에서 몇 분 동안 사전 학습된 SRF를 미세 조정하면 결과가 향상된다.
 • 우리는 최근의 패러다임을 하나의 모델로 결합하는 방법을 보여주는데, 이는 종종 새로운 관점 합성에서 고립적으로 처리된다.

SRF는 고전적인 다중 관점 3D 재구성과 여러 장면에서 학습을 기반으로 한다.
 • 희소 및 분산 뷰 설정에서 SRF는 NeRF와 같은 SOTA 베이스라인보다 훨씬 더 샤프한 결과를 생성한다[34].

우리는 이틀 동안 10개의 테스트 뷰에서 학습된 NeRF와 달리 15분 동안만 미세 조정할 때 훨씬 더 나은 결과를 얻는다.

 

 

2. Multi-View View Synthesis

N개의 카메라 뷰를 고려할 때, 우리의 목표는 새로운 가상 카메라를 위한 뷰를 합성하는 것이다.

이것은 오랜 문제입니다 [17, 50].

역사적으로 [46], 이 문제는 사용된 기하학적 정보에 따라 세 가지 가능한 방향으로 연구되었다:
 (1) 가능한 모든 각도에서 주어진 카메라에 대한 레이의 강도를 계산하기 위해 플레놉틱 함수를 모델링하여 기하학 없이 렌더링 [2, 16, 22, 30, 35];
 (2) 다중 요소에 걸친 위치 대응에 대한 지식이 필요한 대응[8,44]을 사용한 렌더링;
 그리고 (3) depth 또는 포인트 클라우드의 형태로 명시적인 3D 정보가 필요한 명시적 지오메트리 [29, 45]로 렌더링합니다.

이 작업에서, 우리는 신경 렌더링의 통찰력을 고전적인 재구성 파이프라인과 결합한다.

우리는 네트워크 내에서 쌍별 점수의 앙상블을 계산하여 네트워크가 뷰 쌍 간의 대응에 대해 추론하도록 권장한다.

우리는 결코 명시적으로 대응관계를 계산하지 않지만, 이러한 기하학적 추론은 우리가 새로운 장면으로 일반화할 수 있게 해준다.

 

Correspondences across multi-views:

멀티 뷰 스테레오의 고전적인 접근법[8, 13, 17, 44, 51]은 뷰 간의 대응에 의존한다.

이 연구에서, 우리는 고전적인 멀티 뷰 스테레오[17, 46]와 현대 학습 기반 접근법[10, 34, 40]의 통찰력을 결합한다.

우리는 10개의 멀티 뷰를 입력하고 멀티 스케일 피쳐를 추출하는 인코더 네트워크를 사용한다[4, 40].

우리는 고전적인 블록 또는 피처 매칭을 유사성 점수의 앙상블을 출력하는 다층 퍼셉트론(MLP)으로 대체한다.

우리와 마찬가지로, 최근 연구는 명시적 대응을 통합하는 희소 뷰[5]에서 뷰 합성을 할 수 있다.

그러나 명시적으로 대응물을 계산하는 것은 조도, 확대/축소, 규모 및 폐색의 차이로 인해 어렵다.

장면별 모델은 아티팩트를 수정하도록 학습된다.

우리의 방법에서, 네트워크는 뷰 합성 loss에 의해 주도되는 대응에 대한 이유이지만, 그것들은 절대 명시적으로 계산되지 않는다.

중요한 것은 우리 모델이 장면에 국한되지 않는다는 것이다.

 

Neural Rendering and Plenoptic Modeling:

SOTA 신경 렌더링[52] 접근 방식은 심층 신경망을 사용하여 사진 사실적인 시각적 콘텐츠를 만들 수 있게 했다[21].

다중 뷰 합성에는 세 가지 일반적인 방향이 있습니다:
 (1) plane-sweep stereo [13, 15] 또는 multi-plane image (MPI) 표현 사용 [61].

MPI 기반 접근법[7, 14, 15, 20, 33, 48]은 작은 베이스라인 이동에 대한 연속적인 뷰 합성에서 주목할 만한 결과를 보여주었지만, 정확한 다중 평면 이미징을 가정하기 때문에 대규모의 경우에는 실패했다.

 (2) 뷰 합성을 위해 SfM[42, 43] 또는 멀티 뷰 스테레오[19]를 사용하여 명시적으로 통합했다.

이러한 접근 방식은 뷰 합성을 위해 신경망과 함께 사용되는 상당히 밀도가 높은 3D 포인트 클라우드를 가정한다.

신경망의 역할은 3D 재구성의 결함을 수정하는 것이다.

그러나 이러한 접근 방식은 명시적 3D 재구성이 실패하기 때문에 뷰가 희소하고 작은 중첩이 있을 때 어려움을 겪는다.

그리고 (3) 최근의 접근 방식[23, 24, 27, 34, 37, 47, 57, 58]은 새로운 뷰를 합성하기 위해 미분 가능한 ray marching 작업과 결합할 수 있는 3D 표현을 학습한다.

설계에 의한 이러한 접근 방식에는 장면별 모델링이 필요하다.

이것은 (1) 모델을 학습하는 데 2 - 3일이 필요하기 때문에 새로운 캡처의 즉각적이고 온라인 시각화를 제한한다; (2) 인식, semantic segmentation 및 탐지와 같은 다른 시각 영역의 발전을 위한 원동력이 된 대량의 다양한 시각 데이터를 활용한다.

 

우리의 연구는 최근의 신경 렌더링 접근법에서 깊은 영감을 받았다.

NeRF[34]와 마찬가지로 연속적인 위치에서 radiance를 예측하고 볼륨 렌더링을 사용하여 타겟 이미지를 생성한다.

포인트 좌표와 radiance를 기반으로 예측하는 대신, 우리는 포인트 이미지 피쳐와 고전적인 스테레오 매칭을 에뮬레이트하는 유사성 함수의 앙상블을 기반으로 예측한다.

따라서, 우리의 작업은 종단간 아키텍처 내에서 현대의 신경 렌더링과 고전적인 컴퓨터 비전을 결합한다.

SRF는 3D 암시적 형상 재구성, Implicit Feature Networks (IF-Nets)[6, 10] 및 Neural Distance Fields (NDF)[11]에 대한 이전 연구와 정신적으로 유사하며, 여기서 우리는 원래 제안된 점 좌표[9, 31, 36] 대신 입력에서 계산된 체적 심층 피쳐를 기반으로 점유 또는 부호 없는 거리를 디코딩한다.

우리의 연구는 또한 현대적 접근법과 통찰력을 공유한다[55, 56, 59].

마지막으로, 우리의 연구는 몇 가지 예를 들어 새로운 작업에 쉽게 적응할 수 있는 일반적인 표현을 배우는 것을 목표로 하는 평생 학습[53, 54]에서 영감을 얻었다.

우리는 새로운 장면으로 쉽게 일반화되는 일반적인 뷰 합성 네트워크를 학습한다.

테스트 예제에 대한 간단한 미세 조정으로 새로운 장면에 적용하면 결과가 더욱 향상된다.

 

 

3. Method

이 섹션에서는 학습 중에 보이지 않는 객체의 희소하고 분산된 입력 뷰가 주어지면 새로운 뷰 합성을 위한 우리의 방법Stereo Radience Fields (SRF)로 제시한다.

먼저 섹션 3.1의 배경을 설명한 다음 섹션 3.2의 이러한 통찰력을 바탕으로 SRF를 구축합니다.

 

3.1. Background

3.1.1 Generalizing Neural Radiance Fields (NeRF)

타겟 뷰의 픽셀에서 색상을 생성하기 위해 카메라 위치에서 픽셀을 통해 장면으로 레이를 촬영합니다.
우리는 레이를 동일한 길이의 bin으로 이진화하고 각 bin 내에서 3D 포인트 하나를 랜덤으로 샘플링한다.

각 지점 p ∈ R^3에서 색상 c {0, ..., 255}^3과 밀도 σ R을 예측한다.
밀도는 표면 영역(표면이 있는 곳에서는 높고 다른 곳에서는 낮음)을 인코딩합니다.
밀도에 따라 가중치를 부여하면, NeRF[34]에 따라 레이를 따라 색상 값이 볼륨 렌더링에 의해 최종 픽셀 색상으로 융합됩니다.

 

NeRF는 주어진 공간 위치 p와 뷰 방향 d에 대해 출력(c, σ)을 학습하여 신경 함수 f가 있는 장면을 기억한다

이것은 조밀한 뷰가 있는 단일 장면에 적합합니다.
그러나 점 좌표는 장면별 정보를 전달하지 않기 때문에 새로운 장면으로 일반화하지 못한다.
신경망 자체가 장면 표현이 된다(그림 2-(a)).
대신, 우리는 내부적으로 멀티 뷰 스테레오 재구성 및 합성을 에뮬레이트하고 테스트 시 장면 자체에서 조건화하는 신경 모델을 학습하는 것을 목표로 한다(그림 2-(b)).
이를 위해, 우리는 장면별

이 아닌 완전히 다른 포인트 인코딩 아키텍처를 사용한다,. 여기서 I = {I_i}^N_(i=1)은 알려진 카메라 매개 변수를 가진 N개의 참조 이미지 세트이다.
이 디자인은 클래식 스테레오에서 영감을 받았고 섹션 3.2에 설명되어 있다.
뷰 의존적 효과는 고려하지 않으며 향후 작업을 위해 남겨둡니다.
이를 통해 새로운 장면과 희소 입력에 대한 일반화에 집중할 수 있다.

 

3.1.2 Classical Multi-View Stereo

고전적인 스테레오 이미징 접근 방식(Structure-from-Motion, Multi-View Stereo)과 우리의 방법은 다음과 같은 관찰이다: 폐색이 없는 경우, 물체의 표면 3D 지점은 다중 뷰의 해당 광도계적으로 일관된 이미지 영역에 투영되는 반면, 비표면 3D 지점은 해당되지 않는 다른 영역에 착지한다(그림 3).
이 관찰을 반전하여 이미지에서 표면을 찾을 수 있습니다: 우리는 뷰에서 해당하는 영역을 찾아 삼각측량을 통해 3D 표면점을 찾을 수 있습니다.
고전 연구에서, 이것은 미분 되지 않는 다단계 엔지니어링 파이프라인에서 수행된다.
첫째, 유익하고 독특한 관심 영역이 발견됩니다.
그런 다음 관심 지점의 피쳐 설명자가 로컬 이미지 피쳐인 c.f. SIFT [26]에서 생성됩니다.
여러 이미지의 설명자가 유사성 측도에 따라 일치합니다.
SRF는 내부적으로 (렌더링 loss만을 기반으로) 종단간 unsupervised 방식으로 통신 매칭을 모방한다.
우리의 포인트 피쳐 설명자는 2D CNN 이미지 인코더 네트워크에 의해 학습된다.
고전적인 대응 소견은 포인트 설명자를 쌍으로 처리하여 SRF에서 에뮬레이트된다.

 

3.2. Stereo Radiance Fields (SRF)

SRF는 주어진 3D 공간에서 I = {I_i}^N_(i=1), 알려진 카메라 매개 변수를 사용하여 N개의 참조 이미지 세트인 I_i의 점 p에서 색과 밀도를 예측한다.
우리는 고전적인 멀티 뷰 스테레오 접근 방식과 유사하게 SRF, f를 구성한다:
 (1) 점 p의 위치를 인코딩하기 위해 각 참조 뷰, I_i에 투영하고 로컬 피쳐 설명자 I_i(p), (섹션 3.2.1)를 구축한다.
 (2) p가 표면에 있고 사진과 일치하는 경우 I_1(p), ..., I_N(p)이 일치해야 한다(그림 3); 피쳐 일치는 학습된 피쳐인 g_stereo로 에뮬레이트되어 모든 참조 뷰에서 피쳐를 인코딩한다(섹션 3.2.2).
 (3) 인코딩은 학습된 디코더, dec에 의해 NeRF [34] 표현(섹션 3.2.3)으로 디코딩된다.
공식적으로, 이것은 SRF를 다음과 같이 분해한다:

그림 4는 우리의 방법에 대한 개요를 제공한다.

그림 4. 우리의 접근 방식: 타켓 뷰(왼쪽 카메라)에 대해 각 픽셀의 RGB 색상을 예측한다. 픽셀의 경우 ray을 장면에 투사하고 이를 따라 점을 샘플링합니다. 점 p ∈ R^3의 경우, 우리의 목표는 표면 영역을 인코딩하는 색, c 및 밀도, σ를 추정하는 것이다. (a) 먼저 점 p의 위치를 인코딩하기 위해, 우리는 그것을 각 참조 뷰, I_i에 투영하고 투영 위치의 2D CNN에 의해 생성된 피쳐 I_i(p)를 추출한다. (b) P가 표면에 있고 사진 일치성이 있는 경우, I_1(p), ..., I_N(p) 일치합니다(그림 3 참조). 우리는 학습된 유사성 함수 s_k(·,·)를 가능한 모든 조합에 적용하여 사진 일관성을 찾는 과정을 모방한다. 우리는 유사성 K 함수의 앙상블을 배우고, 스테레오 피쳐 매트릭스를 얻는다. (c) 쌍을 넘어 멀티 뷰 정보를 집계하기 위해 2D 컨볼루션 CNN을 적용하여 멀티 뷰 피쳐 매트릭스를 얻는다. 행렬은 대응 및 색상의 컴팩트 인코딩을 얻기 위해 Max Pooling으로 되며, MLP에 의해 색과 밀도(d)로 디코딩된다. 밀도에 따라 가중치를 부여하면 대상 카메라 ray를 따라 색상 값이 볼륨 렌더링에 의해 최종 픽셀 색상으로 융합됩니다. 우리는 이미지 감독만으로 모델을 종단 간 학습한다.

3.2.1 Image Encoder Network

입력이 장면별 정보가 없는 점 좌표인 NeRF와 대조적으로, 우리는 참조 이미지에 대한 예측을 조절한다.
우리는 각 참조 뷰, I_i에 p를 투영하고 로컬 피쳐 설명자 I_i(p)를 구축하여 이를 달성한다.
이를 위해 먼저 공유 2D CNN으로 각 전체 참조 이미지를 인코딩한다.
우리는 점 p 투영 위치의 각 CNN 레이어에서 심층 피쳐를 추출하여 I_i(p)를 구축한다.
2D CNN은 첫 번째 계층의 로컬 정보를 높은 수용 필드를 가진 이후 계층의 전역 정보까지 자연스럽게 인코딩하므로, 이는 I_i(p)를 다중 스케일 피쳐 설명자로 만든다(그림 4-(a) "이미지 인코더 네트워크").
점 투영은 연속 공간에 있는 반면 피쳐는 이산 그리드에 있기 때문에 추출에 이중 선형 보간을 사용한다.
p가 이미지 외부에 투영될 때 우리는 제로 패딩을 사용합니다.

자세한 내용은 부록을 참조하십시오.

 

3.2.2 Unsupervised Stereo Module

우리는 멀티 뷰 스테레오의 직관을 기반으로 한다: 3D 점 p가 photo-metrically 일관된 영역에 투영될 때 p는 표면에 있을 가능성이 높으므로 고밀도를 예측해야 한다.
임의의 수의 뷰를 처리하기 위해 스테레오 모듈은 뷰의 피쳐 설명자를 쌍으로 처리합니다.
구체적으로, 우리는 네트워크가 통신 검색 또는 이미지 색 전파에 유용한 이미지 점수를 학습할 수 있도록 하는 피쳐 쌍 I_i(p), I_j(p):

의 매핑을 학습하는 것을 목표로 한다.
참고로, 우리의 공식은 유사성 계산과 유사한 쌍별 처리를 기반으로 하지만, 대응성은 명시적으로 계산되지 않는다.
우리는 단일 뉴런을 사용하여 네트워크에서 각 매핑을 표현한다.
실제로, i, j ∈ 1, ..., N, i ≠ j를 갖는 가능한 각 쌍(I_i(p), I_j(p))은 ReLU 비선형성을 갖는 뉴런에 입력되어 음이 아닌 출력을 보장한다(그림 4-(b)).
그러면 크기 S = N^2 - N의 벡터 x가 생성되며, 한 쌍에 하나의 항목이 생성됩니다.
단일 뉴런에만 의존하는 대신, 우리는 s_k(·,·), k = 1 . . . K라는 뉴런 은행을 같은 방식으로 적용한다.
각각의 뉴런은 서로 다른 유사성을 배우거나 색을 전파하는 것을 전문으로 할 수 있다.
우리는 뱅크에 있는 각 뉴런의 출력 벡터 x_k를 스테레오 피쳐 매트릭스 X = [x_1 . . . x_K] ∈ R^(S×K)로 연결하는데, 높이는 쌍의 수이고 폭은 사용된 뉴런의 수이다(그림 4-(b) "스테레오 피쳐").
스테레오 피처 매트릭스는 피처 쌍을 매트릭스에 배열하고 뉴런 뱅크와 컨볼루션하여 효율적으로 계산할 수 있다.

 

그러나 쌍별 사진 일관성은 표면 점을 식별하기에 충분하지 않다.
3D 포인트는 참조 뷰가 근처에서 캡처되지만 세 번째 뷰에는 캡처되지 않을 때 스테레오 쌍의 사진 일치 이미지 영역에 투영될 수 있습니다.
우리는 뷰 쌍의 방향을 따라 스테레오 피쳐 매트릭스를 컨볼루션하여 다중 뷰의 정보를 집계한다.
구체적으로, 높이 방향으로 4쌍과 폭 방향을 따라 모든 유사성 측정을 집계한다(그림 4-(c) "멀티 뷰 피쳐 추출").

 

뷰 쌍 정보를 단일 벡터 y ∈ R^K로 병합하기 위해 뷰 방향으로 맥스 풀링을 실행한다.
설계상 완전 스테레오 모듈은 학습과 테스트 중에 다양한 수의 입력 뷰에 대해 유연하다는 점에 유의하십시오: 맥스 풀링 단계는 다양한 수의 입력 뷰가 주어졌을 때 고정 차원 K의 벡터를 계산한다.
이것은

로 표시된 unsupervised 스테레오 모듈을 구성한다.

 

3.2.3 Radiance Field Decoder

네트워크의 마지막 단계는 포인트 p의 스테레오 인코딩 y = g_stereo(I_1(p), ..., I_N(p))를 최종 색상 c와 밀도 σ로 디코딩하는 것이다.
이를 위해, 우리는

로 표시된 간단한 MLP 네트워크에 의존한다.

 

레이를 따라 샘플링된 색상은 볼륨 렌더링 후 밀도에 따라 융합됩니다 [28, 34].
네트워크의 학습은 스테레오 모듈에 대한 3D 데이터나 supervision 없이 멀티뷰 이미지만을 사용하여 완전히 종단간으로 이루어진다(그림 4-(d)).
우리는 렌더링된 예측과 타겟 이미지를 비교하기 위해 L2 loss를 사용한다.
추가 아키텍처 세부 정보는 부록을 참조하십시오.

 

 

4. Experiments

우리는 먼저 다양한 일반 객체와 장면에 대해 학습될 때 SRF의 일반화 능력을 연구한다.

섹션 4.1에서, 우리는 우리의 모델이 임의로 퍼져 있는 희박한 수의 뷰만 고려할 때 새로운 장면에 적용 가능한 일반화 구조를 실제로 학습한다는 것을 관찰한다.

또한, 우리는 섹션 4.2에 나온 것처럼 뷰 합성 작업에 대한 학습을 받았음에도 불구하고 우리 모델이 10개의 뷰에서만 3D 색상 메시를 생성할 수 있다는 것을 발견했다.

이러한 관찰은 기하학과 데이터를 통합하는 것이 일반화에 도움이 된다는 것을 시사한다.

마지막으로, 섹션 4.3에서는 제한된 시간 동안 단일 객체에서 학습한 경우에도 SRF의 다중 뷰 구조가 자연스럽게 일반화된다는 것을 보여준다.

 

Data.

우리는 공개적으로 사용 가능한 DTU Multi-View Stereopsis 데이터 세트[1]에 대한 실험을 수행한다.

그것은 매우 다양한 물체(예: buildings, statues, groceries, fruits, bricks, 등)를 포함하여 124개의 다른 장면으로 구성되어 있다.

장면을 테스트, 검증 및 학습 분할로 나눕니다(자세한 내용은 부록 참조).

우리는 SRF에 대한 입력으로 장면의 10개 이미지를 랜덤으로 샘플링한다.

평가 및 학습 목적으로, 우리는 다른 뷰를 타겟 뷰로 샘플링한다.

 

Baselines

우리는 우리의 접근 방식을 NeRF[34]와 대조한다.

NeRF에는 장면별 최적화가 필요합니다.

우리는 10개의 입력 이미지를 사용하여 각 장면에 대해 NeRF 모델을 학습하기 위해 공개적으로 사용 가능한 코드를 사용한다.

장면별 모델을 학습하는 데 이틀이 걸렸습니다.

일단 학습을 받으면 새로운 관점을 합성할 수 있다.

우리는 또한 공개적으로 사용 가능한 기성 LLFF[33] 모델과 비교한다.

ours처럼 LLFF는 테스트 장면에 대한 일반화를 허용한다.

연속적인 3D 표현 대신 참조 이미지가 여러 depth 레이어로 슬라이스됩니다.

타겟 뷰를 합성하기 위해 인접한 참조 이미지가 타겟 뷰로 워핑되어 함께 혼합됩니다.

 

4.1. Unconstrained Generalization

이 실험에서는 보이지 않는 테스트 장면에서 새로운 뷰 합성을 수행할 수 있는 모델을 학습하는 것을 목표로 한다.

이를 위해 전체 DTU 데이터 세트의 랜덤 학습(109개 장면), 테스트(10개 장면) 및 검증(5개 장면) 분할을 샘플링한다(부록 참조).

우리는 단일 NVIDIA Quadro RTX 8000에서 약 3일 동안 검증 최소값에 도달할 때까지 방법을 학습한다.

그림 5. 비교: 우리는 DTU 장면의 테스트 뷰에 대한 우리의 방법을 비교한다. 테스트 시 새로운 장면의 참조 뷰 이미지 10개가 주어졌다. 우리의 방법은 birds의 깃털과 눈, buildings의 글자와 작은 벤치, rabbit의 질감, detergent의 로고와 같은 외관과 기하학 모두에서 샤프하고 상세한 물체를 추론한다. rabbit과 detergent 장면은 미세 조정을 통해 가장 큰 이점을 얻는다. NeRF는 대략적이고 부드러운 기하학적 구조를 찾고 birds, buildings, rabbit을 위한 블러 질감을 산출한다. detergent 장면의 경우 일관된 기하학적 구조나 모양을 생성하는 데 어려움을 겪습니다. LLFF는 buildings의 문자와 rabbit의 질감에서 일부 샤프한 이미지 영역을 생성하지만 결과는 대개 강력한 혼합 및 고스트 효과와 중첩된다.
표 1. 정량적 결과: DTU 데이터 세트에 대한 정량적 결과, PSNR, SSIM(높을수록 좋음) 및 LPIPS(낮을수록 좋음)에서 보고되었다. Ours(ft)은 미세 조정 중임을 나타낸다. 우리는 모든 베이스라인을 지속적으로 능가한다. 미세 조정이 없는 SRF는 이미 베이스라인을 능가하고, 미세 조정된 SRF는 모든 베이스라인보다 훨씬 더 샤프한 기하학적 구조, 모양 및 훨씬 적은 아티팩트를 생성한다.

테스트 시간에 새로운 장면의 10개 뷰만 고려할 때, 우리의 방법은 렌더링된 새로운 뷰에서 샤프한 객체를 생성할 수 있으며 베이스라인을 능가한다.

정성 분석은 그림 5에, 정량 분석은 표 1에 제시하였다.

우리의 접근 방식은 새로운 장면으로 즉시 일반화되며 희박하고 임의로 분산된 다중 뷰에서 작동할 수 있다.

각 NeRF 모델은 장면별 최적화에 2일이 걸린다.

대신, 기하학적 스테레오 매칭을 에뮬레이트하는 아키텍처 덕분에 SRF는 많은 장면에서 배울 수 있다.

우리는 이것이 희소 데이터에서 새로운 관점을 합성하는 데 중요하다는 것을 발견했다.

또한, 우리는 최적화된 장면 표현의 아이디어를 통해 기하학적 및 학습 개념을 풍부하게 할 수 있다.

이를 위해 짧은 시간 동안 모델을 미세 조정한다.

이로 인해 베이스라인에 비해 결과가 더 선명해질 뿐만 아니라 최적화 시간도 며칠에서 몇 분으로 단축됩니다.

우리는 그림 7(b)-(d)와 그림 5에서도 우리의 방법을 미세 조정하는 효과를 보여준다.

우리는 희소 및 분산 뷰에 대해 학습된 NeRF 모델이 그림 7-(f)에 나온 것처럼 퇴화된 결과를 초래할 수 있다는 것을 관찰한다.

자세한 내용은 부록을 참조하십시오.

그림 7. 우리의 방법을 미세 조정. 우리의 방법은 고전적인 스테레오 구조를 기반으로 하고 많은 장면에서 학습되기 때문에 도전적인 시나리오에서 기하학과 외관을 재구성할 수 있다. 순수 NeRF가 여기서 어려움을 겪는 동안 SRF는 합리적인 결과(e)를 생성한다. 우리는 테스트 이미지로 미세 조정하여 결과를 더욱 향상시킨다. 우리는 약 15분이 품질과 속도 사이의 좋은 균형이 될 것이라고 본다. 베이스라인에 비해 결과가 더 선명할 뿐만 아니라 최적화 시간도 2일에서 1분으로 단축됩니다.

마지막으로, 우리는 도전적인 BRDF와 반사 영역이 스테레오 매칭을 기반으로 한 우리의 방법에 문제를 제기할 수 있다는 것을 발견했다.

미세 조정이 일부 문제를 완화하는 데 도움이 된다는 것을 알 수 있습니다(그림 9).

우리가 식 2에서 삭제한 SRF에 뷰 의존 모델링을 도입하면 이 문제를 해결할 수 있으며 흥미로운 미래 작업 방향이 될 것이다.

그림 9. 한계. SRF의 신경 아키텍처는 고전적인 스테레오 매칭에서 강한 영감을 받았다. 반사 및 텍스처가 없는 영역을 모델링하는 것은 어렵다. SRF를 미세 조정하는 것은 이 문제를 완전히 극복하지는 못하지만 이 문제를 개선한다.

4.2. Meshing Predictions

예측을 일치시키기 위해, 우리는 물체를 둘러싼 점들의 밀집된 격자에서 10개의 이미지에 조건화된 SRF를 평가한다.

SRF는 각 점의 색상과 밀도를 예측합니다.

그런 다음 그리드에서 밀도를 임계값으로 설정하고 Marching Cubes [25]를 실행하여 메시를 얻는다.

메시에서 찾은 각 정점에 대해 좌표를 가져와서 SRF에 입력하여 색상을 예측하고 메시에 추가합니다.

결과는 그림 6을 참조하십시오.

그림 6. Meshing 예측. 장면의 이미지가 10개만 주어지면 SRF는 결과 밀도에서 색상 메시를 생성할 수 있다. 우리는 SRF가 암묵적으로 3D 재구성을 학습하고 학습 중에 3D supervision이 제공되지 않은 경우에도 10개의 뷰에서만 합성을 공동으로 본다고 가정한다.

4.3. Natural Generalization Capability

이전에, 우리는 기하학과 데이터를 통합하는 것이 일반화에 도움이 된다는 것을 발견했다.

다음으로, 우리는 우리의 아키텍처가 설계에 의해 자연스럽게 일반화되는지 검증한다.

우리는 이를 위해 급진적인 설정을 취한다.

우리는 단 30분 동안 단일 물체(합성 트랙터[34])에서 학습하고 매우 다른 물체(NeRF 데이터의 마이크)의 새로운 뷰 합성을 검사한다.

우리는 그림 8과 같이 외관과 기하학적 구조의 큰 차이에도 불구하고 일반화를 관찰한다.

그림 8. 자연 일반화 능력. 우리는 tractor라는 단일 물체에서만 30분 정도 SRF를 학습하고 microphone에 미세 조정하지 않고 적용한다. tractor와 microphone 사이의 기하학적 구조와 외관의 큰 차이에도 불구하고 이러한 극단적인 환경에서도 기하학과 일부 색상이 일반화된다는 것은 명백하다. 우리는 이것을 설계에 의해 네트워크에 구축된 고전적인 스테레오 기하학 덕분이라고 본다.

 

5. Discussion and Conclusion

우리는 고전적인 멀티 뷰 스테레오의 구성 요소를 에뮬레이트하도록 설계된 신경 뷰 합성 모델인 Stereo Radiance Fields를 소개했다.

포인트 방향 좌표를 기반으로 radiance와 색상을 예측하는 대신, 우리는 각 3D 포인트를 여러 뷰에 투영하고 피쳐를 추출하여 쌍으로 처리한다.

이것은 암시적 대응 계산을 허용하는 self-supervised 렌더링 loss에 의해서만 구동되는 점수의 앙상블을 학습한다.

이 프로세스는 뷰 합성을 위해 종단 간 학습 가능한 네트워크 내에서 고전적인 스테레오의 피쳐 일치를 에뮬레이트한다.

 

실험은 SRF가 여러 장면에서 공통 구조를 학습한다는 것을 보여준다.

우리는 DTU 데이터 세트의 여러 장면에서 SRF 모델을 학습시키고 SRF가 일반화되어 사실적인 이미지를 생성한다는 것을 보여준다.

또한, 조밀한 뷰가 필요한 이전 작업과 달리, 우리는 임의로 희소한 분산 10 뷰를 입력으로 사용한다.

우리는 이러한 타겟 10개 뷰에 대해 10-15분간 미세 조정한 후 결과가 더욱 향상된다는 것을 보여준다.

놀랍게도 희소 뷰 설정(10개 뷰)에서 우리의 접근 방식은 이틀 동안 새로운 장면에서 학습할 때에도 SOTA 방법을 크게 능가한다.

마지막으로, 우리는 SRF가 3D supervision을 사용하지 않고 컬러 메시를 허용하는 해석 가능한 3D 표현을 암시적으로 계산한다는 것을 보여준다.

 

요약하면 SRF는 고전적인 멀티 뷰 스테레오와 최근의 신경 렌더링 아이디어를 기반으로 하지만 통합된 종단 간 학습 가능한 아키텍처에 결합한다.

우리는 고전적인 기하학적 컴퓨터 비전과 신경 렌더링의 상호 작용이 흥미로운 방법이며, 이는 추가적인 탐구를 할 가치가 있다고 생각한다.

향후 연구는 도전적인 BRDF를 모델링하고 본질적으로 드문 야생 샘플에서 동적 장면의 4D 시공간 뷰 합성으로 확장할 수 있다.