NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections

2022. 4. 13. 17:513D Vision/NeRF with Real-World

NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections

 

Ricardo Martin-Brualla, Noha Radwan, Mehdi S. M. Sajjadi, Jonathan T. Barron, Alexey Dosovitskiy, and Daniel Duckworth

 

Abstract

우리는 구조화되지 않은 현장 사진 모음만을 사용하여 복잡한 장면의 새로운 뷰를 합성하는 학습 기반 방법을 제시한다.
우리는 다층 퍼셉트론의 가중치를 사용하여 장면의 밀도와 색상을 3D 좌표의 함수로 모델링하는 Neural Radiance Field (NeRF)을 기반으로 한다.

NeRF는 제어된 설정에서 캡처된 정적 피사체의 이미지에서 잘 작동하지만, 가변 조명이나 일시적인 폐색기와 같이 제어되지 않는 이미지에서 많은 유비쿼터스 실제 현상을 모델링할 수 없습니다.
우리는 이러한 문제를 해결하기 위해 NeRF에 일련의 확장을 도입하여 인터넷에서 가져온 구조화되지 않은 이미지 컬렉션에서 정확한 재구성을 가능하게 한다.
우리는 NeRF-W라고 불리는 우리의 시스템을 유명한 랜드마크의 인터넷 사진 컬렉션에 적용하고, SOTA보다 사진 현실에 상당히 가까운 시간적으로 일관된 새로운 뷰 렌더링을 보여준다.

 

 

1. Introduction

캡처된 이미지의 희소한 집합에서 장면의 새로운 뷰를 합성하는 것은 컴퓨터 비전의 오랜 문제이며 많은 AR 및 VR 응용 프로그램의 전제 조건이다.

고전적인 기술은 structure-from-motion [11] 또는 image-based rendering [29]을 사용하여 이 문제를 해결했지만, 이 분야는 최근 신경 렌더링 기술로 인해 상당한 진전을 보이고 있습니다 — 학습 기반 모듈은 3D 지오메트릭 컨텍스트에 내장되어 있으며 관찰된 이미지를 재구성하도록 학습됩니다.
Neural Radiance Field (NeRF) 접근 방식 [24]은 신경망의 가중치로 장면의 radiance field 및 밀도를 모델링한다.
그런 다음 볼륨 렌더링은 새로운 뷰를 합성하는 데 사용되며, 다양한 도전적인 장면에서 지금까지 전례 없는 수준의 충실도를 보여준다.
그러나 NeRF는 제어된 설정에서만 잘 작동하는 것으로 입증되었습니다: 장면은 조명 효과가 일정하게 유지되는 짧은 시간 내에 캡처되며 장면의 모든 컨텐츠는 정적입니다.
우리가 입증하는 바와 같이, NeRF의 성능은 움직이는 물체나 가변 조명과 함께 제시될 때 크게 저하된다.
이 제한은 입력 이미지가 몇 시간 또는 몇 년 간격으로 촬영될 수 있고 이를 통해 이동하는 보행자와 차량을 포함할 수 있는 대규모 야생 시나리오에 NeRF를 직접 적용하는 것을 금지한다.

 

여기서 우리가 다루는 NeRF의 중심 한계는 세계가 기하학적으로, 물질적으로, 그리고 광도학적으로 정적이라는 가정이다 — 즉, 세계의 밀도와 radiance는 일정하다는 가정이다.
따라서 NeRF는 동일한 위치 및 방향에서 촬영된 두 장의 사진이 동일해야 합니다.
이 가정은 관광 명소의 대규모 인터넷 사진 모음과 같은 많은 실제 데이터 세트에서 심각하게 위반된다.
두 명의 사진작가가 같은 위치에 서서 같은 랜드마크를 찍을 수도 있지만, 두 사진 사이의 시간 동안 세상은 크게 바뀔 수 있다.
자동차와 사람들이 움직일 수도 있고, 공사가 시작되거나 끝날 수도 있고, 계절과 날씨가 바뀔 수도 있고, 태양이 하늘을 통해 움직일 수도 있다.
같은 시간과 장소에서 찍은 두 장의 사진도 상당한 차이를 보일 수 있습니다.
노출, 색 보정, 색조 조정 모두 카메라 및 후처리에 따라 달라질 수 있습니다.
우리는 NeRF를 야생 사진 수집에 순진하게 적용하는 것이 심각한 고스트, 과도한 매끄러움 및 추가 아티팩트를 나타내는 부정확한 재구성을 초래한다는 것을 증명할 것이다.

그림 1: 인터넷 사진 모음 (a)만 주어졌을 때, 우리의 방법은 가변 조명 (b)으로 새로운 뷰를 렌더링할 수 있습니다.

이러한 까다로운 시나리오를 처리하기 위해, 우리는 엄격한 일관성 가정을 완화하는 NeRF의 확장인 NeRF-W를 제시한다.
먼저, 우리는 학습된 저차원 잠재 공간에서 노출, 조명, 날씨 및 후처리와 같은 이미지별 외관 변화를 모델링한다.
Generative Latent Optimization [3]의 프레임워크에 따라, 우리는 각 입력 이미지에 대한 외관 임베딩을 최적화하여 NeRF-W가 전체 사진 컬렉션에서 공유된 외관 표현을 학습하여 이미지 간의 photometric 및 환경 변화를 설명할 수 있는 유연성을 부여한다.
학습된 잠재 공간은 그림 1, (b)에 표시된 것처럼 출력 렌더링의 외관을 제어합니다.
둘째, 장면을 공유 및 이미지 종속 요소의 결합으로 모델링하여 장면 콘텐츠를 "정적" 및 "transient" 구성 요소로 감독되지 않은 분해할 수 있다.
우리의 접근 방식은 데이터 종속 불확실성 필드와 결합된 2차 체적 radiance field를 사용하여 과도 요소를 모델링하는데, 여기서 후자는 가변 관찰 노이즈를 포착하고 정적 장면 표현에 대한 과도 객체의 영향을 더욱 감소시킨다.
최적화는 일시적인 이미지 콘텐츠를 식별하고 할인할 수 있기 때문에 정적 구성 요소만 렌더링하여 새로운 뷰의 사실적인 렌더링을 합성할 수 있다.

 

우리는 NeRF-W를 문화 랜드마크의 몇 가지 도전적인 야생 사진 컬렉션에 적용하고 새로운 관점에서 상세하고 충실도 높은 렌더링을 생산할 수 있다는 것을 보여주며, PSNR과 MS-SSIM에서 이전 기술을 크게 능가한다.
이전 작업과 달리, 우리 모델의 렌더링은 넓은 카메라 궤적에 대해서도 부드러운 외관 보간과 시간적 일관성을 보인다.
우리는 NeRF-W가 외관 변화 및 과도적 폐색기가 있는 경우 NeRF보다 품질을 크게 향상시키는 동시에 제어된 설정에서 유사한 품질을 달성한다는 것을 발견했다.

 

 

2. Related Work

지난 10년간 3D 장면 재구성 작업을 위한 딥러닝 기반 접근법에 물리 기반 다중 뷰 기하학 기술이 통합되었다.

여기서는 새로운 뷰 합성 및 신경 렌더링에 대한 최근의 진전을 검토하고 기존 접근 방식과 제안된 방법 사이의 주요 차이를 강조한다.

 

Novel View Synthesis:

여러 이미지에 의해 캡처된 장면의 새로운 뷰를 구성하는 것은 컴퓨터 비전에서의 오랜 문제이다.

Structure-from-Motion [11] 및 번들 조정 [38]을 사용하여 희소 포인트 클라우드 표현을 재구성하고 카메라 매개 변수를 복구할 수 있습니다.

Photo Tourism [32]은 이러한 재구성 기법을 제약 없는 사진 모음으로 확장하고 뷰 합성을 수행하는 방법을 보여주었다 [1, 10].

뷰 합성을 위한 다른 접근법으로는 라이트 필드 사진[17]과 이미지 기반 렌더링[5]이 있지만, 일반적으로 이러한 접근법들은 장면의 조밀한 캡처를 필요로 한다.

최근 연구는 제약되지 않은 사진 수집 세트[16, 28]에서 장면 내 물체의 빛과 반사 특성을 명시적으로 추론하고, 다른 사람들은 의미론적 지식을 활용하여 일시적인 물체를 재구성한다[26].

 

Neural Rendering: 

최근에는 장면 재구성에 신경 렌더링 기술[35]이 적용되고 있다.

여러 접근 방식은 입력에 전통적인 재구성 결과 [20], 학습된 잠재 텍스처 [36], 포인트 클라우드 [2], 복셀 [30] 또는 평면 스위프 볼륨 [8, 9]을 사용하여 콘텐츠를 보다 사실적으로 다시 렌더링하기 위해 이미지 변환 네트워크 [12]를 사용한다.

우리의 작업에 적용할 때 가장 유사한 것은 학습된 잠재 외관 임베딩 모듈에 조건화된 신경 재렌더링 네트워크를 학습하여 포인트 클라우드 렌더링에서 관광지의 현실적인 새로운 뷰를 합성하는 NRW(Neural Rendering in the Wild)[22]이다.

이러한 접근 방식의 일반적인 단점은 채택된 2D 이미지 변환 네트워크에 의해 발생하는 카메라 모션에서 볼 수 있는 체커보드와 시간적 아티팩트이다.

또 다른 최근의 접근 방식은 캡처된 장면[23, 42]과 인터넷 사진 모음[18]을 재구성하기 위해 장면을 카메라 중심 멀티플레인 이미지로 나타낸다.

이러한 방법은 새로운 관점의 사실적인 렌더링을 생성하지만 보간할 수 있는 뷰는 실제 카메라 포즈를 둘러싼 작은 볼륨으로 제한된다.

대조적으로, 볼륨 렌더링 접근법[19, 24, 31]은 NeRF-W와 마찬가지로 대형 카메라 모션으로도 정확하고 일관된 재구성을 가능하게 한다.
Neural Radiance Fields (NeRF) [24]은 다층 퍼셉트론(MLP)을 사용하여 MLP [34] 내에서 위치 인코딩을 사용한 덕분에 전례 없는 수준의 충실도로 radiance fields를 모델링한다.
우리의 작업은 NeRF를 인터넷 사진 수집과 같은 제한되지 않은 시나리오로 확장하는 데 중점을 둔다.

 

 

3. Background

우리의 목표는 사진 컬렉션을 입력하고 해당 컬렉션의 사진을 생성할 수 있는 3D 표현을 학습하는 시스템을 만드는 것이다.

이러한 장면 표현은 새로운 보이지 않는 뷰를 합성할 수 있도록 장면의 3D 구조를 외관 정보와 함께 인코딩해야 한다.

다음에서는 NeRF-W가 확장하는 3D 장면 재구성을 위한 방법인 Neural Radiance Fields [24](NeRF)에 대해 설명한다.

 

 

 

 

4. NeRF in the Wild

이제 우리는 야생 사진 컬렉션의 3D 장면을 재구성하기 위한 시스템인 NeRF-W를 제시한다.

우리는 NeRF[24]를 기반으로 하고 제약되지 않은 이미지의 문제를 처리하기 위해 명시적으로 설계된 두 가지 개선 사항을 소개한다.

 

NeRF와 유사하게, 우리는 카메라 매개 변수가 알려진 구조화되지 않은 사진 모음 {I_i}_(i=1)^N에서 체적 밀도 표현 F_θ를 학습한다.

NeRF는 입력 뷰에 일관성이 있다고 가정합니다: 두 개의 다른 영상에서 동일한 위치와 뷰 방향에서 관찰된 3D 공간의 한 점이 동일한 강도를 갖는다고 가정합니다.

그러나 이 가정은 다음과 같은 두 가지 뚜렷한 현상으로 인해 인터넷 사진(예: 그림 2)에 의해 위반된다:

그림 2: NeRF-W를 학습하는 데 사용된 Phototourism 데이터 세트 [13]의 야생 사진 예시. 조명 및 후처리 (위)가 가변적이기 때문에 동일한 물체의 색상은 이미지마다 다를 수 있습니다. 야생 사진에는 transient 폐색 피사체 (아래)가 포함될 수도 있습니다.

1) Photometric variation:

야외 촬영에서, 시간과 대기 조건은 장면에서 물체의 조명(그리고 결과적으로 방출된 radiance)에 직접 영향을 미친다.

이 문제는 사진 간 자동 노출 설정, 화이트 밸런스 및 톤 매핑의 변화가 추가적인 photometric 불일치를 초래할 수 있기 때문에 사진 이미징 파이프라인에 의해 악화된다[4].

 

2) Transient objects:

실제 랜드마크는 주변의 물체나 방해물 없이 단독으로 포착되는 경우가 거의 없다.

랜드마크의 관광 사진은 종종 포즈를 취하는 인간의 피사체와 다른 보행자들을 포함하기 때문에 특히 어렵다.

 

우리는 이러한 문제를 해결하기 위해 두 가지 모델 구성 요소를 제안한다.

섹션 4.1에서는 이미지 간의 photometric 불일치를 명시적으로 모델링할 수 있도록 이미지 의존적 외관 및 조명 변화를 허용하도록 NeRF를 확장한다.

섹션 4.2에서 우리는 transient 물체를 공동으로 추정하고 3D 세계의 정적 표현에서 분리할 수 있도록 함으로써 이 모델을 더욱 확장한다.

그림 3은 제안된 모델 아키텍처의 개요를 보여줍니다.

그림 3: NeRF-W 모델 아키텍처. 3D 위치, 뷰 방향, 학습된 외관 및 transient 임베딩이 주어지면 NeRF-W는 정적 및 transient 색상과 밀도를 생성할 뿐만 아니라 불확실성을 측정합니다. 정적 불투명도는 모델이 외관 임베딩에 조건을 부여하기 전에 생성되므로 모든 이미지에 정적 지오메트리가 공유되도록 합니다.

4.1. Latent Appearance Modeling

가변 조명 및 photometric 후처리에 NeRF를 적응시키기 위해 각 이미지 I_i에 길이 n^(a)의 해당 실제 값 외관 임베딩 벡터 l_i^(a)가 할당되는 Generative Latent Optimization (GLO)[3] 접근 방식을 채택한다.
우리는 식 (1)의 이미지 독립 radiance c(t)를 이미지 의존 radiance c_i(t)로 대체하며, 이는 또한 이미지 인덱스 i에 대한 의존성을 근사 픽셀 색상 ^C_i:

에 도입한다.
{l_i^(a)}_(i=1)^N 임베딩은 θ와 함께 최적화된다.

 

이러한 외관 임베딩을 색상을 방출하는 네트워크의 분기에 대한 입력으로 사용하면 우리 모델은 특정 이미지에서 장면의 방출된 radiance를 변경할 수 있는 자유를 부여하면서도 3D 지오메트리(앞서 MLP_θ_1에 의해 예측됨)가 정적이며 모든 이미지에서 공유되도록 보장한다.

n^(a)을 작은 값으로 설정함으로써 조명 조건이 내장될 수 있는 연속 공간을 식별하여 그림 8에 나타난 바와 같이 조건 간의 원활한 보간이 가능하도록 최적화를 권장한다.

그림 8: 두 학습 이미지 (왼쪽, 오른쪽)의 모양 임베딩 l^(a) 사이의 보간으로, 색상과 조명은 보간되지만 지오메트리는 고정된 렌더링 (가운데)이 생성됩니다. 학습 이미지에는 렌더링에 나타나지 않는 사람 (왼쪽)과 조명 (오른쪽)이 포함되어 있습니다.

4.2. Transient Objects

우리는 두 가지 다른 설계 결정을 사용하여 transient 현상을 해결한다:
먼저 NeRF에 사용되는 색 방출 MLP(식 4))를 모델의 "정적" 헤드로 지정하고, 자체 색과 밀도를 방출하는 "transient" 헤드를 추가하며, 여기서 그 밀도는 학습 이미지에 따라 달라질 수 있다.
이를 통해 NeRF-W는 정적 장면 표현에 아티팩트를 도입하지 않고 폐색기를 포함하는 영상을 재구성할 수 있습니다.
둘째, 관찰된 모든 픽셀 색상이 동일하게 신뢰할 수 있다고 가정하는 대신, 우리는 일시적인 헤드가 불확실성의 필드(기존 색 및 밀도 필드와 매우 유사함)를 방출하도록 허용하며, 이는 우리 모델이 신뢰할 수 없는 픽셀과 방해자를 포함할 가능성이 있는 3D 위치를 무시하도록 재구성 손실을 조정할 수 있게 한다.
우리는 각 픽셀의 색상을 가능성을 최대화할 등방성 정규 분포로 모델링하고 NeRF에서 사용하는 것과 동일한 볼륨 렌더링 접근법을 사용하여 해당 분포의 분산을 "렌더링"한다.
이 두 가지 모델 구성 요소를 통해 NeRF-W는 explicit supervision 없이 정적 및 transient 현상을 분리할 수 있다.

 

transient 헤드를 구성하기 위해 식 (6)의 볼륨 렌더링 공식을 기반으로 정적 밀도 σ(t) 및 randiance c_i(t)를 transient 상대 σ_i^τ (t) 및 c_i^τ(t),

로 증가시킨다.
r(t)의 예상 색상은 정적 성분과 transient 성분 모두의 알파 합성물이 된다.

 

우리는 관측된 색상의 불확실성을 모델링하기 위해 Kendall et al. [15]의 베이지안 학습 프레임워크를 사용한다.
우리는 관찰된 픽셀 강도가 본질적으로 노이즈(변동적)이며 더 나아가 이 노이즈가 입력에 의존한다고 가정한다(이분법적).
우리는 이미지- 및 ray- 의존 분산 β_i(r)^2와 평균 ^C_i(r)를 사용하여 등방성 정규 분포를 사용하여 관찰된 색상 C_i(r)를 모델링한다.

분산 β_i(r)는 transient 밀도 σ_i^τ (t)에 따라 알파 합성을 통해 색상과 유사하게 렌더링된다:

장면의 transient 구성 요소가 이미지에 따라 달라질 수 있도록 각 학습 이미지 I_i에 transient MLP에 입력으로 제공되는 두 번째 임베딩 l_i^τ ∈ R^n^τ를 할당한다,

, ReLU 및 시그모이드 활성화는 σ_i^τ (t) 및 c_i^τ (t)에 사용되며 소프트 플러스는 β_i(t)에 대해 활성화로 사용된다(β_min > 0으로 표시되며, 각 ray에 최소 중요도를 보장하는 하이퍼 파라미터가 할당됩니다)
우리의 전체 모델 아키텍처에 대한 설명은 그림 3을 참조하십시오.

 

실제 색상 C_i(r)의 이미지 i에서 광선 r의 손실은

입니다.
처음 두 항은 평균 ^C_i(r) 및 분산 β_i(r)^2를 갖는 정규 분포에 따른 C_i(r)의 음 로그 가능성입니다.
β_i(r)의 값이 클수록 픽셀이 transient 객체에 속한다는 가정 하에 픽셀에 할당된 중요도를 감소시킨다.
첫 번째 항은 두 번째 항에 의해 균형을 이루는데, 이는 정규 분포의 로그 추출 함수에 해당하며 β_i(r) = ∞에서 사소한 최소값을 배제한다.
세 번째 항은 (음수가 아닌) transient 밀도 σ_i^τ (t)에 승수 λ_u를 갖는 L1 정규화기이며, 이는 모델이 정적 현상을 설명하기 위해 transient 밀도를 사용하는 것을 단념시킨다.

 

테스트 시 transient 및 불확실성 필드는 생략하고 σ(t)와 c(t)만 렌더링한다.

정적, transient 및 불확실성 구성요소의 그림은 그림 4를 참조하십시오.

그림 4: NeRF-W는 장면의 정적 (a) 요소와 transient (b) 요소를 별도로 렌더링한 후 (c) 합성한다. 학습은 불확실성(e)에 의해 가중된 합성 이미지와 실제 이미지(d) 사이의 차이를 최소화하며, 이는 비정상적인 이미지 영역을 식별하고 할인하도록 동시에 최적화된다.

4.3. Optimization

NeRF와 마찬가지로 F_θ의 두 복사본을 동시에 최적화합니다: 위에서 설명한 모델과 손실을 사용하는 fine 모델, 잠재된 외관 모델링 구성요소만 사용하는 coarse 모델.
매개 변수 θ와 함께 이미지별 모양 임베딩 {l_i^a}_(i=1)^N 및 transient 임베딩 {l_i^tau}_(i=1)^N을 최적화한다.
그러면 NeRF-W의 손실 함수는

, λ_u, β_min이고 내장 차원 n^(a)와 n^(τ)는 NeRF-W에 대한 추가 초 매개 변수 세트를 형성한다.

 

최적화는 학습 세트의 이미지에 대한 외관 임베딩 {l_i^(a)}만 생성하므로 테스트 세트 이미지의 임베딩은 지정되지 않는다.

테스트 세트 시각화의 경우 타겟 이미지(예: 그림 8)에 가장 잘 맞도록 l^(a)를 선택하거나 임의의 값으로 설정한다.

그림 8: 두 개의 학습 이미지(왼쪽, 오른쪽)의 외관 임베딩 l^(a) 사이의 보간으로 색상과 조명은 보간되지만 기하학이 고정된 렌더링(중간)이 발생한다. 학습 이미지에는 렌더링에 나타나지 않는 사람(왼쪽)과 조명(오른쪽)이 포함됩니다.

 

5. Experiments

여기서 우리는 문화 랜드마크의 제약 없는(예: "in-the-wild") 인터넷 사진 모음에 대한 NeRF-W의 평가를 제공합니다.

우리는 Phototourism 데이터 세트 [13]에서 6개의 랜드마크를 선택합니다.

이전 작업 [22]에서 영감을 받아 Trevi FountainSacre CoeurBrandenburg Gate, Taj Mahal, Prague Old Town Square, Hagia Sophia 등 4개의 새로운 장면을 재구성합니다.

이러한 장면에 대한 경험적 성능은 표 1에서 확인할 수 있지만, 독자가 부록에서 비디오 결과를 시각적으로 검사할 것을 촉구합니다.

 

Baselines:

우리는 제안된 방법을 Neural Rerendering in the Wild (NRW)[22], NeRF[24] 및 NeRF-W의 두 가지 ablations에 대해 평가합니다: 'transient' 머리가 제거되는 NeRF-A (appearance)와 l_i^(a)를 포함하는 외관이 제거되는 NeRF-U (uncertainty).

NeRF-W는 NeRF-A와 NeRF-U의 구성입니다.

[18]과 같은 다른 최근 작업은 유사한 도메인에서 사용되지만, 우리는 베이스라인을 데이터 세트에 표시된 뷰를 훨씬 초과하여 외삽할 수 있는 것으로 제한합니다.

 

Optimization:

NeRF를 기반으로 Keras를 사용하여 TensorFlow 2에서 모든 실험을 구현합니다.

각 장면에 대해 두 개의 radial 및 두 개의 접선 왜곡 매개변수가 활성화된 COLMAP [27]을 사용하여 각 이미지의 카메라 매개변수를 추정합니다.

NeRF에서와 마찬가지로 각 장면에 대해 랜덤 가중치로 초기화된 모델을 학습합니다.

약 2일이 걸리는 Adam [7] (하이퍼파라미터 β_1 = 0.9, β_2 = 0.999, ε = 10^-7)을 사용하여 8개의 GPU에서 배치 크기가 2048인 300,000단계에 대해 모든 NeRF 변형을 최적화합니다.

모든 NeRF 변형이 공유하는 하이퍼파라미터는 Brandenburg Gate 데이터 세트에서 PSNR을 최대화하기 위해 선택되며 다른 모든 장면의 해당 값으로 고정됩니다.

NeRF-W 변형에 대한 추가 하이퍼파라미터는 Brandenburg Gate 장면에서 held-out 검증 세트에서 PSNR을 최대화하기 위해 그리드 검색을 통해 선택되며 다른 모든 장면의 해당 값으로 고정됩니다.

하이퍼파라미터에 대한 자세한 내용은 부록을 참조하세요.

 

Evaluation:

우리는 새로운 뷰 합성 작업에 대해 평가합니다: 카메라 매개변수가 함께 제공되는 보류된 이미지가 주어지면 동일한 포즈의 이미지를 렌더링하고 실제 이미지와 비교합니다 [25, 37, 39, 41].

지각 이미지 유사성을 측정하는 것이 어렵기 때문에 시각적 검사를 위해 렌더링된 이미지를 제시하고 PSNR, MS-SSIM [40] 및 LPIPS [41]를 기반으로 정량적 결과를 보고합니다.

최적화는 학습 설정된 이미지에 대한 외관 임베딩만 생성하기 때문에 테스트 설정된 이미지에서 오류 메트릭을 계산할 때 각 이미지의 왼쪽 절반에 l^(a)를 포함하는 외관 임베딩을 최적화하고 오른쪽 절반에 메트릭을 보고합니다 (그림 5).

오류 메트릭에 대한 추가 논의는 부록을 참조하세요.

그림 5: 최적화는 학습 세트의 이미지에 대한 외관 임베딩 l^(a)만 생성하기 때문에 테스트 설정된 이미지에서 오류 메트릭을 평가할 때 각 이미지의 왼쪽 절반만 사용하여 실제 이미지의 외관과 일치하도록 l^(a)를 최적화합니다. 오류 메트릭은 정보 유출을 방지하기 위해 각 이미지의 오른쪽 절반에서만 평가됩니다.
그림 7: Phototourism 데이터 세트에 대한 실험의 질적 결과. NeRF-W는 외관 변화 (위쪽)를 모델링하고, transient 폐색기 (깃발, 가운데)를 제거하고, 장면의 세부 사항을 재구성할 수 있습니다(아래쪽). 추가 데이터 세트는 그림 14에 나와 있습니다(보충).

Results:

그림 7은 장면 하위 집합에 대한 모든 모델과 베이스라인에 대한 정성적 결과를 보여줍니다.

NRW는 2D 렌더링 방법 [14]의 특징인 체커보드 아티팩트로 렌더링을 생성합니다.

또한 NRW는 Prague Old Town에 있는 교회의 작은 타워에서 볼 수 있듯이 불완전한 포인트 클라우드와 같은 3D 지오메트리의 업스트림 오류에도 민감합니다.

NeRF는 일관된 3D 지오메트리를 생성하지만 장면의 대부분에는 고스트 아티팩트와 폐색이 있으며, 이는 Sacre Coeur와 Prague Old Town에서 특히 두드러집니다.

NeRF의 렌더링은 또한 ground truth와 비교할 때 강한 전역 색상 변화를 보이는 경향이 있습니다.

이러한 아티팩트는 NeRF의 정적 세계 가정의 직접적인 결과입니다—NeRF는 단일 장면 표현을 사용하여 모든 광도 변화와 일시적인 폐색을 설명하려고 시도합니다.

이러한 정적 가정은 NeRF의 렌더링뿐만 아니라 기본 지오메트리도 손상시키는 반면, NeRF-W는 정확한 3D 재구성을 생성합니다 (그림 6).

그림 6: 각 ray의 예상 종결 depth를 계산하여 렌더링한 NeRF 및 NeRF-W의 depth 맵입니다. NeRF의 지오메트리는 외관 변형과 폐색기에 의해 손상되는 반면, NeRF-W는 이러한 현상에 강하고 정확한 3D 재구성을 생성합니다.

NeRF-A ablation은 그림 7과 같이 NeRF보다 "foggy" 렌더링을 덜 생성합니다.

그러나 NeRF-A는 Sacre Coeur 돔의 벽돌공과 같은 고주파 디테일을 재구성할 수 없습니다.

반면, NeRF-U ablation은 파인 디테일을 더 잘 포착할 수 있지만 다양한 광도 효과를 모델링할 수 없습니다.

NeRF-W는 두 ablations의 장점이 있으므로 더 샤프하고 정확한 렌더링을 생성합니다.

표 1: NRW [22], NeRF [24] 및 제안된 모델의 두 가지 ablations에 대한 Phototourism 데이터 세트 [13]에 대한 정량적 결과. 최상의 결과가 강조 표시됩니다. NeRF-W는 PSNR 및 MS-SSIM의 모든 데이터 세트에서 이전 최신 기술을 능가하며 LPIPS에서 경쟁력 있는 결과를 달성합니다. LPIPS는 일반적으로 적대적 또는 지각 loss로 학습된 NRW와 같은 방법을 선호하며 일반적인 GAN 아티팩트에 덜 민감하다는 점에 유의하세요 (그림 7 및 14 참조).

정량적 결과는 표 1에 요약되어 있습니다.

야생 사진 컬렉션에서 NeRF를 최적화하면 NRW와 경쟁할 수 없는 특히 나쁜 결과가 발생합니다.

반면, NeRF-W는 모든 데이터 세트에서 PSNR 및 MS-SSIM의 베이스라인을 능가합니다.

특히 NeRF-W는 PSNR에서 이전 최신 NRW보다 평균 4.4dB의 마진으로 개선되고 MS-SSIM에서 최대 40%까지 개선되었습니다.

학습 중 픽셀당 제곱 오차만 최소화했음에도 불구하고 NeRF-W는 6개 장면 중 3개 장면에서 LPIPS의 이전 최신 기술을 개선하고 나머지 장면에서는 경쟁력을 유지합니다.

지각 loss가 없으면 NeRF-W는 LPIPS와 같은 지각 지표에서 선호하는 고주파 텍스처를 생성하도록 인센티브를 받지 못합니다.

그러나 NRW는 시간적 불안정성을 나타냅니다 — 카메라가 움직일 때 렌더링이 비현실적으로 깜박이고 흔들리는 것처럼 보이며, 이는 본 논문에서 사용한 단일 이미지 지표나 수치에 의해 캡처되지 않습니다.

독자가 추가 동영상을 검사하여 NeRF 및 NeRF-W와 비교하여 NRW의 시간적 불안정성을 관찰할 것을 강력히 권장합니다.

 

Controllable Appearance:

잠재 임베딩 공간 l^(a) ∈ R^n^(a)로 외관을 모델링한 결과 중 하나는 기본 3D 지오메트리를 변경하지 않고도 렌더링의 조명과 외관을 수정할 수 있다는 것입니다.

그림 1 (오른쪽)에서는 네 개의 학습 세트 이미지와 관련된 외관 임베딩을 사용하여 NeRF-W에서 생성된 네 개의 렌더링 이미지 슬라이스를 볼 수 있습니다.

학습 세트의 이미지와 관련된 임베딩 외에도 동일한 공간의 임의의 벡터에 NeRF-W를 적용할 수도 있습니다.

그림 8에서는 고정 카메라 위치에서 렌더링된 다섯 개의 이미지를 제시하며, 여기서 왼쪽 및 오른쪽 학습 이미지와 관련된 외관 임베딩 사이를 보간합니다.

렌더링된 이미지의 외관은 3D 지오메트리에 아티팩트를 도입하지 않고 두 끝점 사이를 원활하게 전환한다는 점에 유의하세요.

독자들이 이러한 보간의 자연스러움을 더 잘 이해할 수 있도록 보충 동영상을 볼 것을 권장합니다.

그림 9: Brandenburg Gate 장면에 대해 서로 다른 모델로 렌더링된 비디오에서 합성된 에피폴라 평면 이미지(EPI). 카메라는 직선 경로를 따라 왼쪽에서 오른쪽으로 이동되고 동일한 위치의 수평선 (빨간선, 참조)을 모든 비디오 프레임에 걸쳐 수직으로 쌓아 위에 표시된 EPI를 생성합니다. 시간적으로 일관된 비디오는 깨끗하고 부드러운 EPI를 생성하는 반면, EPI의 노이즈는 시간적 깜박임 아티팩트를 나타냅니다. NRW의 비디오에는 transient 물체가 프레임 안팎으로 튀어나오는 심한 깜박임이 포함되어 있으며, NeRF는 랜드마크 앞에서 심각한 고스트 아티팩트를 생성합니다. NeRF-W는 시간적으로 일관성이 높은 비디오를 생성합니다. 독자들이 보충 자료에서 비디오를 시청할 것을 강력히 권장합니다.

View-consistency:

그림 9는 카메라가 직선 경로를 따라 패닝하는 NRW, NeRF 및 NeRF-W에 대한 "flatland" 라이트 필드 렌더링을 보여줍니다.

NeRF-W의 렌더링은 더 뷰 일관성이 높으며(Lambertian 장면 콘텐츠는 뷰 방향에 따라 일정하게 재구성됨) NRW 또는 NeRF보다 깜박임이 훨씬 적습니다.

NRW는 transient 물체에 대한 프레임 간의 시간적 일관성을 모델링할 수 없는 반면, NeRF는 장면 표현에 색상 안개로 표시된 뷰 종속 효과를 내장해야 합니다.

그림 10: Phototourism 데이터 세트에서 NeRF-W의 한계. 장면의 거의 보이지 않는 부분(그라운드, 왼쪽)과 잘못된 카메라 포즈(램프 포스트, 오른쪽)로 인해 블러해질 수 있습니다.

Limitations:

NeRF-W는 구조화되지 않은 사진으로부터 사실적이고 시간적으로 일관된 렌더링을 생성할 수 있지만, 그림 10과 같이 학습 이미지에서 거의 관찰되지 않거나 지면과 같이 매우 비스듬한 각도에서만 관찰되는 장면의 영역에서 렌더링 품질이 저하된다.
NeRF와 마찬가지로 NeRF-W도 카메라 보정 오류에 민감하여 잘못 보정된 카메라에 의해 촬영된 장면의 일부에 블러 재구성이 발생할 수 있습니다.

 

Synthetic Experiments:

NeRF-W의 구성 요소는 색상 이동 및 폐색기와 같은 특정 형태의 광도 불일치를 처리하도록 설계되었습니다.

안타깝게도 Phototourism 데이터 세트의 통제되지 않은 특성으로 인해 각 모델 구성 요소가 실제로 해결하도록 설계된 교란 요인을 처리한다는 것을 입증하기 어렵습니다.

이러한 이유로, 부록에서 우리는 [24]에서 사용된 합성 데이터 세트의 변형을 구성하는 통제된 ablation 연구를 제시하며, 여기서 우리가 야생 이미지에서 찾을 것으로 예상되는 현상을 수동으로 소개합니다.

부록에서 볼 수 있듯이, 이 ablation 연구의 결과는 우리의 기대와 일치합니다.

 

6. Conclusion

우리는 NeRF를 기반으로 구축되는 구조화되지 않은 인터넷 사진 컬렉션에서 복잡한 환경을 3D 장면 재구성을 위한 새로운 접근 방식인 NeRF-W를 제시하였다.
우리는 야생 데이터에 종종 존재하는 photometric 외관 변화를 포착하는 이미지별 잠재 임베딩을 학습하고, 우리는 우리의 모델이 정적 장면에서 transient 요소를 분리할 수 있도록 장면을 이미지 종속적이고 공유된 구성 요소로 분해한다.
실제(및 합성) 데이터에 대한 실험 평가는 이전의 SOTA 접근법에 비해 질적 및 양적 개선이 현저함을 보여준다.