Cross-Ray Neural Radiance Fields for Novel-view Synthesis from Unconstrained Image Collections

2024. 10. 2. 11:123D Vision/NeRF with Real-World

Cross-Ray Neural Radiance Fields for Novel-view Synthesis from Unconstrained Image Collections

 

Yifan Yang, Shuhai Zhang, Zixiong Huang, Yubing Zhang, Mingkui Tan

 

Abstract

Neural Radiance Fields (NeRF)는 픽셀당 단일 ray를 샘플링하여 장면을 렌더링하는 혁신적인 접근 방식으로, 정적 장면 이미지에서 새로운 뷰 합성에 인상적인 기능을 입증했습니다.

그러나 실제로는 일반적으로 제약이 없는 이미지 컬렉션에서 NeRF를 복구해야 하므로 두 가지 과제가 있습니다: 1) 이미지는 캡처 시간과 카메라 설정이 다르기 때문에 종종 외형이 동적으로 변화하며, 2) 이미지에는 사람이나 자동차와 같은 일시적인 물체가 포함되어 있어 폐색 및 고스팅 아티팩트가 발생할 수 있습니다.

기존의 접근 방식은 픽셀의 색상을 합성하기 위해 단일 ray를 로컬적으로 활용하여 이러한 문제를 해결하려고 합니다.

반면, 인간은 일반적으로 여러 픽셀에 걸쳐 정보를 전역적으로 활용하여 외관과 물체를 인식합니다.

인간의 인식 과정을 모방하기 위해 본 논문에서는 여러 ray에 걸친 대화형 정보를 활용하여 이미지와 동일한 외관을 가진 폐색 없는 새로운 뷰를 합성하는 Cross-Ray NeRF(CR-NeRF)를 제안합니다.

특히, 다양한 외관을 모델링하기 위해 먼저 여러 ray를 새로운 교차 ray 피쳐로 표현한 다음 전역 통계, 즉 ray의 피쳐 공분산과 이미지 외관을 융합하여 외관을 복구할 것을 제안합니다.

또한 일시적인 물체에 의해 발생하는 폐색을 피하기 위해 일시적인 물체 처리기를 제안하고 일시적인 물체를 마스킹하기 위한 그리드 샘플링 전략을 도입합니다.

이론적으로 여러 ray에 걸친 상관관계를 활용하면 더 많은 전역 정보를 캡처할 수 있다는 것을 발견했습니다.

또한 대규모 실제 데이터 세트에 대한 광범위한 실험 결과는 CR-NeRF의 효과를 검증합니다.

 

 

1. Introduction

새로운 뷰 합성은 가상 현실 및 디지털 인간과 같은 수많은 응용 분야의 길을 열어준 컴퓨터 비전의 오랜 문제입니다 [13, 46].

최근에는 Neural Radiance Fields (NeRF)의 등장으로 3D 지오메트리 [51]를 재구성하고 멀티뷰 이미지 세트에서 외관 [3, 36, 1]을 복구하는 데 상당한 성능을 보임에 따라 이 분야가 발전하고 있습니다.

그러나 NeRF는 이미지에 가변적인 외관과 움직이는 물체 [31] (섹션 3에서 정지 장면이라고 함)가 없다고 가정하여 대규모 인터넷 이미지 컬렉션에서 상당한 성능 저하를 초래합니다.

NeRF의 범위를 확장하기 위해 컬렉션을 활용하고 하루 중 다양한 시점과 시간에서 Brandenburg Gate 및 Trevi Fountain과 같은 국제 랜드마크를 방문할 수 있는 3D 몰입형 경험을 제공하는 것을 목표로 합니다.

 

이를 위해 제약이 없는 이미지 컬렉션에서 외관 제어 및 폐색 방지 NeRF를 복구하는 문제를 해결합니다.

즉, NeRF 표현을 재구성함으로써 다양한 photometric 조건을 가진 사진을 기반으로 장면의 외관을 제어하는 동시에 이미지로 인한 폐색을 제거합니다.

몰입감을 제공하지만 이러한 이미지로 NeRF를 재구성하는 것은 다음 두 가지 과제에 직면합니다.

1) 다양한 외관: 동일한 시점이지만 다양한 촬영 시간, 다양한 날씨(예: 화창, 비, 안개), 다양한 카메라 설정(예: 조리개, 셔터, ISO)에서 사진을 촬영하는 두 명의 관광객을 이미징합니다.

이러한 다양한 조건으로 인해 여러 장의 사진이 동일한 장면에서 촬영되지만 극적으로 다르게 보입니다.

2) 일시적 폐색: 지속적인 외관에도 불구하고 자동차나 보행자와 같은 일시적인 물체는 장면을 가릴 수 있습니다.

이러한 물체는 일반적으로 한 명의 사진작가만 촬영하기 때문에 이러한 물체를 고품질로 재구성하는 것은 일반적으로 비현실적입니다.

위의 과제는 NeRF의 정적 장면 가정과 상충되며 부정확한 재구성을 초래하여 과도하게 평활화하고 고스팅 아티팩트 결과를 초래합니다 [31].

그림 1. 단일 ray 레벨 및 cross-ray 레벨 접근법의 그림. 기존의 (a)는 단일 ray에 대한 각 픽셀을 독립적으로 생성합니다. 반면, 우리가 제안한 CR-NeRF (b)는 여러 ray들의 정보를 고려하고 패치를 동시에 합성합니다. F^a 및 F^a_0은 조건화된 피입니다.

최근 앞서 언급한 과제를 해결하기 위해 여러 시도(예: NeRF-W [31]; Ha-NeRF [6])가 제안되었습니다.

그림 1(a)에서 NeRF-W와 Ha-NeRF는 단일 ray 방식을 활용하며, 단일 카메라 ray(즉, 카메라에서 이미지 평면의 픽셀을 통해 3D 장면으로 확장되는 ray)이 입력으로 사용됩니다.

그런 다음 이러한 방식에는 외관 및 폐색 요소를 고려한 다음 새로운 뷰 픽셀의 각 색상을 독립적으로 합성하는 것이 포함됩니다.

이러한 방식의 잠재적 문제 중 하나는 외관 및 일시적 물체를 인식하기 위해 모든 ray의 로컬 정보(예: 단일 이미지 픽셀의 정보)에 의존한다는 것입니다.

반면, 인간은 물체의 외관을 관찰하고 폐색을 처리하기 위해 물체에 대한 보다 포괄적인 이해를 제공하는 전역 정보(예: 여러 이미지 픽셀에 걸친 정보)를 활용하는 경향이 있습니다.

이에 동기를 부여하여 다중 ray의 전역 정보를 활용하여 외관을 복구하고 일시적 물체를 처리하는 cross-ray 패러다임(그림 1(b))으로 다양한 외관 및 일시적 물체를 처리할 것을 제안합니다.

그런 다음 새로운 뷰의 영역을 동시에 합성합니다.

cross-ray 패러다임을 기반으로 두 가지 구성 요소로 구성된 Cross-Ray Neural Radiance Fields (CR-NeRF)를 제안합니다: 1) 가변 외관을 모델링하기 위해 다중 ray의 정보를 새로운 cross ray 피쳐로 표현할 것을 제안합니다.

그런 다음 cross-ray의 피쳐 공분산과 같은 전역 통계를 사용하여 cross-ray 피쳐와 cross-ray 변환 네트워크를 통한 외관 임베딩을 융합합니다.

융합된 피쳐는 디코더에 공급되어 여러 픽셀의 색상을 동시에 얻습니다.

2) 일시적 물체를 처리하기 위해 이미지 영역의 전역 정보를 고려하여 일시적 물체를 감지하는 세그멘테이션 문제로서 일시적 물체를 처리하는 고유한 관점을 제안합니다.

이러한 관점에서 우리는 물체의 가시성 맵을 위해 제약 없는 이미지를 세그멘트합니다.

계산 오버헤드를 피하기 위해 세그멘트된 맵을 샘플링하여 입력 ray와 페어링하는 그리드 샘플 전략을 도입합니다.

우리는 이론적으로 다중 ray에 걸친 상관 관계를 활용하면 더 많은 전역 정보를 캡처할 수 있다는 것을 분석합니다.

 

저희의 기여를 세 가지로 요약합니다:
 • 제약 없는 사진 모음에서 새로운 뷰 합성을 위한 새로운 cross-ray 패러다임: 우리는 기존 방법이 단일 ray 수준 패러다임을 통한 제약 없는 사진 수집에서 만족스러운 시각적 결과를 도출하는 데 부족하다는 것을 발견했는데, 이는 주로 다중 ray 간의 잠재적 협력 상호 작용을 무시했기 때문입니다.

이를 해결하기 위해 우리는 다중 ray에 걸쳐 전역 정보를 활용하는 새로운 cross-ray 패러다임을 제안합니다.
 • 다양한 모습을 해결하기 위한 대화형 전역 계획: 각 ray를 독립적으로 처리하는 기존 방법과 달리, 우리는 피쳐 공분산을 통해 ray 간의 상호 작용을 촉진하는 cross-ray 기능을 도입하여 다중 ray를 표현합니다.

이를 통해 전역적인 정보를 제공하는 외관 표현을 장면에 주입하여 보다 사실적이고 효율적인 외관 모델링을 만들 수 있습니다.

우리의 이론적 분석은 외관 모델링을 위해 다중 ray를 고려해야 할 필요성을 보여줍니다.
• 일시적인 객체를 처리하기 위한 새로운 세그멘테이션 기술: 우리는 일시적인 객체 문제를 세그멘테이션 문제로 재구성합니다.

우리는 비제약 이미지의 전역 정보를 사용하여 가시성 맵을 세그멘트합니다.

또한 그리드 샘플링을 적용하여 맵을 다중 ray와 페어링합니다.

경험적 결과에 따르면 CR-NeRF는 재구성된 이미지에서 일시적인 객체를 제거합니다.

 

 

2. Related Works

Neural rendering.

뉴럴 렌더링은 컴퓨터 그래픽 기술로 딥러닝을 적용하여 이미지를 렌더링하고 3D 장면을 재구성합니다.

최근의 발전은 학습 기반 기술을 적용하여 signed distance field [35, 27, 60, 19], 포인트 클라우드 [10, 17, 26], 복셀 [38, 15, 58] 및 occupancy fields [59, 32, 39]와 같은 표현을 생성한 다음 새로운 뷰를 렌더링하는 데 적용하려고 합니다.

놀라운 성능으로 NeRF [33]는 뉴럴 렌더링 커뮤니티의 주목을 받고 있습니다.

최근에는 장면 [25, 40, 22]의 시계열을 표현하고 고해상도 설정을 처리하며 주소 relighting [44], 대규모 환경을 재구성하도록 NeRF를 확장했습니다 [47, 48, 49].

특히 NeRF의 한 가지 한계는 장면이 정적이라고 가정한다는 점이며, 이는 제약이 없는 이미지 컬렉션에서 transient 물체의 다양한 외관과 존재에 직면한다는 점입니다.

이를 완화하기 위해 NeRF-W [31]와 Ha-NeRF [6]는 장면의 각 ray를 독립적으로 처리하여 문제를 해결하는 데 중점을 둡니다.

이와는 달리, 우리는 외관을 모델링하고 transient 물체를 제거하기 위해 여러 ray에 대한 정보를 축적할 것을 제안합니다.

 

Novel-view synthesis.

새로운 관점에서 뷰를 합성하는 것은 컴퓨터 비전과 컴퓨터 그래픽스에서 오랫동안 근본적인 문제였습니다.

전통적으로 4D 라이트 필드 전략 [21, 54, 5]을 통해 새로운 뷰를 합성할 수 있습니다.

그러나 이 전략은 데이터를 캡처하기 위해 밀도가 높은 카메라 배열이 필요하며, 이는 일반적으로 비현실적입니다.

희소 이미지 세트를 수집하는 것은 효율적이기 때문에 뷰 합성 연구는 지오메트리 구조 [2, 7]를 활용하여 제한된 입력으로 새로운 뷰를 구성하는 데 도움을 줍니다.

딥러닝의 성공으로 심층 신경망은 장면 지오메트리 (예: 포인트 클라우드 [55, 41], 뎁스 맵 [45, 28], 다층 이미지 [11, 56])을 추정하는 데 활용되었습니다.

지오메트리를 활용하면 새로운 뷰의 품질이 향상되지만, 추정은 일반적으로 ground truth supervision이 없으며 일반적으로 충분히 정확하지 않습니다.

정확한 지오메트리 추정의 어려움을 피하기 위해 새로운 뷰 합성을 위해 암시적 함수, 즉 neural radiance fields (NeRF) [33]을 활용할 것을 제안합니다.

 

 

3. Preliminaries

 

 

4. Cross-Ray Neural Radiance Fields

장면의 제약이 없는 사진 모음이 주어지면 transient 물체를 제거하면서 새로운 이미지를 기반으로 외관을 수정할 수 있는 장면을 재구성하려고 합니다.

이 작업은 사진 모음에 가변적인 외관과 transient 폐색이 존재하기 때문에 어렵습니다.

이 문제를 해결하기 위해 사람은 일반적으로 로컬 정보(예: 단일 이미지 픽셀의 정보)가 아닌 전역 정보(예: 여러 이미지 픽셀의 정보)를 고려하여 외관과 transient 물체를 감지한다는 점에 착안하여 두 가지 문제를 모두 해결하기 위해 이미지의 여러 픽셀에 해당하는 여러 카메라 ray에 걸쳐 전역 정보를 악용하는 Cross-Ray Neural Radiance Fields (CR-NeRF)를 제안합니다.

그림 2. Cross-Ray Neural Radiance Field (CR-NeRF) 개요. 멀티 ray들의 위치 x와 방향 d가 주어지면 먼저 장면에 멀티뷰 정보를 축적하는 cross-ray 피 F^cr을 생성합니다. 참조 이미지 I_a의 외관 정보를 통합하기 위해 외관 인코더를 사용하여 외관 피쳐 F^a, 변환 네트워크를 F^cr과 융합하고 디코더를 사용하여 재구성된 이미지 I_n에서 여러 픽셀의 색상을 동시에 합성합니다. I_a에서 transient 물체를 제거하기 위해 transient 핸들러는 가시성 맵을 생성하고, 이를 위해 학습 중에 맵과 ray를 일치시키는 그리드 샘플링 전략을 도입합니다.

그림 2와 알고리즘. 1에 표시된 바와 같이 CR-NeRF는 두 가지 구성 요소로 구성됩니다:

1) Cross ray appearance modeling (c.f. Sec. 4.1).

다양한 외관을 모델링하기 위해 먼저 그리드 샘플링 전략을 사용하여 ray 그리드를 샘플링합니다 [43].

다음으로, 우리는 새로운 cross-ray 피쳐 F^cr로 ray를 표현합니다.

그런 다음 학습된 변환 네트워크를 통해 F^a를 포함하는 외관을 F^cr에 주입합니다.

융합된 피쳐는 여러 픽셀의 색상을 동시에 얻기 위해 디코더에 공급됩니다.

우리는 이론적으로 여러 ray를 고려해야 할 필요성을 분석하여 cross-ray 외관 모델링을 위한 외관 loss L_a를 설계합니다.

2) Cross-ray transient objects handling (c.f. Sec. 4.2).

transient 물체를 처리하기 위해 transient 물체에 대한 가시성 맵을 생성하기 위한 세그멘테이션 네트워크를 배포합니다.

맵과 ray를 페어링하기 위해 맵에 그리드 샘플링 전략도 적용합니다.

우리는 transient 처리를 위한 폐색 loss L_t를 고안합니다.

 

제안된 CR-NeRF의 전반적인 최적화는 다음과 같은 objective 함수를 최소화합니다:

, 여기서 λ는 외관 loss L_a (식 8 참조)와 폐색 loss L_t (식 9 참조)의 균형을 맞추기 위한 하이퍼 파라미터입니다.

 

4.1. Cross-Ray Appearance Modeling

전역적 관점에서 CR-NeRF를 가변 외관에 맞게 조정하기 위해 멀티 ray들과 제약 없는 이미지의 외관을 활용하여 장면을 수정합니다.

 

Representing scene information with multiple rays.

멀티뷰 관찰에서 외관을 모델링하기 위해 먼저 멀티 ray들을 사용하여 장면 정보를 표현합니다.

이를 위해 식이 포함된 새로운 cross-ray feature F^cr을 제안합니다:

또한, 우리는 F^a = E_θ_2 (I_a)에 의해 외관 이미지 I_a의 외관 피쳐 F^a를 얻습니다.

F^cr과 F^a를 사용하면 장면 표현에 이미지 외관을 주입할 수 있는 효과적인 융합 방식을 찾는 것이 중요합니다.

 

Injecting appearance into scene representation.

cross-ray 외관 모델링의 핵심은 cross-ray 피쳐 F^cr 간의 잠재적 협력 관계를 활용하여 주어진 외관 이미지 I_a에서 장면 표현으로 외관 모델링을 용이하게 하는 것입니다.

즉, 우리는 참조 이미지에서 스타일을 전달하고 학습 중에 필수 콘텐츠를 유지할 수 있는 변환 연산을 찾습니다.

 

이를 위해, 우리는 전송된 cross-ray 피쳐 T(F^cr)와 외관 특징 F^a를 보조 항과 정렬하는 변환 T를 학습하며, 이는 다음과 같이 공식화됩니다,

, 여기서 β는 트레이드오프 매개변수이고 P는 변환된 피쳐 T(F^cr)와 F^cr을 일치시키기 위한 상수 행렬입니다.

다음으로, 우리는 외관 모델링을 위해 문제 (5)를 해결하기 위해 멀티 ray들을 고려해야 할 필요성을 이론적으로 분석합니다.

 

Necessity of considering multiple rays for appearance modeling.

우리는 장면 표현에 외관을 주입하는 효과적인 접근 방식을 고안하기 위한 인사이트를 제공할 수 있는 가우시안 사례를 고려합니다.

이를 위해 두 피쳐 F^a와 F^cr은 두 개의 가우시안 분포를 따르고 T는 두 분포와 엄격하게 일치하는 선형 변환이라고 가정합니다.

가정 하에서 우리는 다음과 같이 문제 (5)에 대한 폐쇄형 솔루션을 제공합니다.

 

Proposition 1은 변환 행렬 T가 주어진 P가 F^cr과 F^a의 공분산에 의해 결정된다고 제안하며, 이는 [23, 29]의 결론과 일치합니다.

이에서 영감을 받아 신경망을 구성하여 F^a와 F^cr의 공분산을 공급하여 외관 변환 T를 학습할 수 있습니다.

구체적으로, 우리는

로 정의되는 Li et al. [23]에 이어 효과적인 변환 네트워크를 채택합니다.

 

여기서 ϕ_1, ϕ_2, ϕ_3는 convolutional neural networks (CNN)으로 매개변수화된 비선형 매핑으로, 외관 모델링을 준비하기 위해 더 풍부한 임베딩을 표현할 수 있습니다.

우리는 직관적으로 외관 모델링 시 멀티뷰 정보를 사용하기 위해 멀티 ray들을 고려합니다.

공분산으로 주어질 수 있는 이러한 다양한 뷰의 피쳐 맵 간의 상관관계는 주어진 외관 이미지 [12, 24, 8]에 대해 더 많은 전역 텍스처 정보를 캡처할 수 있으므로 장면에 대한 더 나은 외관 모델링을 촉진할 수 있습니다.

 

Loss function L_a for varying appearance modeling:

변환된 피챠 T_θ_3(F^cr))에서 만족스러운 외관을 가진 새로운 뷰 이미지를 생성하려면 디코더 D_θ_4를 외관 모델링 학습 프로세스에 적용해야 합니다.

문제 (5)의 공식에서 영감을 받아 외관 모델링에 대한 loss 함수를

과 같이 제공하며, 여기서 F^cr은 식 4에 의해 MLP_θ_1로 얻어집니다.

여기서는 맞춤형 인코더 E_θ_5를 사용하여 변환된 이미지의 내용이 원래 대응물과 거의 일치하도록 변환된 피쳐 PT(F^cr)를 모델링합니다.

이러한 방식으로 I_n = D_θ_4(T_θ_3(F^cr))의 새로운 뷰 이미지를 합성할 수 있습니다.

 

4.2. Transient Objects Handling

새로운 뷰 합성을 위한 제약 없는 사진 모음으로 인한 transient 물체를 처리하기 위해 새로운 관점을 제안합니다, 즉, 참조 이미지 I_a를 세그멘팅하여 transient 물체의 가시성 맵을 얻습니다.

심층 세그멘테이션 네트워크 [30]의 수용 필드를 통해 서로 다른 픽셀과 ray의 상호 작용이 촉진되어 더 많은 전역 정보를 도입할 수 있습니다.

 

transient 물체를 정확하게 감지하기 위해 관광객이나 자동차 등과 같은 일반적인 물체를 효과적으로 세그멘트할 수 있는 사전 학습된 Mask R-CNN 모델 [14]과 사전 학습된 DeepLabV3 모델 [4]을 탐색하는 것으로 시작합니다.

우리는 모델이 일반적인 물체를 적절히 세그멘트하지만 재구성 오류가 증폭되는 것을 관찰합니다 (섹션 5.2의 경험적 연구 참조).

가능한 이유는 타겟 transient 물체가 일반적인 물체에 국한되지 않기 때문에 더 많은 물체 (예: 그림 6의 관광객 그림자)도 고려해야 하기 때문입니다.

그림 6. 사전 학습된 DeeplabV3 [4], 사전 학습된 Mask R-CNN [14] 및 CR-NeRF의 transient 물체. CR-NeRF는 학습에 세그멘테이 레이블을 사용하지 않고 관광객의 그림자를 캡처합니다.

이러한 의미에서 우리는 세그멘트할 객체를 선택할 학습 기반 방식을 선택하여 [57]에 따라 경량 세그멘테이션 네트워크 S_θ_Δ를 배포합니다.

따라서 학습 단계에서 제한된 GPU 메모리로 인해 I_a와 상호 작용하는 모든 ray를 샘플링할 수 없기 때문에 모든 transient 물체의 ray (즉, S_θ_Δ(I_a))을 나이브하게 처리하는 것은 적용할 수 없습니다.

따라서 우리는 grid sampling strategy (GS) [43]을 적용하여 S_θ_Δ(I_a)를 샘플링하여 m개의 ray와 페어링합니다 (그림 2 참조).

M을 추정하는 전체 프로세스는 (9)이며, S_θ_Δ: R^(3 × h_cr1 h_cr2) → R^(3 × h_cr1 h_cr2), h_cr1과 h_cr2는 I_a의 높이와 너비입니다.

여기서 S_θ_Δ는 ground truth 세그멘테이션 마스크의 supervision 없이 가시성 맵 M을 학습합니다.
학습 중에는 계산 오버헤드를 절약하기 위해 m을 h_cr1 h_cr2보다 작게 설정했습니다.

 

Loss function L_t for eliminating transient objects:

transient 객체를 처리하기 위한 loss 함수는

입니다, 여기서 ⊙는 요소별 곱셈을 나타냅니다.

loss L_t는 M을 통해 transinet 객체를 마스킹하는 것을 목표로 합니다.

transient 네트워크가 모든 것을 마스킹하는 것을 방지하기 위해 Ha-NeRF를 따라 정규화 항으로 λ_0|M|를 추가합니다.

 

4.3. Difference of CR-NeRF with Existing Methods

다양한 외관을 모델링하기 위해 Ha-NeRF와 NeRF-W는 식 2에 의해 각 단일 ray를 독립적으로 처리합니다.

transient 객체를 처리하기 위해 NeRF-W는 식 2에 의해 transient 객체를 렌더링하기 위한 추가 MLP를 구현합니다 .

Ha-NeRF는 UV 좌표와 참조 이미지의 조건부 피쳐를 별도로 활용하여 가시성 맵을 추정합니다.

다르게 CR-NeRF는 여러 ray들에 대한 정보를 고려합니다.

특히 CR-NeRF는 m개의 ray들을 입력으로 받아 조건부 피쳐와 융합하고 동시에 이미지 영역을 생성합니다 (그림 1(b) 참조).

최근 연구, 즉, 4K-NeRF는 ray 상관관계를 캡처하기 위해 뎁스-변조 컨볼루션을 활용합니다.

대조적으로 CR-NeRF는 서로 다른 ray들의 공분산을 캡처합니다.

우리는 이론적으로 (c.f. 섹션 4.1) 그리고 경험적으로 (부록의 자세한 내용 참조) 다중 ray들을 고려해야 할 필요성을 분석합니다.

 

 

5. Experiments

Implementation details.

우리는 PyTorch [37]를 사용하여 접근 방식을 구현하고 Adam [20] 옵티마이저로 네트워크를 학습합니다.

공정한 비교를 위해 입력 ray, 학습 속도, λ 및 완전 연결 레이어의 높이와 너비를 각각 1024, 5×10^-4, 1×10^-3, 8 및 256으로 설정하는 등 Ha-NeRF [6]와 동일한 모든 일반적인 하이퍼 파라미터 설정을 따릅니다.

우리는 β를 1×10^-5로 설정합니다.

철저한 연구를 위해 각 데이터 세트의 원본 이미지를 2배 (R/2) 및 4배 (R/4) 축소합니다.

추론하는 동안 세그멘테이션 네트워크 S_θ_Δ를 생략하고 부록에서 CR-NeRF의 추론에 대한 자세한 내용을 확인합니다.

 

Datasets, metrics, and comparison methods.

Ha-NeRF [6]에 이어 세 가지 데이터 세트에서 제안된 방법을 평가합니다: Brandenburg Gate, Sacre Coeur, 및 Trevi Fountain.

육안 검사를 위해 동일한 입력 뷰 세트에서 생성된 렌더링된 이미지를 제시합니다.

또한 PSNR, SSIM [52] 및 LPIPS [61, 16]를 기반으로 한 정량적 결과를 보고합니다.

우리는 제안된 방법을 NeRF [33], NeRF-W [31], Ha-NeRF [6]에 대해 평가합니다.

ablation 연구를 위해 CR-NeRF의 몇 가지 변형을 구성합니다: 1) CR-NeRF-R은 CR-NeRF의 cross-ray 피쳐를 여러 ray들을 따라 ray 포인트가 있는 피쳐로 대체합니다; 2) CR-NeRF-B는 cross-ray 외관 모델링 모듈과 transient 처리 모듈 없이 CR-NeRF 기반으로 구성되며, 3) CR-NeRF-A는 cross-ray 외관 모델링 모듈만 제거하고 4) CR-NeRF-T는 transient 처리 모듈을 제거합니다.

 

5.1. Comparison Experiments

Quantitative experiments.

우리는 Brandenburg Gate, Sacre Coeur, 및 Trevi Fountain 데이터 세트에 대한 광범위한 실험을 수행합니다.

우리는 2배 다운스케일링 (R/2)의 이미지 해상도 설정으로 Ha-NeRF를 따르고 4배 다운스케일링 (R/4)에 대한 CR-NeRF의 효과를 추가로 평가합니다.

표 1에서 볼 수 있듯이, 학습 이미지 뒤의 장면이 정적이라고 가정하기 때문에 vanilla NeRF가 모든 방법 중에서 최악의 성능을 보이는 것으로 관찰되었습니다.

transient 객체를 모델링하고 처리함으로써 NeRF-W와 Ha-NeRF는 PSNR, SSIM 및 LPIPS 측면에서 경쟁 성능을 달성합니다.

NeRF-W는 보이지 않는 테스트 이미지로 직접 전송할 수 없기 때문에 테스트 이미지에 대한 스타일 임베딩을 최적화한다는 점에 유의하세요.

따라서 NeRF-W와의 비교는 불공평합니다.

불공정한 비교에도 불구하고 cross-ray 방식 덕분에 CR-NeRF는 두 가지 다운스케일링 설정에서 Brandenburg와 Trevi에서 NeRF-W 및 Ha-NeRF를 능가합니다.

그림 3. 세 가지 제약 없는 데이터 세트에 대한 정성적 실험 결과. CR-NeRF는 사실적인 외관 (예: Brandenburg의 녹색 식물, Trevi의 동상에 비치는 햇살, Sacre의 하늘색 하늘)을 복구합니다. 또한 CR-NeRF는 일관된 지오메트리 (예: Brandenburg와 Sacre 기둥 주변의 고스팅 효과 감소)를 위해 transient 물체를 제거합니다.

Qualitative experiments.

우리는 그림 3의 모든 비교 방법의 정성적 결과를 요약합니다.

우리는 NeRF가 안개가 낀 아티팩트와 부정확한 외관을 생성한다는 것을 관찰합니다.

NeRF-W와 Ha-NeRF는 ground truth 이미지에서 보다 유망한 3D 지오메트리 및 모델 외관을 재구성할 수 있습니다.

그러나 재구성된 지오메트리는 예를 들어 Brandenburg의 기둥 주변, Sacre의 공동 주변의 녹색 식물 모양과 유령 효과와 같이 충분히 정확하지 않습니다.

또한 Sacre의 동상에 대한 햇빛과 Trevi의 파란색 하늘과 회색 지붕의 색상과 같이 전송된 외관은 충분히 사실적이지 않습니다.

다르게 CR-NeRF는 cross-ray 패러다임을 도입하여 보다 사실적인 외관 모델링을 달성하고 transient 물체를 억제하여 일관된 지오메트리를 재구성합니다.

그림 4. 다양한 뷰 방향과 외관 이미지를 사용하여 Brandenburg 및 Trevi 데이터 세트의 외관 모델링. 합성된 이미지의 뷰 방향은 왼쪽의 가장 가까운 콘텐츠 이미지의 뷰 방향과 동일합니다. (a, b) 각각 Brandenburg 및 Trevi의 외관 이미지. (c, e) Trevi의 콘텐츠 이미지. (d, f) Trevi의 합성 이미지. (h, j) Brandenburg의 합성 이미지.

Comparison of appearance modeling.

우리는 그림 4에서 CR-NeRF의 외관 모델링 능력을 조사합니다.

우리는 1) CR-NeRF가 Ha-NeRF보다 외관 정보를 더 정확하게 캡처하는 것을 관찰했으며, 특히 녹색 하늘, 파란색 하늘, 빨간색 건물, 게이트의 햇빛과 같은 고주파 정보가 있는 이미지에서 외관을 복구하는 데 사용되었습니다.

2) CR-NeRF는 도로나 건물과 같은 정적 물체를 유지하면서 관광객이나 자동차와 같은 transient 물체를 성공적으로 제거했습니다.

표 2. 세 가지 데이터 세트에 대한 CR-NeRF의 ablation 연구. 외관 모델링 모듈 (CR-NeRF-A)과 transient 핸들러 (CR-NeRF-T)를 추가하여 베이스라인 (CR-NeRF-B)의 성능을 점진적으로 개선합니다. 굵은 숫자는 최상의 결과를 나타냅니다.

5.2. Ablation Studies

Ablation of appearance module and transient module.

우리는 Brandenburg, Sacre, 및 Trevi 데이터 세트에 대한 CR-NeRF의 ablation 연구를 표 2에 요약했습니다.

우리는 CR-NeRF-A 및 CR-NeRF-T가 CR-NeRF-B. 및 CR-NeRF가 모든 변형을 능가한다는 것을 관찰했으며, 이는 외관 모듈 및 transient 모듈의 효과를 나타냅니다.

표 1. 두 가지 해상도 설정, 즉 원본 이미지 해상도를 2 (R/2)와 4 (R/4) 다운스케일링한 세 가지 실제 데이터 세트에 대한 정량적 실험 결과. 굵은 숫자와 밑줄 친 숫자는 각각 최상의 결과와 차선책을 나타냅니다.

Cross-ray manner and fusing level.

우리는 표 1의 정량적 및 부록의 정성적 베이스라인 CR-NeRF-R과 비교하여 cross-ray 방식과 융합 수준의 효과를 연구합니다.

표 1에서 CR-NeRF-R은 세 가지 데이터 세트에서 경쟁 성능을 달성했으며, 이는 다양한 ray들을 활용하는 것의 우수성을 보여줍니다.

또한 제안된 CR-NeRF는 모든 데이터 세트에서 일관되게 CR-NeRF-R을 능가합니다.

cross-ray-포인트 피쳐와 비교하여 cross-ray 피쳐의 세분성이 이미지 수준 조건부 피쳐의 세분성에 더 가깝다고 가정합니다.

따라서 피쳐 융합이 더 효과적입니다.

부록에 정성적인 결과를 제공합니다.

그림 5. 고주파 정보가 포함된 보이지 않는 이미지에서 Brandenburg와 Trevi의 외관 모델링.

5.3. Further Experiments

Unseen appearance modeling.

제안된 CR-NeRF는 cross-ray 외관 모델링 핸들러의 기능 덕분에 보이지 않는 외관 이미지를 처리할 수 있습니다.

그림 5와 같이, CR-NeRF는 주어진 스타일 이미지의 전체 범위 외관 (예: Brandenburg 및 Trevi fountain 데이터 세트의 마지막 두 열에서 파란색 및 보라색 외관)을 Ha-NeRF와 비교하여 더 정확하게 캡처합니다.

또한, CR-NeRF는 Ha-NeRF에서 생성된 이미지 (예: Brandenburg 데이터 세트의 두 번째 열 하늘에서 갑자기 밝은 빛)보다 더 일관된 외관을 합성합니다.

NeRF-W는 픽셀 레벨의 supervision을 통해 각 테스트 이미지에 포함된 외관을 최적화해야 하므로, NeRF-W를 보이지 않는 외관 모델링에 직접 적용할 수 없습니다.

표 3. Brandenburg에서 두 가지 다운스케일링 비율을 가진 하나의 TITAN Xp GPU로 CR-NeRF와 Ha-NeRF의 추론 시간.

Inference time on multiple images.

카메라 위치가 고정된 다양한 외관의 여러 이미지를 처리할 때 CR-NeRF의 추론 효율은 Ha-NeRF를 크게 초과합니다 (즉, 표 3의 24.09초 vs 2.12초).

그 이유는 CR-NeRF가 NeRF 백본을 사용하여 한 번만 cross-ray 피쳐 F^cr을 생성하고 각 이미지의 F^cr과 외관 임베딩을 융합하여 다양한 외관을 합성하기 때문입니다.

반면, Ha-NeRF는 각 추정에 NeRF 백본을 사용해야 합니다.

효율성을 위해 중간 결과를 저장하여 Ha-NeRF를 수정합니다.

그러나 Ha-NeRF의 중간 결과는 단일 TITAN Xp GPU의 용량 이상으로 많은 양의 GPU 메모리를 차지하기 때문에 결과를 호스트 메모리로 이동하려면 추가적인 I/O 시간이 필요합니다.

표 4. Brandenburg 데이터 세트의 transient 핸들러에 대한 토론.

Transient objects handling.

우리는 일반적인 물체를 마스킹하는 것만으로도 재구성 성능이 저하된다는 것을 관찰합니다.

특히 보행자나 자동차와 같은 일반적인 물체에 대해 유망한 세그멘테이션 결과를 생성하는 사전 학습된 DeepLabV3와 사전 학습된 Mask R-CNN을 사용합니다 (정적인 물체를 마스킹하지 않도록 추정할 카테고리를 신중하게 선택합니다).

그러나 CR-NeRF-A를 이 두 네트워크와 결합하면 성능이 저하됩니다 (표 4 참조).

CR-NeRF의 transient 핸들러가 ground truth 가시성 맵의 supervision 없이 학습된다는 점을 고려할 때, 추정된 가시성 맵은 일반 물체에 대해 사전 학습된 네트워크보다 정확도가 떨어질 수밖에 없습니다 (자세한 내용은 부록 참조).

transient 물체의 정의는 아직 미해결 문제라고 가정하고 향후 작업에 맡깁니다.

 

 

6. Conclusion

본 논문에서는 장면 내 여러 ray들의 정보를 고려하여 제약이 없는 이미지로부터의 새로운 뷰 합성을 다룹니다.

제약이 없는 시나리오는 이미지의 다양한 외관과 transient 물체를 소개합니다.

우리는 여러 ray들에 걸친 전역 상호 작용 정보를 활용하여 작업에 대한 새로운 cross-ray 패러다임을 제안합니다.

패러다임에 따라 가변적인 외관을 해결하기 위해 cross-ray 피쳐를 가진 여러 ray들의 정보를 표현한 다음 ray들과 이미지 외관의 융합 피쳐 공분산을 통해 각 이미지의 외관을 주입할 것을 제안합니다.

transient 물체를 처리하기 위해 다중 ray들에서 이미지 세그멘테이션을 통해 transient 물체를 처리하는 새로운 관점을 제안합니다.

이를 기반으로 ray들과 쌍을 이룰 가시성 맵을 추정하고 그리드 샘플링합니다.

대규모 실제 데이터 세트에 대한 광범위한 실험 결과는 우리가 제안한 방법의 효과를 보여줍니다.