NeRF-HuGS: Improved Neural Radiance Fields in Non-static Scenes Using Heuristics-Guided Segmentation

2024. 10. 21. 11:203D Vision/NeRF with Real-World

NeRF-HuGS: Improved Neural Radiance Fields in Non-static Scenes Using Heuristics-Guided Segmentation

 

Jiahao Chen, Yipeng Qin, Lingjie Liu, Jiangbo Lu, Guanbin Li

 

Abstract

Neural Radiance Field (NeRF)는 새로운 뷰 합성 및 3D 장면 재구성의 우수성으로 널리 인정받고 있습니다.

그러나 그 효과는 본질적으로 정적 장면의 가정과 관련이 있기 때문에 움직이는 물체나 그림자와 같은 transient distractors에 직면할 때 바람직하지 않은 아티팩트에 취약합니다.

본 연구에서는 수작업 휴리스틱과 SOTA 세그멘테이션 모델의 강점을 조화롭게 결합하여 transient distractors로부터 정적 장면의 분리를 크게 향상시켜 이전 솔루션의 한계를 크게 뛰어넘는 새로운 패러다임인 'Heuristics-Guided Segmentation' (HuGS)을 제안합니다.

또한 휴리스틱의 세심한 설계를 심층적으로 연구하여 다양한 텍스처 프로파일을 충족하는 Structure-from-Motion (SfM) 기반 휴리스틱과 색상 잔여 휴리스틱의 원활한 융합을 도입합니다.

광범위한 실험을 통해 비정적 장면에서 학습된 NeRF의 transient distractors를 완화하는 데 있어 우리 방법의 우수성과 견고성을 입증했습니다.

 

 

1. Introduction

Neural Radiance Fields (NeRF) [29]는 새로운 뷰 합성에서 놀라운 성과를 거두며 상당한 주목을 받고 있습니다.

멀티뷰 이미지를 활용하여 NeRF는 3D 장면을 뉴럴 필드 [54]로 개념화하고 고급 볼륨 렌더링 기술을 통해 매우 사실적인 렌더링을 생성합니다.

이 기능은 3D 재구성 [22, 43, 48], 콘텐츠 생성 [23, 33, 36], 시맨틱 이해 [14, 42, 58] 등 다양한 다운스트림 애플리케이션의 문을 열었습니다.

 

그러나 NeRF 학습 데이터로 사용되는 이미지는 몇 가지 엄격한 조건을 충족해야 하며, 그 중 하나는 콘텐츠 일관성과 안정성에 대한 요구 사항입니다.

즉, 네이티브 NeRF 모델은 정적 장면을 가정하여 작동합니다.
전체 데이터 캡처 세션에서 움직임이나 일관성이 없는 요소, "transient distractors"라고 함, 는 재구성된 3D 지오메트리에 바람직하지 않은 아티팩트를 도입할 수 있습니다.
그러나 실제 시나리오에서는 transient distractors의 존재가 거의 피할 수 없습니다.

예를 들어, 야외 환경에서는 이미지 획득 중에 보행자와 차량이 랜덤으로 나타날 수 있는 반면, 실내 촬영은 사진작가가 캐스팅한 그림자의 영향을 받을 수 있습니다.

또한 상당한 수의 이미지에서 이러한 transient distractors를 수동으로 제거하는 것은 어렵고 시간이 많이 걸리는 작업이며, 종종 pixel-by-pixel 라벨링이 필요합니다.

 

transient distractors의 영향을 완화하기 위해 이전 연구에서는 두 가지 주요 패러다임을 탐구했습니다.

한 가지 패러다임은 사전 학습된 세그멘테이션 모델을 활용하여 transient distractors를감지하는 것입니다[12, 26, 38, 43, 45, 47].

정확한 결과를 도출할 수 있지만, 이 접근 방식은 prior 지식의 추가 전제 조건 (예: transient 객체의 시맨틱 클래스)에 의존하기 때문에 제한된 일반성을 보여줍니다.

다른 전략은 수작업 휴리스틱을 적용하여 transient distractors를 정적 장면에서 분리하는 것을 목표로 합니다 [7, 15, 17, 18, 28, 40].

그럼에도 불구하고 이러한 접근 방식은 주로 휴리스틱 디자인의 복잡한 특성과 기존 휴리스틱의 내재적인 ill-posedness로 인해 부정확하거나 잘못된 결과를 초래하는 경우가 많습니다.

그림 1. 이전 방법과 제안된 Heuristics-Guided Segmentation (HuGS) 패러다임 간의 비교. transient distractors로 인해 방해받는 정적 장면으로 NeRF를 학습할 때, (a) 세그멘테이션 기반 방법은 prior 지식에 의존하여 예상치 못한 transient 물체(예: pizza)를 식별할 수 없으며, (b) 휴리스틱스 기반 방법은 더 일반화 가능하지만 부정확하며(예: tablecloth 텍스처), (c) 우리의 방법은 강점을 결합하고 매우 정확한 transient vs. 정적 분리를 생성하여 NeRF 결과를 크게 개선합니다.

이 연구에서 우리는 두 가지 장점을 모두 활용하여 비정적 장면에서 NeRF에 대한 정적 객체 식별과 transient 객체 식별의 정확도를 극대화하기 위해 "Heuristics-Guided Segmentation" (HuGS)이라는 새로운 패러다임을 제안합니다 (그림 1).

우리 접근 방식의 근거는 영국 관용구인 "horses for courses"에 구현된 원칙에 있으며, 재능과 작업의 정렬을 강조합니다.

특히, 우리의 패러다임은 i) 정적 요소의 거친 지표를 식별하는 데 능숙한 수작업 휴리스틱스의 집단적 강점과 ii) 정확한 객체 경계를 묘사하는 것으로 유명한 Segment Anything Model (SAM) [16]과 같은 현대 세그멘테이션 모델을 활용합니다.

또한 휴리스틱스의 설계를 심층적으로 탐구하고 i) 고주파 텍스처 패턴으로 특징지어지는 정적 객체를 효율적으로 식별하는 새로 고안된 Structure-from-Motion (SfM) 기반 휴리스틱스와 ii) 저주파 텍스처로 특징지어지는 정적 요소를 감지하는 데 탁월한 부분적으로 학습된 Nerfacto [46]에서 파생된 색상 잔여 휴리스틱스의 원활한 융합을 제안합니다.

이러한 휴리스틱스의 맞춤형 통합은 우리의 방법이 다양한 텍스처 프로파일에 걸쳐 정적 장면 요소의 전체 스펙트럼을 강력하게 포괄할 수 있도록 지원합니다.

광범위한 실험을 통해 우리 방법의 우수성을 입증했습니다.

우리의 기여는 다음과 같이 요약할 수 있습니다:

 • 우리는 비정적 장면에서 학습된 NeRF를 개선하기 위한 "Heuristics-Guided Segmentation"이라는 새로운 패러다임을 제안하며, 이는 수작업 휴리스틱스와 SOTA 세그멘테이션 모델을 모두 활용하여 정적 장면과 transient distractors를 정확하게 구분합니다.
 • 우리는 휴리스틱 설계를 심층적으로 연구하고 SfM 기반 휴리스틱과 컬러 잔여 휴리스틱의 원활한 융합을 제안하여 다양한 텍스처 프로파일에서 광범위한 정적 장면 요소를 캡처하여 강력한 성능과 transient distractors를 완화하는 우수한 결과를 제공합니다.
 • 광범위한 실험 결과에 따르면 우리의 방법은 ground truth에 가까운 샤프하고 정확한 정적 vs. transient 분리 결과를 생성하고 비정적 시나리오에서 학습된 NeRF를 크게 개선합니다.

 

 

2. Related Work

NeRF [29]는 최근 컴퓨터 비전의 오랜 문제인 여러 이미지에서 새로운 사실적 뷰를 합성하는 유망한 솔루션으로 부상하고 있습니다.

합성 품질과 학습 효율성을 개선하기 위해 수많은 방법 [1-3, 32, 56]이 제안되었지만, 대부분은 재구성할 장면이 정적이므로 많은 실제 장면 (예: 관광 명소)에 적합하지 않다고 가정합니다.

 

NeRF in Non-static Scenes.

일반적으로 NeRF에 문제가 되는 비정적 장면에는 크게 두 가지 유형이 있습니다:
 i) 시간이 지남에 따라 변하는 동적 장면, 모델이 진화하면서 장면에 대한 일관된 새로운 뷰를 렌더링해야 하는 장면 [10, 19, 21, 26, 34, 35, 53], 예를 들어 움직이는 물체나 조명이나 날씨 변화와 같은 환경적 영향이 있는 장면.
 ii) transient distractors로 인해 방해받는 정적 장면으로, 모델은 정적 명소를 걷는 관광객과 같은 동적 물체를 배경 장면으로 제외해야 합니다.

우리의 작업은 ii)에 초점을 맞추고 있으며, 기존 솔루션은 대략 두 가지 주요 패러다임으로 그룹화할 수 있습니다:

 • 세그멘테이션 기반 방법 [12, 26, 38, 43, 45, 47]은 사전 학습된 시맨틱 또는 비디오 세그멘테이션 모델을 사용하여 transient distractors vs. 정적 장면을 식별하고 얻은 정보를 사용하여 NeRF 학습을 용이하게 합니다.

이러한 모델은 정확한 결과를 생성할 수 있지만 몇 가지 주요 제한 사항이 있습니다:
 i) transient distractors의 시맨틱 클래스나 비디오 프레임으로서의 이미지의 시간적 관계와 같은 추가적인 priors가 필요하며, 가능한 모든 산만함 클래스를 열거하기 어렵고 이미지가 순서가 없을 수 있기 때문에 실제로 만족하기는 어렵습니다.

 ii) 시맨틱 세그멘테이션은 동일한 클래스의 정적 객체와 transient 객체를 구분할 수 없습니다.

 • 휴리스틱스 기반 방법 [7, 15, 17, 18, 28, 40]은 수작업 휴리스틱스를 사용하여 NeRF 학습 중에 transient distractors를 정적 장면에서 분리하므로 priors가 필요하지 않으므로 더 일반화할 수 있습니다.

그러나 정확한 분리를 가능하게 하는 휴리스틱스는 설계하기 어렵습니다.

예를 들어, NeRF-W [28]는 transient 물체의 밀도가 일반적으로 작다는 것을 관찰하고 이를 사용하여 NeRF 학습을 정규화합니다.

그러나 transient 물체가 아닌 밀도가 작은 안개 잔차를 쉽게 생성할 수 있습니다.

RobustNeRF [40]는 NeRF 학습 중에 transient 픽셀을 맞추기가 더 어렵기 때문에 색상 잔차를 통해 transient 픽셀과 정적 픽셀을 구분합니다.

그러나 정적 물체의 고주파 디테일도 맞추기 어렵기 때문에 RobustNeRF는 transient distractors를 처리할 때 이를 쉽게 무시합니다.

 

우리는 연구에서 두 가지 세계를 모두 활용하는 HuGS라는 새로운 패러다임을 제안합니다.

요컨대, 우리는 재능을 작업에 매칭하고 휴리스틱을 세그멘테이션를 가이드하는 대략적인 신호로만 사용하고 ground truth에 가까운 매우 정확한 transient 분리와 static 분리를 생성할 것을 제안합니다.

또한 휴리스틱 설계를 조사하고 색상 잔차와 SfM을 기반으로 한 휴리스틱의 조합을 사용할 것을 제안합니다.

 

SfM in NeRF.

SfM은 2D 이미지 세트에서 해당 3D 지오메트리를 재구성하기 위한 기술입니다.

NeRF에서 SfM은 일반적으로 이미지의 카메라 포즈를 추정하는 데 사용됩니다.

최근 연구에서는 장면 depth [43]를 추정하거나 타겟 물체 [49, 55]를 찾거나 3D 가우시안 [13] 세트를 초기화하는 데도 사용했습니다.

카메라 포즈를 추정하는 것 외에도 SfM을 사용하여 정적 물체 식별과 transient 물체 식별을 위한 새로운 휴리스틱을 설계합니다.

특히, 정적 장면 요소에 속하는 피쳐 포인트만 안정적으로 일치시키고 SfM 파이프라인의 여러 뷰에서 삼각측량할 수 있다는 인사이트를 활용합니다.

저희가 아는 한, 비정적 장면에서 NeRF에 대한 SfM의 이러한 속성을 최초로 활용한 것입니다.

 

 

3. Preliminaries

I = {I_i|i=1, 2, ..., N_I}를 transient 객체가 있는 멀티뷰 입력 이미지 집합이라고 가정해 보겠습니다:

 

Structure-from-Motion (SfM).

SfM은 먼저 각 I_i에 대해 2D 로컬 피처 포인트 세트 F_i를 추출합니다:

, 여기서 f_i^j는 외관 설명자이고 x_i^j ∈ R^2는 I_i의 좌표를 나타냅니다.

그런 다음 SfM은 모든 이미지의 F_i를 사용하여 타겟 장면의 3D 구조를 나타내는 희소 포인트 클라우드 C를 재구성하고, 여기서 서로 다른 이미지의 2D 피쳐 포인트 (즉, 매칭 포인트) 간의 대응은 C에서 동일한 3D 점에 해당하는지 여부에 따라 결정됩니다.

각 2D 피처 포인트 (x_i^j, f_i^j)에 대해 I의 일치하는 포인트의 수를 n_i^j로 나타냅니다.

 

Neural Radiance Field (NeRF).

요컨대, NeRF는 θ에 의해 매개변수화된 multi-layer perceptron (MLP)을 가진 정적 장면을 나타냅니다.

구체적으로, 3D 위치 p ∈ R^3과 그 뷰 방향 d ∈ S^2가 주어지면 NeRF는 해당 색상 c ∈ R^3과 밀도 σ ∈ R을

로 출력합니다.

이를 통해 NeRF는 여러 샘플 포인트가 있는 해당 카메라 ray r을 따라 볼륨 렌더링을 적용하여 각 픽셀 색상 ˆC(r)를 2D 프로젝션으로 렌더링할 수 있습니다.

학습 중에 파라미터 θ는 loss 함수를 사용하여 입력 이미지에서 ˆC(r)와 ground truth 색상 C(r) 사이의 오차를 최소화하여 최적화됩니다:

, 여기서 L_recon은 MSE loss와 Charbonnier loss [5]가 포함된 인기 있는 재구성 loss입니다.

 

NeRF in Static Scenes.

transient 물체의 픽셀을 0으로, 정적 물체의 픽셀을 1로 라벨링하는 이미지 I_i에 해당하는 정적 맵을 M_i라고 가정하고, M_i를 loss 가중치로 사용하여 식 3을 간단한 방식으로 수정하여 transient 픽셀의 간섭을 피합니다:

, 단순화를 위해 i를 생략하고 대신 r을 사용합니다.

 

 

그림 2. HuGS의 파이프라인. (a) transient distractors로 인해 방해받는 정적 장면의 순서 없는 이미지가 입력으로 주어지면, 먼저 두 가지 유형의 휴리스틱을 얻습니다. (b) SfM 기반 휴리스틱은 SfM을 사용하여 정적 (녹색)과 transient 피쳐 (빨간색)을 구분합니다. 그런 다음 정적 피쳐를 포인트 프롬프트로 사용하여 SAM을 사용하여 조밀한 마스크를 생성합니다. (c) 잔차 기반 휴리스틱은 합리적인 색상 잔차를 제공할 수 있는 부분적으로 학습된 NeRF (즉, 수천 번의 iterations에 대해 학습된 NeRF)를 기반으로 합니다. (d) 이 조합은 마지막으로 SAM이 (e) 각 입력 이미지에 대한 정적 맵을 생성하도록 다시 가이드합니다.

4. Method

식 4에서 알 수 있듯이 정적 맵 M_i가 더 정확할수록 학습된 NeRF의 품질이 향상됩니다.

M_i의 정확도를 극대화하기 위해 우리는 작업에 재능을 매칭할 것을 제안하는 영국 관용어 "horses for courses"를 따르고 Heuristics-Guided Segmentation (HuGS)이라는 새로운 프레임워크를 통해 문제에 접근합니다 (섹션 4.1).

그림 2에서 볼 수 있듯이, HuGS는 정적 객체의 coarse 단서를 식별하는 데 있어 수작업 휴리스틱스의 강점과 샤프하고 정확한 객체 경계를 생성하는 SOTA 세그멘테이션 모델의 능력을 결합합니다.

또한 휴리스틱스 선택에 대한 심층 분석을 수행합니다 (섹션 4.2).

우리의 솔루션은 고주파 텍스처 패턴을 가진 정적 객체를 효과적으로 식별하는 새로운 SfM 기반 휴리스틱스와 저주파 텍스처로 특징지어지는 정적 객체를 감지하는 데 탁월한 부분적으로 학습된 Nerfacto [46]의 색상 잔차 휴리스틱스를 결합합니다.

이러한 휴리스틱스의 맞춤형 통합을 통해 우리의 방법은 다양한 텍스처 프로파일에서 전체 범위의 정적 장면 요소를 강력하게 캡처할 수 있습니다.

 

4.1. Heuristics-Guided Segmentation (HuGS)

인간은 transient 물체와 정적인 물체를 쉽게 구별할 수 있지만, 실제 장면의 다양성이 높기 때문에 지금까지 이 구분에 대한 엄격한 수학적 정의를 제공하는 것은 어려운 것으로 입증되었습니다.

이를 위해 가장 효과적인 기존 솔루션은 이러한 구분을 위해 수작업 휴리스틱에 크게 의존합니다.

예를 들어, NeRF-W [28]는 transient 물체의 밀도가 일반적으로 정적 물체보다 낮다는 휴리스틱을 사용하여 NeRF 학습 중 정규화 항으로 통합하고; RobustNeRF [40]는 transient 물체가 일반적으로 최적화 중에 맞추기 어렵다는 관찰을 활용하여 식 4에 사용된 정적 맵을 생성하는 데 사용합니다.
그러나 이러한 방법은 성공에도 불구하고 실제 물체의 다양한 모양과 외관을 처리하는 동안 유지되지 않는 간단한 수작업 휴리스틱만을 기반으로 transient와 정적 ray/pixels를 구분할 수 있다는 강력한 가정을 암묵적으로 제시합니다.
결과적으로 이러한 방법은 오류 및/또는 모호한 객체 경계를 생성하기 쉽습니다 (그림 3b 및 3e).

그림 3. 기존 휴리스틱을 사용한 HuGS의 성능. (a)는 움직이는 빨간색 자동차가 있는 예제 학습 이미지이고, (d)는 SAM을 사용한 세그멘테이션 결과입니다. (b, e)는 부분적으로 학습된 서로 다른 모델에서 얻은 휴리스틱 맵입니다. (c, f)는 우리의 방법으로 생성된 정적 맵이며, 부정확한 휴리스틱은 잘못된 결과 (NeRF-W)로 이어질 수 있습니다.

이러한 한계를 해결하기 위해 우리는 transient 물체와 정적 물체를 구별하기 위해 수작업으로 만든 휴리스틱에 전적으로 의존하지 않는 새로운 프레임워크 HuGS를 제안합니다.

대신 휴리스틱을 활용하여 각 이미지 I_i에서 잠재적인 정적 물체에 대한 대략적인 힌트 H_i만 제공한 다음 모델 S에서 제공하는 I_i의 세그멘테이션 마스크를 사용하여 이러한 부정확한 단서를 정확한 정적 맵 M_i로 정제합니다.
구체적으로 S(I_i) = {m_i^1,m_i^2, ...,m_i^(N_M_i)}라고 가정합니다, 여기서 m_i^j는 j번째 객체(instance)의 세그멘테이션 마스크를 나타내며 N_M_i는 마스크 수입니다:

, 여기서 T_m은 사용자 지정 임계값이며 SOTA SAM [16]을 사용하여 S를 구현합니다.

그림 3과 같이, 프레임워크는 부분적으로 학습된 이전 방법 [28, 40]의 (10%) 모델을 휴리스틱으로 사용하는 경우에도 샤프한 객체 경계를 가진 정적 맵을 생성할 수 있습니다 (그림 3b 및 3e).

그러나 완화에도 불구하고 프레임워크의 성공은 정적 객체에 대한 거칠지만 정확한 H_i를 사용할 수 있다는 가정에 기반합니다 (그림 3c 및 3f).

 

4.2. Heuristics Development

정적 객체의 거칠지만 정확한 휴리스틱 H_i를 제공하기 위해, 우리는 두 가지 보완적인 휴리스틱, 즉 새로운 SfM 기반 휴리스틱과 부분적으로 학습된 Nerfacto [46]의 색상 잔차 휴리스틱을 조합하여 각각 고주파 및 저주파 텍스처로 통계 객체를 감지하는 데 탁월합니다.

그림 4. RobustNeRF와 크기가 다른 transient 물체의 성능. 학습 이미지의 transient distractors는 흰색으로 구성됩니다. quantile (임계값)이 낮을수록 모델은 작은 크기의 정적 물체를 놓치는 반면, quantile이 높을수록 큰 크기의 transient 물체를 제거하지 못합니다.

SfM-based Heuristics.

섹션 3에서 위에서 언급했듯이 SfM 재구성은 이미지 전반에 걸쳐 식별 가능한 고유한 피쳐를 일치시키는 데 의존합니다.따라서 이러한 고유한 텍스처는 일치할 수 있는 풍부한 고유한 피쳐를 제공하기 때문에 고주파 텍스처가 특징인 물체를 감지하는 데 매우 적합합니다.

정적 물체와 transient 물체를 구별하기 위해 SfM 기반 휴리스틱은 transient 물체가 정적 물체에 비해 소수로 간주되고 그 위치가 지속적으로 변경된다는 점에서 이전 방법과 유사한 높은 수준의 직관을 공유합니다.

그러나 우리는 "minority"에 대한 다른 해석을 가지고 있습니다.
특히, 우리의 방법은 입력 이미지 전반에 걸친 발생 빈도로 정의하며, 이는 "transient"이라는 시간적 의미와 잘 일치합니다.반면, NeRF-W [28]와 RobustNeRF [40]는 각각 'minority'를 총 밀도 또는 색 잔류 분위 측면에서 해석하며, 이는 공간적 범위와 더 관련이 있습니다.
그 결과, 면적 기반 정의가 transient 객체 식별의 시간적 측면을 완전히 포착하지 못하기 때문에 다양한 크기의 transient 객체에 어려움을 겪었습니다 (그림 4).

섹션 3의 n_i^j (일치하는 포인트의 수)와 N_I (입력 이미지의 수)의 정의를 상기하면 다음과 같은 관찰이 가능합니다:

이미 작은 transient 객체의 n_i^j는 지속적으로 변화하는 위치 (즉, SfM 재구성 중에 일치할 가능성이 낮음)에 의해 더욱 감소하여 더 쉽게 구별할 수 있습니다.

따라서 임계값 T_SfM을 설정하여 각 이미지 I_i에 대한 정적 피쳐 포인트 좌표의 집합 X_i를 얻습니다:

는 전자가 전체 장면에서 발생 빈도를 더 잘 나타내기 때문에 n_i^j가 아닌 n_i^j/N_I를 기준으로 T_SfM을 설정합니다.

그러나 X_i는 상대적으로 희소한 포인트 집합이므로 NeRF 학습을 위해 픽셀 단위 정적 맵으로 변환해야 합니다.

다행히도 SAM [16]은 포인트를 프롬프트로 받아들이고 해당 세그멘테이션 마스크를 출력할 수 있는 빠른 세그멘테이션 모델입니다.

따라서 픽셀 값이 1이면 정적 객체에 속하고 0이면 transient 것을 의미하는 정적 맵인 휴리스틱 H_i^SfM을 얻기 위해 X_i를 SAM에 공급합니다.

그림 5. 휴리스틱 조합. (b) SfM 기반 휴리스틱스 H_i^SfM 단독은 고주파 정적 디테일(예: box textures)은 잘 포착하지만 부드러운 디테일(예: white chairs)은 놓칩니다. 이는 (e) (d) Nerfacto의 잔차 기반 휴리스틱 H_i^CR과 그 반대의 (f)를 수행하는 5k 학습 iterations를 통합하여 보완할 수 있습니다. 이들의 조합 (c)은 정적 장면의 전체 스펙트럼을 다루고 transient 물체(예: pink balloon)를 식별합니다.

Combined Heuristics.

효과적이지만, SfM 기반 휴리스틱 H^SfM은 고유한 피쳐가 없기 때문에 저주파 정적 물체를 소홀히 할 수 있습니다 (그림 5).

이러한 한계를 해결하기 위해 다른 휴리스틱의 보완적인 강점을 통합하는 통합 접근 방식을 제안합니다: 부분적으로 학습된 Nerfacto [46]의 색상 잔차는 부드러운 transient 물체를 효과적으로 식별하지만 텍스쳐가 있는 물체와 씨름합니다.

구체적으로, 우리는 먼저 수천 번의 iterations를 위해 Nerfacto를 학습하고 각 ray r에 대한 색상 잔차를 ϵ(r) = |ˆC(r) - C(r)|로 사용하여 색상 잔차 맵 R_i를 구성합니다.
그런 다음 H_i^SfM과 잔차 기반 휴리스틱 H_i^CR을 결합하여 휴리스틱 ˆH_i를 얻습니다:

, 여기서 H_i^CR = R_i ≤ mean(R_i)입니다.

실제로 H_i^SfM은 피처 포인트의 잘못된 분류 또는 SAM 세그멘테이션 오류로 인해 때때로 일부 transient 객체를 잘못 포함할 수 있습니다.

이를 제거하기 위해 ˆH_i^CR로 정의된 상한을 추가 보험으로 식 7에 적용합니다:

, 여기서 ˆH_i^CR = R_i ≤ quantile(R_i, T_CR).

T_CR은 ˆH_i^CR이 모든 정적 객체를 포함하도록 보장하는 높은 임계값입니다.

 

Remark.

Nerfacto [46]를 사용하여 훨씬 적은 계산 리소스로 빠르게 학습할 수 있고 여전히 합리적인 결과를 생성할 수 있으므로 잔차 맵을 생성합니다 (그림 5).

상대적으로 낮지만, 이 레벨의 성능은 대략적인 휴리스틱 단서에 대한 요구 사항을 충족하기에 충분하며, 이는 패러다임의 우수성을 더욱 입증합니다.

 

 

5. Experiments

5.1. Experimental Setup

Datasets.

우리는 실험에서 세 가지 데이터 세트를 사용합니다:
 • Kubric Dataset [53].

Kubric [11]이 생성한 이 합성 데이터 세트에는 빈 방에 간단한 지오메트리가 있는 5개의 장면이 포함되어 있습니다.

프레임은 시간적 관계를 가지며 지오메트리의 하위 집합은 프레임 간에 이동하는 transient distractors 역할을 합니다.
 • Distractor Dataset [40].

이 실제 데이터 세트에는 장면당 1~150개의 산만자가 있는 4개의 제어된 실내 장면이 있습니다.
 • Phototourism Dataset [28].

이 실제 데이터 세트에는 네 가지 문화 랜드마크의 장면이 있으며, 각 장면에는 다양한 transient distractors가 포함된 온라인 사진이 수집됩니다.

랜드마크와 방해 요소의 외관은 촬영 차이로 인해 이미지마다 다릅니다.

 

Implementation Details.

자세한 내용은 보충 자료를 참조하세요.
 • HuGS.
SfM 재구성에는 COLMAP [41]을, 세그멘테이션 모델에는 SAM [16]을 사용합니다.

COLMAP는 이미지 피쳐를 추출하기 위해 SIFT [27]를 사용하며, COLMAP의 매개변수를 기본값으로 설정했습니다.

T_m을 공통 0.5로 설정했습니다.

T_SfM과 T_CR의 값은 장면의 복잡성에 따라 달라지므로 경험적으로 Kubric의 경우 0.2와 0.9, Distractor의 경우 0.01과 0.95, Phototourism 데이터 세트의 경우 0.01과 0.97로 설정했습니다.
 • NeRF Training.
우리는 일반화 가능성을 보여주기 위해 두 가지 기본 NeRF 모델인 Nerfacto [46]와 Mip-NeRF 360 [2]에 우리의 방법을 적용합니다.

vanilla NeRF는 Distractor 데이터 세트 [2]에서 무한한 장면을 처리하는 데 어려움이 있기 때문에 vanilla NeRF [29]에서 테스트하지 않았습니다.

 

5.2. Evaluation on View Synthesis

Baselines.

기본 모델 외에도 우리는 우리의 방법을 세 가지 다른 SOTA 휴리스틱 기반 방법과 비교합니다: 장면 밀도, 픽셀 가시 가능성 및 색상 잔차를 기반으로 휴리스틱을 설계하는 NeRF-W [28], HA-NeRF [7] 및 RobustNeRF [40]를 각각 비교합니다.

또한 우리의 방법을 단안 비디오에서 잘 작동하는 동적 NeRF인 Kubric 데이터 세트의 D^2NeRF [53]와 비교합니다.

세그멘테이션 기반 방법은 대부분의 장면에서 만족할 수 없는 transient distractors의 이전에 의존하기 때문에 비교에 포함되지 않습니다.

 

Comparisons.

위의 모델과 우리 모델은 모두 transient distractors로 인해 방해받는 이미지에 대해 학습되고 정적 장면만 있는 이미지에 대해 평가됩니다.

PSNR, SSIM [50] 및 LPIPS [57]를 기반으로 이미지 합성 품질을 보고합니다.

그림 6. Kubric 데이터 세트에 대한 정량적 및 정성적 결과. 첫 번째(빨간색), 두 번째(녹색) 및 세 번째(파란색) 최상의 결과가 강조 표시됩니다. 정량적으로 우리의 방법은 Nerfacto 및 Mip-NeRF 360의 성능을 크게 향상시킬 뿐만 아니라 Mip-NeRF 360이 이전 방법을 능가하고 SOTA가 되는 데 도움이 됩니다. 질적으로 우리의 방법은 transient distractors를 무시하면서 정적 세부 사항을 더 잘 보존할 수 있습니다.

 • Kubric dataset (그림 6).

네이티브와 비교하여, 우리의 방법을 적용하면 Nerfacto의 경우 8.78~12.84dB, Mip-NeRF 360의 경우 9.51~14.24dB의 상당한 PSNR 개선 효과를 얻을 수 있습니다.

우리의 방법은 transient distractors로 인해 방해받는 픽셀로부터 네이티브 모델을 효과적으로 보호하는 고품질 정적 맵을 생성함으로써 이를 달성합니다.

다른 베이스라인과 비교하여 우리의 방법은 가장 높은 정량적 결과를 달성하고 transient distractors를 무시하고 정적 세부 사항을 보존하는 것 사이에 좋은 균형을 유지합니다.

특히, 정적 장면에서 transient distractors의 잘못된 디커플링으로 인해 NeRF-W 및 HA-NeRF가 실패하고, D^2NeRF와 RobustNeRF는 더 나은 디커플링을 달성하지만 ground 텍스처 및 빨간색 차량과 같은 정적 세부 사항이 손실됩니다.

그림 7. Distractor 데이터 세트에 대한 정량적 및 정성적 결과. 첫 번째(빨간색), 두 번째(녹색) 및 세 번째(파란색) 최상의 결과가 강조 표시됩니다. Mip-NeRF 360에 적용된 방법은 대부분의 정량적 결과에서 가장 우수하며, 나머지는 Nerfacto에 적용된 방법이 주도합니다. 정성적으로, 우리의 방법은 세부 정보가 누락되거나 방해를 받는 다른 베이스라인에 비해 장면 세부 정보를 더 잘 캡처합니다.

 • Distractor dataset (그림 7).

결과와 결론은 Kubric 데이터 세트의 결과와 유사합니다.

그림 8. Phototourism 데이터 세트에 대한 정량적 및 정성적 결과. 첫 번째(빨간색), 두 번째(녹색) 및 세 번째(파란색) 최상의 결과가 강조 표시됩니다. 이 데이터 세트에서 테스트 이미지의 주요 내용은 transient distractors (예: 관광객)의 영향을 덜 받는 건물의 윗부분이라는 점에 유의하세요. 따라서 우리의 방법은 개선 효과는 적지만 SOTA에 비해 여전히 경쟁력 있는 결과를 도출합니다.

 • Phototourism dataset (그림 8).

학습 및 테스트 세트는 고유한 피쳐를 공유합니다: 랜드마크 본체는 transient distractors (예: 인근 관광객)에 의해 크게 방해받지 않으며 transient distractors를 제거하지 않더라도 잘 재구성할 수 있습니다.

따라서 우리의 방법에서 개선된 점은 주로 랜드마크 경계에 초점을 맞추고 위의 데이터 세트에 비해 상대적으로 덜합니다.

그럼에도 불구하고 우리의 결과는 이전 작업과 비교하여 정량적 경쟁력을 유지하고 질적으로 더 많은 세부 사항을 복구합니다.

자세한 내용은 부록을 참조하세요.

 

5.3. Evaluation on Segmentation

Baselines.

우리는 합성 데이터이며 ground truth 세그멘테이션 데이터가 있는 Kubric 데이터 세트에 대해 비교를 수행합니다.

우리는 우리의 방법을 시맨틱 세그멘테이션 모델 [6, 8], 오픈 세트 세그멘테이션 모델 [16, 25] 및 비디오 세그멘테이션 모델 [4]을 포함한 다양한 기존 세그멘테이션 모델과 비교합니다.

위에서 언급한 기본 NeRF 모델은 또한 완전히 학습된 후 생성된 정적 맵을 사용하여 비교됩니다.

그림 9. Kubric 데이터 세트의 정량적 및 정성적 세그멘테이션 결과. 첫 번째 (빨간색), 두 번째 (녹색) 및 세 번째 (파란색) 최상의 결과가 강조 표시됩니다.

Comparisons (그림 9).

우리는 mIoU 및 F1 score를 기반으로 세그멘테이션 품질을 보고합니다.

흥미롭게도 prior 지식이 제공되더라도 기존 세그멘테이션 모델은 이 특정 작업을 위해 설계되지 않았기 때문에 성능이 제한된다는 것을 관찰할 수 있습니다.

반면에 휴리스틱 기반 방법은 transient distractors를 대략적으로 로컬화할 수 있지만 정확한 세그멘테이션 결과를 제공할 수 없습니다.

휴리스틱과 세그멘테이션 모델을 함께 결합함으로써 우리의 방법은 두 가지 세계를 모두 활용하고 prior 지식 없이 정적 장면에서 transient distractors 정확하게 세그멘트할 수 있습니다.

 

Verification of Observation 1. 

Observation 1의 정확성을 검증하는 추가 실험을 위해 추가 자료를 참조하세요.

그림 10. Ablation 결과. 파란색 프레임의 패치는 부드러운 벽을, 노란색 프레임의 패치는 복잡한 텍스쳐를 나타냅니다. 첫 번째 (빨강), 두 번째 (녹색), 세 번째 (파랑) 베스트 결과가 강조 표시됩니다.

5.4. Ablation Study

Nerfacto를 기반으로 방법의 서로 다른 구성 요소를 제거하여 두 개의 서로 다른 데이터 세트에 미치는 영향을 연구합니다.

그림 10과 같이 정적 맵이 없는 (a) 방법, 즉 네이티브 Nerfacto가 최악의 성능을 발휘합니다.

전자는 부드러운 표면을 캡처할 수 없고 후자는 고주파 디테일을 처리하는 데 어려움이 있기 때문에 SfM 기반 휴리스틱 또는 잔차 기반 휴리스틱만으로는 개선에 한계가 있습니다.

이를 세그멘테이션 모델과 결합한 완전한 방법 (f)이 최상의 결과를 달성합니다.

 

 

6. Conclusions

이 연구에서는 실제 NeRF 학습에서 transient distractors의 널리 퍼진 문제를 효과적으로 해결하는 새로운 heuristics-guided segmentation 패러다임을 제안합니다.

수작업 휴리스틱과 SOTA 시맨틱 세그멘테이션 모델의 보완 강점을 전략적으로 결합하여 prior 지식 없이 다양한 장면에서 transient distractors 매우 정확하게 세그멘트할 수 있습니다.

세심한 휴리스틱 설계를 통해 우리의 방법은 고주파 및 저주파 정적 장면 요소를 모두 강력하게 캡처할 수 있습니다.

광범위한 실험을 통해 기존 방법에 비해 우리 접근 방식의 우수성을 입증했습니다.

제한 사항과 향후 작업에 대한 추가 세부 정보를 참조하세요.