2024. 10. 3. 13:36ㆍ3D Vision/NeRF with Real-World
RobustNeRF: Ignoring Distractors with Robust Losses
Sara Sabour, Suhani Vora, Daniel Duckworth, Ivan Krasin, David J. Fleet, Andrea Tagliasacchi
Abstract
Neural radiance fields (NeRF)는 정적 장면의 멀티뷰, 보정된 이미지가 주어졌을 때 새로운 뷰를 합성하는 데 탁월합니다.
장면에 이미지 캡처 중에 지속되지 않는 distractors (이동하는 물체, 조명 변화, 그림자)가 포함된 경우, 아티팩트는 뷰 종속 효과 또는 'floaters'로 나타납니다.
distractors에 대처하기 위해 학습 데이터에서 distractors를 최적화 문제의 이상치로 모델링하여 NeRF 학습에 대한 강력한 추정의 한 형태를 옹호합니다.
우리의 방법은 장면에서 이상치를 성공적으로 제거하고 합성 및 실제 장면에서 베이스라인을 개선합니다.
우리의 기술은 하이퍼 파라미터가 거의 없는 최신 NeRF 프레임워크에 통합하기 쉽습니다.
distractors 유형에 대한 priori 지식을 가정하지 않고 transient 물체를 사전 처리하거나 모델링하는 대신 최적화 문제에 초점을 맞춥니다.
1. Introduction
2D 이미지만으로 정적 3D 장면의 구조를 이해하는 능력은 컴퓨터 비전 [44]의 근본적인 문제입니다.
가상 환경 매핑을 위한 AR/VR, 액션 계획을 위한 자율 로봇 공학 [1], 실제 물체의 디지털 사본을 생성하기 위한 사진 측량 [34]에서 응용 프로그램을 찾습니다.
Neural fields [55]는 최근 뉴럴 네트워크 [39]의 가중치 내에 3D 표현을 저장함으로써 이 고전적인 작업에 혁명을 일으켰습니다.
이러한 표현은 이미지 차이를 역전파하여 최적화됩니다.
필드에 뷰 의존적 래디언스를 저장하고 볼륨 렌더링을 사용하면 [21] 사진 사실적 정확도로 3D 장면을 캡처할 수 있으며, 생성된 표현을 뉴럴 래디언스 필드 또는 NeRF [25]라고 부릅니다.
NeRF 모델의 학습에는 일반적으로 정확한 카메라 보정이 장착된 대규모 이미지 컬렉션이 필요하며, 이는 종종 structure-from-motion [37]을 통해 복구할 수 있습니다.
단순성 이면에는 몇 가지 가정이 숨겨져 있습니다.
모델은 일반적으로 RGB 색 공간의 오차를 최소화하도록 학습되므로 이미지가 photometrically 일관성이 있는 것이 무엇보다 중요합니다 – 동일한 지점에서 촬영한 두 장의 사진은 노이즈까지 동일해야 합니다.
[35]를 명시적으로 설명하는 방법을 사용하지 않는 한 카메라의 초점, 노출, 화이트 밸런스 및 ISO를 수동으로 고정해야 합니다.
그러나 고품질 NeRF를 캡처하는 데 필요한 것은 카메라를 올바르게 구성하는 것뿐입니다 – distractors를 피하는 것도 중요합니다: 전체 캡처 세션 동안 지속되지 않는 모든 것.
distractors는 작업자가 장면을 탐색할 때 던지는 딱딱한 그림자부터 카메라의 field-of-view 안을 무심코 걷는 반려동물이나 어린이까지 다양한 모양과 형태로 제공됩니다.
distractors는 픽셀 단위로 라벨링이 필요하기 때문에 수동으로 제거하는 것이 지루합니다.
또한 수백 개의 입력 이미지에서 일반적인 NeRF 장면을 학습하고 distractors의 유형을 priori로 알 수 없기 때문에 감지하기가 지루합니다.
distractors를 무시하면 재구성 장면의 품질이 크게 저하됩니다; 그림 1 참조.
일반적인 캡처 세션에서는 동일한 관점에서 동일한 장면의 여러 이미지를 캡처하기 어렵기 때문에 distractors를 수학적으로 모델링하기가 어렵습니다.
따라서 뷰 의존적 효과가 NeRF를 사실적으로 보이게 하는 반면, 모델은 distractors와 뷰 의존적 효과의 차이를 어떻게 구분할 수 있을까요?
이러한 어려움에도 불구하고 연구 커뮤니티는 이 문제를 극복하기 위해 몇 가지 접근 방식을 고안했습니다:
• distractors가 특정 클래스 (예: 사람)에 속하는 것으로 알려진 경우 사전 학습된 시맨틱 세그멘테이션 모델로 제거할 수 있습니다 [35, 43] – 이 프로세스는 그림자와 같은 'unexpected' distractors로 일반화되지 않습니다.
• distractors를 이미지별 transient 현상으로 모델링하고 transient/persistent 모델링의 균형을 제어할 수 있습니다 [23] – 그러나 이러한 파레토 최적화 objective를 제어하는 loss를 조정하기는 어렵습니다.
• 시간 내 데이터 (즉, 프레임률이 높은 비디오)를 모델링하고 장면을 정적 및 동적 (즉, distractor) 구성 요소로 분해할 수 있습니다 [53] – 하지만 이는 사진 모음 캡처가 아닌 동영상에만 적용되는 것이 분명합니다.
반대로, 우리는 distractors를 NeRF 최적화에서 이상치로 모델링하여 distractors 문제에 접근합니다.
우리는 앞서 언급한 기법을 강력한 추정 렌즈를 통해 분석하여 그 동작을 이해하고 구현이 더 간단할 뿐만 아니라 더 효과적인 방법을 설계할 수 있습니다 (그림 1 참조).
그 결과 구현이 간단하고 하이퍼파라미터 튜닝이 최소화되거나 전혀 필요하지 않으며 SOTA 성능을 달성하는 방법을 얻었습니다.
우리는 우리의 방법을 평가합니다:
• 정량적으로 합성적이면서도 사실적으로 렌더링된 데이터를 사용한 재구성 측면에서;
• 공개적으로 사용 가능한 데이터 세트에서 질적으로; 이전 방법과 효과적으로 작동하도록 파인튜닝을 하는 경우가 많습니다;
• 로봇이 자율적으로 획득한 장면을 포함한 새로운 자연 장면과 합성 장면 컬렉션에서 하이퍼파라미터 튜닝에 대한 이전 방법의 민감도를 입증할 수 있습니다.
2. Related Work
우리는 뉴럴 래디언스 필드의 기본과 표기법을 간략하게 검토합니다.
그런 다음 정적/동적 장면 모델링 기술에 특히 주목하여 NeRF 연구의 최근 진전을 설명합니다.
Neural Radiance Fields.
neural radiance field (NeRF)는 신경망 θ의 매개변수 내에 저장된 3D 장면의 연속적인 체적 표현입니다.
이 표현은 위치 x와 뷰 방향 d를 뷰 의존적 RGB 색상 및 뷰 독립적 밀도에 매핑합니다:
이 표현은 해당 보정 매개변수 T_i(카메라 extrinsics 및 intrinsics)를 가진 이미지 C_i의 컬렉션 {(C_i, T_i)}에서 학습됩니다.
학습 중 보정 정보를 사용하여 이미지의 각 픽셀을 ray r=(o, d)로 변환하고 입력 이미지에서 ray들을 랜덤으로 그려 학습용 미니 배치 (r~C_i)을 형성합니다.
매개 변수 θ은 L2 photometric-reconstruction loss를 통해 배치에 포함된 픽셀의 색상을 올바르게 예측하도록 최적화됩니다:
ray를 r(t) = o + td로 파라미터화하면 NeRF 모델 이미지 C(r; θ)는 σ(·) 및 c(·)를 기반으로 픽셀 단위 볼륨 렌더링이 생성됩니다 (예: [25, 42] 참조).
Recent progress on NeRF models.
NeRF 모델은 최근 여러 방식으로 확장되었습니다.
주요 스레드는 학습 [15, 27]과 추론 [6, 13]의 속도 향상으로 오늘날의 모델을 몇 분 안에 학습하고 모바일에서 실시간으로 렌더링할 수 있게 되었다는 점입니다 [6].
처음에는 전방 장면으로 제한되었지만, 연구자들은 센서 융합 [35] 또는 수작업으로 설계된 이전 장면 [28]을 통해 실제 360˚ 장면 [4,59]을 모델링하고 필요한 이미지 수를 줄일 수 있는 방법을 빠르게 찾았습니다.
이제 모션 블러 [22], 노출 [24], 렌즈 왜곡 [14]과 같은 이미지 아티팩트를 처리할 수 있습니다.
또한 로컬 카메라 개선 [8, 19] 또는 직접 추론 [58]을 위한 기술이 도입되면서 (정밀한) 카메라 보정의 요구 사항이 빠르게 완화되고 있습니다.
NeRF는 일반적으로 체적 밀도를 통해 지오메트리를 나타내지만, 예측된 normals를 사용하여 표면을 예측하도록 맞춤화된 모델 [29, 51]이 존재하며, 이를 확장하여 재구성 품질을 크게 향상시킬 수 있습니다 [50, 57].
고품질 normals [47]가 주어지면 장면의 (렌더링) 구조를 추론하는 것이 가능해집니다 [5].
또한 일반화 [56], 시맨틱 이해 [48], 생성 모델링 [33], 로봇 공학 [1] 및 text-to-3D [31]에 대한 추가 응용에 대한 최근 논문에 주목합니다.
Modeling non-static scenes.
여기에서 고려하는 것과 같은 비정형 장면의 경우 커뮤니티는 비디오에서 정적 요소와 비정적 요소를 모두 재구성하는 데 집중했습니다.
가장 직접적인 접근 방식인 시간을 보조 입력으로 처리하면 지오메트리가 흐려지고 세부 사항이 부족해집니다 [11, 54].
프레임당 잠재 코드를 보조 입력으로 직접 최적화하는 것이 더 효과적인 것으로 입증되었습니다 [17, 30, 53].
가장 널리 채택된 접근 방식은 프레임 쌍 [18, 49] 또는 표준 좌표 프레임 [9, 10, 20, 32, 45] 사이의 3D 포인트를 매핑하는 시간 조건 변형 필드를 맞추는 것입니다 [9, 10, 32, 45].
시공간이 얼마나 희박하게 샘플링되는지 고려할 때, 모든 방법은 허용 가능한 결과를 얻기 위해 신중한 정규화, 최적화 또는 추가 학습 신호가 필요합니다.
정적 요소가 아닌 요소를 제거하는 데는 상대적으로 거의 관심을 기울이지 않았습니다.
한 가지 일반적인 접근 방식은 distractors가 될 가능성이있는 픽셀을 세그멘트하고 무시하는 것입니다 [35, 43].
이렇게 하면 더 큰 물체가 제거되지만 그림자와 같은 이차 효과를 고려하지 못합니다.
이상값으로 distractors를 모델링하려는 이전 시도는 여전히 잔여 흐린 지오메트리를 남깁니다 [23].
3. Method
고전적인 NeRF 학습 losses (3)은 photometrically 일관된 장면을 캡처하는 데 효과적이며, 이는 현재 최근 연구에서 익숙한 사실적인 새로운 관점 합성으로 이어집니다.
그러나 "what happens when there are elements of the scene that are not persistent throughout the entire capture session?"
이러한 장면의 간단한 예로는 관찰된 이미지의 일부에만 물체가 존재하거나 모든 관찰된 이미지에서 동일한 위치에 유지되지 않을 수 있는 장면이 있습니다.
예를 들어, 그림 2는 여러 transient 물체 (예: 사람과 개)와 함께 persistent 물체 (트럭)로 구성된 2D 장면을 묘사합니다.
세 카메라의 파란색 ray는 트럭과 교차하는 반면, 카메라 1과 3의 녹색 ray와 주황색 ray는 transient 물체와 교차합니다.
비디오 캡처 및 시공간 NeRF 모델의 경우, persistent 물체는 장면의 "static" 부분을 구성하고 나머지는 "dynamic"이라고 합니다.
3.1. Sensitivity to outliers
Lambertian 장면의 경우, 장면 래디언스는 incident light [16]에만 의존하기 때문에 사진 일관성 구조는 뷰 독립적입니다.
이러한 장면의 경우 (3)을 최소화하여 학습된 (1)과 같은 뷰 종속 NeRF 모델은 transient 물체가 뷰 종속 항으로 설명되는 로컬 최적화를 인정합니다.
그림 2는 아웃라이어의 기억된 색상에 해당하는 발신 색상을 사용하여 이를 묘사합니다 – 즉, 뷰 의존적 래디언스.
이러한 모델은 모델의 뷰 의존적 용량을 활용하여 관측치를 과적합시켜 transient 물체를 효과적으로 기억합니다.
d에 대한 의존성을 제거하도록 모델을 변경할 수 있지만, least-squares (LS) 추정기가 이상치 또는 꼬리가 무거운 노이즈 분포에 민감하기 때문에 L2 loss는 여전히 문제가 있습니다.
Lambertian 가정을 떨어뜨리는 보다 자연스러운 조건에서 non-Lambertian 반사율 현상과 이상치가 모두 뷰 의존적 래디언스로 설명될 수 있기 때문에 문제는 더 복잡해집니다.
우리는 모델이 사진 일관성 있는 뷰 의존적 래디언스를 포착하기를 원하지만, 이상치 및 기타 transient 현상은 이상적으로 무시해야 합니다. 이
러한 경우 L2 loss (3)을 사용한 최적화는 재구성에 상당한 오류를 초래합니다; 그림 1 참조.
이러한 문제는 특히 반사율이 복잡하거나 비강성이거나 독립적으로 움직이는 물체가 있는 제어되지 않는 환경에서 NeRF 모델 피팅에 만연합니다.
3.2. Robustness to outliers
Robustness via semantic segmentation.
NeRF 모델 최적화 중 이상값 오염을 줄이는 한 가지 방법은 이미지 i의 주어진 픽셀 r이 이상값인지 여부를 지정하는 오라클 S에 의존하는 것이므로 경험적 loss에서 제외하고 (3)을
로 대체하는 것입니다.
실제로 사전 학습된 (semantic) 세그멘테이션 네트워크 S는 오라클인 S_i=S(C_i)의 역할을 할 수 있습니다.
예를 들어, Nerf-in-the-wild [23]는 사람들이 점유하는 픽셀은 photo-tourism의 맥락에서 이상값이므로 시맨틱 세그멘터를 사용하여 제거했습니다.
Urban Radiance Fields [35]는 하늘 픽셀을 세그멘트한 반면, LOL-NeRF [33]는 얼굴에 속하지 않는 픽셀을 무시했습니다.
이 접근 방식의 명백한 문제는 오라클이 임의의 distractors를 감지해야 한다는 것입니다.
Robust estimators.
이상값에 대한 민감도를 줄이는 또 다른 방법은 기존의 L2 loss (3)을 robust loss (예: [2, 41])로 대체하여 최적화 중에 photometrically-inconsistent 일관성 있는 관찰을 다운가중치할 수 있도록 하는 것입니다.
robust 커널 κ(·)가 주어지면 학습 loss를
로 재작성하고, 여기서 κ(·)는 양수이며 단조롭게 증가합니다.
예를 들어, MipNeRF [3]은 L1 loss κ(ϵ)=|ϵ|를 사용하여 NeRF 학습 중에 이상값에 어느 정도 robustness를 제공합니다.
우리의 분석을 고려할 때, 유효한 질문은 우리가 문제에 접근하기 위해 강력한 커널을 직접 사용할 수 있는지 여부이며, 그렇다면 선택한 커널인 robust kernel [2]의 다양성을 고려할 때 유효한 질문입니다.
안타깝게도 위에서 논의한 바와 같이 이상값과 non-Lambertian 효과는 모두 뷰 의존적 효과로 모델링할 수 있습니다 (그림 3 참조).
결과적으로 robust 추정기를 간단히 적용하면 신호와 노이즈를 분리하기 어려울 수 있습니다.
그림 4는 이상값이 제거되었지만 세부 텍스처 및 뷰 의존적 세부 정보도 손실되거나 반대로 세부 정보가 보존되었지만 이상값이 재구성된 장면에서 아티팩트를 유발하는 예를 보여줍니다.
또한 세부 정보가 잘 포착되지 않거나 이상값이 완전히 제거되지 않은 이러한 경우의 혼합물을 관찰할 수도 있습니다.
이러한 동작은 다양한 robust 추정기 및 매개 변수 설정에서 일관되게 발생한다는 것을 발견했습니다.
학습 시간도 문제가 될 수 있습니다.
모델 매개변수와 관련된 robust 추정기 그래디언트는 체인 룰을 사용하여
으로 표현할 수 있습니다.
두 번째 요인은 고전적인 NeRF 그래디언트입니다.
첫 번째 요인은 현재 오류 잔차 ϵ(θ^(t))에서 평가된 커널 그래디언트입니다.
학습 중에 큰 잔차는 아직 학습되지 않은 고주파 세부 정보에서 동일하게 나올 수도 있고, 이상치에서 발생할 수도 있습니다 (그림 4(아래쪽) 참조).
이것은 (5)로 구현된 robust 최적화가 고주파 세부 정보와 이상치를 분리할 것으로 예상해서는 안 되는 이유를 설명합니다.
또한, 리센딩 추정기와 같이 robust 커널을 사용할 때 시각적 충실도의 loss도 설명합니다.
즉, (큰) 잔차의 그래디언트가 커널의 (작은) 그래디언트에 의해 가중치가 낮아져 이러한 세분화된 세부 정보의 학습이 느려지기 때문입니다 (그림 4(위) 참조).
3.3. Robustness via Trimmed Least Squares
다음에서는 NeRF 모델 피팅을 위해 트리밍된 least squares (LS) loss가 있는 iteratively reweighted least-squares (IRLS)의 형태를 옹호합니다.
Iteratively Reweighted least-squares
IRLS는 이상치의 영향을 줄이기 위해 가중치가 조정된 일련의 가중 LS 문제를 해결하는 robust 추정을 위해 널리 사용되는 방법입니다.
이를 위해 반복 t에서 loss를
로 쓸 수 있습니다.
ω(ϵ)=ϵ^-1 ·∂κ(ϵ) / ∂ϵ에 의해 주어진 가중치 함수의 경우, 적절한 조건에서 반복이 (5)의 로컬 최소값으로 수렴한다는 것을 보여줄 수 있습니다 ([41, 섹션 3] 참조).
이 프레임워크는 헤비테일 노이즈 프로세스에 대한 최대 가능성 추정기를 포함하여 광범위한 loss 제품군을 허용합니다.
그림 4의 예로는 Charbonnier loss (smoothed L1)과 Lorentzian 또는 Geman-McClure [2]와 같은 보다 공격적인 redescending 추정기가 있습니다.
(4)의 objective는 오라클에서 제공하는 이진 가중치가 부여된 가중치 LS objective로도 볼 수 있습니다.
그리고 아래에서 자세히 설명하는 것처럼 IRLS와 가중치가 부여된 렌즈를 통해 NeRF-W [23] 및 D^2NeRF [53]와 같은 최근의 여러 방법을 볼 수도 있습니다.
그럼에도 불구하고 NeRF 최적화를 위해 적절한 가중치 함수 ω(ϵ)을 선택하는 것은 대부분 뷰 의존적 래디안ㅅ, 현상과 이상치 사이의 본질적인 모호성 때문에 사소하지 않습니다.
충분한 주석이 달린 학습 데이터를 생성하는 것은 금지적일 수 있지만, 신경 가중치 함수 [40]를 학습하여 이 문제를 해결하려고 시도할 수 있습니다.
대신, 아래에서 취하는 접근 방식은 robust 트리밍된 LS 추정기의 단순성과 결합하여 이상치 구조의 귀납적 편향을 악용하는 것입니다.
Trimmed Robust Kernels.
우리의 목표는 간단하고 NeRF 최적화에 유용한 귀납적 편향을 캡처하는 반복 가중치 LS 최적화에 사용하기 위한 가중치 함수를 개발하는 것입니다.
단순화를 위해 우리는 모델 피팅을 통해 자연스럽게 적응하는 직관적인 매개변수가 있는 이진 가중치 함수를 선택하여 이상치가 아닌 세분화된 이미지 세부 정보를 빠르게 학습할 수 있도록 합니다.
또한 대부분의 robust 추정기 공식에서 일반적인 i.i.d. 가정과 달리 일반적인 이상치의 구조적 특성을 캡처하는 것이 중요합니다.
이를 위해 가중치 함수는 이상치 프로세스의 공간적 평활성을 캡처하여 일반적으로 물체가 지속적인 로컬 지원을 가지므로 이상치가 이미지의 크고 연결된 영역 (예: photo-tourism 데이터 세트에서 세그멘트할 사람의 실루엣)을 차지할 것으로 예상됩니다.
놀랍게도 비교적 간단한 가중치 함수는 이러한 속성을 구현하며 실제로 매우 우수한 성능을 발휘합니다.
가중치 함수는 trimmed ICP [7]에서 사용되는 것과 같이 트리밍된 최소 제곱에 사용되는 소위 트리밍된 추정기를 기반으로 합니다.
우리는 먼저 잔차를 정렬하고 특정 백분위수 미만의 잔차가 인라이어라고 가정합니다.
편의상 50% 백분위수(즉, 중앙값)를 선택하면
을 정의합니다.
이상값의 공간적 평활성을 캡처하기 위해 3×3 상자 커널 B_(3×3)로 ω에 공간적으로 확산된 인라이어/아웃라이어 레이블을 지정합니다.
공식적으로
를 정의합니다.
이는 고주파 세부 정보를 이상값으로 분류하지 않도록 하여 최적화하는 동안 NeRF 모델에 캡처할 수 있도록 도와줍니다(그림 5 참조).
트리밍된 가중치 함수 (9)는 모델 피팅의 견고성을 향상시키지만, 때때로 NeRF 모델이 coarse-grained 구조를 처음 캡처하는 학습 초기에 세분화된 이미지 세부 사항을 잘못 분류하기도 합니다.
이러한 로컬화된 텍스처 요소는 매우 긴 학습 시간이 지난 후에야 나타날 수 있습니다.
우리는 공간적 일관성에 대한 더 강력한 귀납적 편향을 통해 세분화된 세부 사항을 더 빨리 학습할 수 있다는 것을 발견했습니다.
이를 위해 우리는 16×16 이웃의 이상값 탐지를 집계합니다; 즉, 패치의 16×16 이웃에서 W의 동작을 기반으로 전체 8×8 패치를 아웃라이어 또는 인라이어로 라벨링합니다.
r 주변 픽셀의 N×N 이웃을 R_N(r)으로 표시하면
을 정의합니다.
마지막 가중치 함수는 식 8-10의 세 마스크의 조합입니다.
이 robust 가중치 함수는 이전 반복에서 가중치가 잔차의 함수인 IRLS에서 예상되는 것처럼 최적화 과정에서 진화합니다.
즉, 픽셀을 인라이어/아웃라이어로 표시하는 것은 학습 중에 변경되며 오라클이 학습 수렴에 제공하는 것과 유사한 마스크 주위에 정착합니다 (그림 6 참조).
4. Experiments
우리는 MultiNeRF 코드베이스 [26]에서 robust loss 함수를 구현하고 이를 Mip-NeRF 360 [4]에 적용합니다.
우리는 이 방법을 "RobustNeRF"라고 부릅니다.
RobustNeRF를 평가하기 위해 다양한 유형의 distractors가 포함된 여러 장면의 베이스라인과 비교합니다.
가능한 경우 재구성을 held-out distractor-free 이미지와 정량적으로 비교하고 held-out 프레임에서 평균화된 세 가지 지표, 즉 PSNR, SSIM [52] 및 LPIPS [60]를 보고합니다.
우리는 두 가지 장면 컬렉션, 즉 D^2NeRF의 저자가 제공한 장면과 아래에 설명된 새로운 데이터 세트에 대해 서로 다른 방법을 비교합니다.
또한 합성 장면에 대한 일련의 예시적인 실험을 제시하여 RobustNeRF의 효능과 내부 작용을 조명합니다.
4.1. Baselines
우리는 RobustNeRF를 다양한 loss 함수(L2, L1, Charbonnier)로 최적화된 mip-NeRF 360의 변형과 비교합니다.
이러한 변형은 이상치에 대한 robustness가 제한되거나 없는 모델의 자연스러운 베이스라인 역할을 합니다.
또한 최근 단안 비디오에서 동적 장면을 재구성하는 방법인 D^2NeRF와 비교합니다.
우리의 방법과 달리 D^2NeRF는 distractors를 폐기하지 않고 재구성하도록 설계되었습니다.
D^2NeRF는 단안 비디오의 방법으로 제시되지만 시간적 연속성을 전제로 하지 않으며 순서가 없는 이미지에 직접 적용할 수 있습니다.
성능이 D^2NeRF에 미치지 못하기 때문에 NeRF-W와의 추가 비교는 생략합니다 [53].
모델 학습에 대한 자세한 내용은 추가 자료를 참조하세요.
4.2. Datasets - Figure 7
D^2NeRF의 장면 외에도 자연 장면과 합성 장면 세트를 소개합니다.
이는 예시적인 사용 사례에 대한 RobustNeRF의 효과를 평가하는 데 도움이 되며, 통제된 조건에서 경험적 분석을 가능하게 합니다.
Natural scenes.
우리는 다양한 유형의 distractors를 예시하는 7가지 자연 장면을 캡처합니다.
장면은 길거리, 아파트, 로봇 공학 실험실의 세 가지 설정에서 캡처됩니다.
distractor 객체는 프레임 간에 이동하거나 이동하도록 허용되어 장기간에 걸친 캡처를 시뮬레이션합니다.
우리는 고유한 distractor의 수를 1개 (Statue)에서 150개 (BabyYoda)까지 다양하게 변경하며, 그 움직임도 마찬가지입니다.
단안 비디오에 대한 이전 작업과 달리 명확한 시간 순서 없이 프레임을 캡처합니다 (그림 7 참조).
나머지 세 가지 (즉, Street1, Street2, Gloss)에는 뷰 의존 효과가 포함되어 있으며, 그 결과는 보충 자료에 나와 있습니다.
또한 정량적 평가를 가능하게 하기 위해 distractor 없이 추가 프레임을 캡처합니다.
카메라 포즈는 COLMAP [38]을 사용하여 추정됩니다.
보충 자료의 각 장면에 대한 전체 설명입니다.
Synthetic scenes.
RobustNeRF를 추가로 평가하기 위해 Kubric 데이터 세트 생성기를 사용하여 합성 장면을 생성합니다 [12].
각 장면은 텍스처가 없는 빈 방에 간단한 지오메트리 집합을 배치하여 구성됩니다.
각 장면에서 객체의 하위 집합은 고정된 상태로 유지되며 다른 객체 (즉, distractors)는 프레임마다 위치를 변경합니다.
객체의 수, 크기 및 이동 방식을 변경하여 각 장면의 distraction 수준을 제어합니다.
이러한 장면을 사용하여 하이퍼파라미터에 대한 RobustNeRF의 민감도를 검토하고 보충 자료를 참조합니다.
4.3. Evaluation
우리는 장면의 정적 요소를 정확하게 재구성하면서 distractors를 무시하는 RobustNeRF의 능력을 평가합니다.
우리는 distraction-free 프레임을 사용할 수 있는 장면에서 RobustNeRF, D^2NeRF 및 mip-NeRF 360의 변형을 학습합니다.
모델은 distractors가 있는 프레임에 대해 학습되고 distraction-free 프레임에 대해 평가됩니다.
Comparison to mip-NeRF 360 - Figure 8.
자연 장면에서 RobustNeRF는 일반적으로 PSNR에서 mip-NeRF 360의 변형을 1.3~4.7dB 초과하는 성능을 발휘합니다.
L2, L1 및 Charbonnier loss들은 모든 픽셀의 가중치가 동일하기 때문에 모델은 distractors를 무시하는 대신 뷰에 따라 외관이 달라지는 'clouds'로 표현해야 합니다.
우리는 distractors가 여러 프레임 동안 정지해 있을 때 구름이 가장 분명하다는 것을 발견했습니다.
반면, RobustNeRF의 loss는 distractor 픽셀을 분리하고 0의 가중치를 할당합니다 (그림 6 참조).
재구성 정확도에 대한 상한선을 설정하기 위해 각 장면의 distractor가 없는 버전에서 (대략) 동일한 시점에서 이미지를 가져온 Charbonnier loss로 mip-NeRF 360을 학습합니다.
안심할 수 있듯이, distraction-free 프레임에서 학습했을 때 RobustNeRF는 거의 동일한 정확도를 달성합니다; 그림 11 참조.
RobustNeRF는 지속적으로 mip-NeRF 360을 능가하지만, 아파트 장면 (Statue, Android)은 Robotics Lab 장면 (Crab, BabyYoda)보다 격차가 작습니다.
이는 어려운 배경 지오메트리, 카메라 매개변수 추정 오류, 장면 모양의 눈에 띄지 않는 변경으로 설명할 수 있습니다.
자세한 내용은 보충 자료를 참조하세요.
Comparison to D^2NeRF - Figure 9.
정량적으로 RobustNeRF는 캡처의 고유한 이상값 개체 수에 따라 D^2NeRF와 최대 12dB PSNR을 일치시키거나 초과 성능을 발휘합니다.
D^2NeRF 실제 장면에 대한 결과는 정성적 비교를 위해 첨부 자료에 제공됩니다.
Statue와 Android에서는 각각 1개와 3개의 비강체 객체가 장면 주변으로 이동합니다.
D^2NeRF는 이러한 객체를 모델링하여 장면의 정적 콘텐츠와 분리할 수 있습니다.
나머지 장면에서는 훨씬 더 큰 100~150개의 고유한 정적 객체 풀이 사용됩니다 – D^2NeRF가 효과적으로 모델링하기에는 너무 많습니다.
그 결과, "cloud" 아티팩트는 mip-NeRF 360에서 생성된 것과 유사하게 정적 표현에 나타납니다.
반면, RobustNeRF는 비정적 콘텐츠를 이상값으로 식별하고 재구성 중에 이를 생략합니다.
두 방법 모두 유사한 수의 매개변수를 사용하지만, 배치 크기를 정규화할 때 D^2NeRF의 최대 메모리 사용량은 RobustNeRF보다 2.3배, 37배 더 높습니다.
이는 모델 아키텍처의 직접적인 결과입니다: D^2NeRF는 정적 콘텐츠와 동적 콘텐츠를 동시에 모델링하도록 조정되었으므로 더 높은 복잡성을 가질 수 있습니다.
비교를 위해 모든 실험에 대해 이미지 해상도를 0.2 메가픽셀로 제한합니다.
Ablation - Figure 10.
우리는 동일한 관점에서 distractor-free (깨끗한) 이미지에 대해 학습된 mip-NeRF 360의 재구성 정확도에 대한 상한선과 비교하여 crab 장면에서 RobustNeRF loss의 요소를 완화합니다.
우리가 트리밍한 추정기 (8)는 고주파 텍스처와 낮은 PSNR을 희생시키면서 distractor를 성공적으로 제거합니다.
스무딩 (9)을 사용하면 더 긴 학습 시간을 희생하면서 미세한 세부 사항을 복구할 수 있습니다.
공간 창 (10)을 사용하면 RobustNeRF 학습 시간은 mip-NeRF 360과 동등합니다.
또한 패치 크기와 트리밍 임계값 (보충 자료 참조) 을 완화하고, RobustNeRF가 트리밍 임계값에 둔감하며, 패치 크기를 줄이면 스무딩 및 패치로 인한 이득을 상쇄한다는 것을 발견했습니다.
Sensitivity - Figure 11.
우리는 RobustNeRF가 데이터 세트의 어수선한 양에 대해 놀라울 정도로 견고하다는 것을 발견했습니다.
우리는 이미지에 몇 개의 distractor 픽셀이 포함된 경우 이미지를 "cluttered" 것으로 정의합니다.
그림은 distractors가 있는 학습 이미지의 비율에 따라 RobustNeRF 및 mip-NeRF 360의 재구성 정확도가 어떻게 달라지는지 보여주며, 학습 세트 크기를 일정하게 유지합니다.
비율이 증가함에 따라 mip-NeRF 360의 정확도는 33dB에서 25dB로 꾸준히 하락하는 반면, RobustNeRF는 전체적으로 31dB 이상을 꾸준히 유지합니다.
distraction-free 체제에서 RobustNeRF는 재구성 품질과 학습에 필요한 시간 모두에서 mip-NeRF 360보다 약간 낮은 성능을 보인다는 것을 발견했습니다.
이는 distractors에 해당하지 않더라도 일정 비율의 픽셀이 폐기되는 트리밍된 추정기 (8)에 의해 유도된 통계적 비효율성에서 비롯된 것입니다.
5. Conclusions
우리는 NeRF 모델 학습의 핵심 문제, 즉 transient이거나 움직이는 물체와 캡처 세션 내내 지속되지 않는 photometric 현상과 같은 distractors가 있는 상태에서 최적화하는 문제를 해결합니다.
강력한 추정의 렌즈를 통해 살펴보면, 우리는 반복적으로 가중치가 재조정된 최소 제곱의 형태로 학습을 공식화하고, 트리밍된 LS의 변형과 아웃라이어 프로세스의 매끄러움에 대한 귀납적 편향을 사용합니다.
RobustNeRF는 놀랍게도 간단하지만 광범위한 데이터 세트에서 효과적입니다.
RobustNeRF는 일련의 합성 데이터 세트, 일반적인 벤치마크 데이터 세트 및 로봇이 캡처한 새로운 데이터 세트에서 질적, 양적으로 최신 SOTA 방법 [4, 53]을 능가하는 것으로 나타나 이전 방법과 비교할 수 있도록 distractors를 세밀하게 제어할 수 있습니다.
우리의 실험은 mip-NeRF 360의 맥락에서 강력한 추정을 탐구하지만, RobustNeRF loss는 다른 NeRF 모델에 통합될 수 있습니다.
Limitations.
RobustNeRF는 distractors 장면에서 좋은 성능을 발휘하지만 loss에는 약간의 통계적 비효율성이 수반됩니다.
깨끗한 데이터에서는 재구성이 다소 저하되고 학습하는 데 시간이 더 오래 걸리는 경우가 많습니다 (그림 11 참조).
향후 작업에서는 매우 작은 distractos를 고려할 것이며, 이는 아웃라이어/인라이어 결정에 사용되는 공간적 지원을 조정해야 할 수 있습니다.
또한 신경 가중치 함수를 학습하여 RobustNeRF를 더욱 개선하는 것도 흥미로울 것이며, 액티브러닝은 이러한 맥락에서 유용할 수 있습니다.
마지막으로, 다른 NeRF 프레임워크에 강력한 loss를 포함시키는 것도 흥미로울 것입니다.