NeRF-Supervision: Learning Dense Object Descriptors from Neural Radiance Fields

2022. 7. 6. 11:43View Synthesis

NeRF-Supervision: Learning Dense Object Descriptors from Neural Radiance Fields

 

Lin Yen-Chen, Pete Florence, Jonathan T. Barron, Tsung-Yi Lin, Alberto Rodriguez, Phillip Isola

 

Abstract

포크나 휘스크와 같은 얇고 반사적인 물체는 우리 일상생활에서 흔히 볼 수 있지만, 일반 RGB-D 카메라나 멀티뷰 스테레오 기법을 사용해 재구성하기 어렵기 때문에 로봇 인식에 특히 도전적이다.

기존 파이프라인이 이와 같은 물체로 어려움을 겪는 반면, Neural Radiance Fields (NeRF)은 최근 얇은 구조나 반사 물질을 가진 물체에 대해 뷰 합성을 수행하는 데 현저하게 효과적인 것으로 나타났다.

본 논문에서는 강력한 로봇 비전 시스템을 위한 새로운 supervision 소스로 NeRF의 사용을 탐구한다.

특히, 우리는 장면의 NeRF 표현이 조밀한 객체 descriptors를 학습시키는 데 사용될 수 있음을 보여준다.

최적화된 NeRF를 사용하여 객체의 여러 뷰 사이의 조밀한 대응을 추출한 다음, 이러한 대응을 객체의 뷰 불변 표현을 학습하기 위한 학습 데이터로 사용한다.

NeRF의 밀도 필드 사용은 depth 맵을 사용하는 기존의 접근 방식과 달리 새로운 depth 분포 공식으로 대응 문제를 재구성할 수 있다.

우리의 방법으로 supervised되는 고밀도 대응 모델은 기성 학습된 descriptors를 106% 능가하고(PCK@3px metric, 성능 두 배 이상) 멀티 뷰 스테레오로 supervised되는 베이스라인을 29% 능가한다.

또한 학습된 밀도 descriptors를 통해 로봇이 얇고 반사적인 물체의 정확한 6-degree of freedom (6-DoF) 선택 및 위치를 수행할 수 있음을 보여준다.

 

 

Ⅰ. Introduction

스케일, 조명 및 포즈에 불변하는 강력한 시각적 descriptors를 설계하는 것은 컴퓨터 비전[2, 3, 4]에서 오랜 기간 동안 문제가 되었다.

최근, 이미지 간의 밀도 높은 대응에 의해 supervised되는 학습 기반 시각적 descriptors는 수작업으로 만든 descriptors에 비해 우수한 성능을 보여주었다[5, 6, 7, 8].

그러나 장면의 기하학적 구조와 카메라의 포즈는 어떻게든 이미지(또는 선험적으로 알려진)에서 추정되어야 하기 때문에 이러한 모델을 학습하는 데 필요한 ground-truth 밀도 대응 데이터를 생성하는 것은 어렵다.

결과적으로, 학습 기반 방법은 일반적으로 여러 뷰[9, 10]에서 객체를 합성 렌더링하거나 "ground truth" 대응을 얻을 수 있는 임의의 아핀 변환으로 비합성 이미지를 증강하는 데 의존한다[6, 11, 12].

효과적이기는 하지만, 이러한 접근 방식은 한계가 있다.

실제 데이터와 합성 데이터 사이의 간격이 성능을 방해할 수 있고, 데이터 확대 접근 방식은 (로봇 조작에서 자주 발생하는) 평면 외 회전을 포함하는 대응을 식별하지 못할 수 있다.

그림 2: Motivation. (a) 여기서 작업에 사용된 개체를 보여 줍니다. 기존 파이프라인 [13, 15]은 depth 카메라에 의존하기 때문에 얇거나 반사적인 물체를 포착할 수 없기 때문에 이러한 물체에 대한 조밀한 대응에 주석을 다는 것은 어렵다. (b) 이는 일반 RGB-D 카메라(RealSense D415)에서 depth 이미지를 시각화함으로써 관찰할 수 있으며, 여기서 검은색 픽셀은 depth 센서가 depth 추정치를 생성하지 못한 위치를 나타낸다.

조밀한 대응 모델을 학습하기 위해, Florence et al.은 depth 카메라와 함께 로봇 모션을 기반으로 하는 self-supervised 데이터 수집 접근 방식을 제안한다[13].

그들의 방법은 포즈된 RGB-D 이미지 세트가 주어진 조밀한 대응을 생성한 다음 시각적 descriptors를 감독하는 데 사용한다.

그러나 이러한 상황에서 상품 depth 카메라가 고장 나기 때문에 이 방법은 얇은 구조나 매우 특이한 물질을 포함하는 물체에는 잘 작동하지 않는다.

포크 및 휘스크와 같은 물체에 의해 잘 예시된 얇은 구조 또는 빛나는 반사율을 나타내는 물체는 재투영 작업이 고품질의 대응성을 발생시키는 것을 방지하는 구멍 뚫린 depth 맵(그림 2b에 나타남)을 초래할 것이다.

멀티 뷰 스테레오(MVS) 방법은 직접 depth 센서에 의존하지 않고 RGB 이미지만을 사용하여 depth를 추정하기 때문에 이 문제를 해결하기 위한 대안적 접근 방식을 제시한다.

그러나 기존의 스테레오 기술은 일반적으로 패치 기반 광도 일관성에 의존하며, 이는 세계가 크고 램버트적인 물체로 이루어져 있다고 암시적으로 가정한다.

따라서 MVS의 성능은 얇거나 반짝이는 물체가 있을 때 제한됩니다.

얇은 구조는 입력된 이미지에 걸쳐 이미지 패치가 재발하지 않을 수 있음을 의미하며(패치가 배경의 일부를 포함할 가능성이 높기 때문에 다양할 수 있음), 특수성은 광도 일관성을 위반할 수 있음을 의미합니다(다른 각도에서 물체가 볼 때 다르게 보일 수 있음).

그림 3은 널리 사용되는 MVS 방법인 strainer에 COLMAP[14]을 적용했을 때의 고장 사례를 보여준다.

COLMAP이 잘못된 depth맵을 생성하기 때문에 추정된 대응도 부정확합니다.

그림 3: Baselines. 멀티 뷰 스테레오는 depth 카메라의 잠재적인 대안입니다. 그러나 COLMAP(광범위하게 사용되는 MVS 방법)에 의해 추정된 depth 맵[16]은 얇거나 반사되는 물체에 유의한 아티팩트를 나타내며, 이는 픽셀 간의 잘못된 대응(빨간색으로 표시)을 초래한다.

depth 센서와 기존 스테레오 기술의 한계를 해결하기 위해 객체 중심 밀도 대응 학습을 위한 NeRF-Supervision, 즉 Neural Radiance Fields (NeRF)을 기반으로 하는 RGB 전용 self-supervised 파이프라인 [1]을 도입한다.

RGB-D 센서나 MVS를 기반으로 하는 접근 방식과 달리 화면 방향이 색상 예측을 위한 입력으로 받아들여져 반사 물체를 처리할 수 있다.

depth 센서 또는 MVS에 비해 NeRF-Supervision을 사용하는 또 다른 장점은 NeRF에 의해 예측된 밀도 필드가 광도계 일관성의 모호성을 처리하는 메커니즘을 제공한다는 것이다.

학습된 NeRF가 주어지면 예측된 밀도 필드를 사용하여 밀도 대응의 데이터 세트를 확률적으로 샘플링할 수 있다.

우리 방법의 개요는 그림 1을 참조하십시오.

우리의 실험에서, 우리는 8개의 도전적인 물체(그림 2a에 표시)를 고려하고 우리의 파이프라인이 그 모든 것에 대해 강력하고 조밀한 시각적 descriptors를 생성할 수 있음을 보여준다.

우리의 접근 방식은 멀티 뷰 스테레오로 supervised되는 기본 방법뿐만 아니라 모든 기성 descriptors를 크게 능가한다.

또한 학습된 밀도 descriptors를 통해 로봇이 얇고 반사적인 물체의 정확한 6-degree of freedom (6-DoF) 선택 및 위치를 수행할 수 있음을 보여준다.

그림 1: Overview. Neural Radiance Fields (NeRF) [1]을 기반으로 객체 중심 밀도 descriptors를 학습하기 위한 새로운 RGB 센서 전용 self-supervised 파이프라인을 제시한다. 파이프라인은 세 단계로 구성된다. (a) 관심 객체의 RGB 이미지를 수집하고 해당 객체에 대해 NeRF를 최적화한다. (b) 복구된 NeRF 밀도 필드는 조밀한 대응의 데이터 세트를 자동으로 생성하는 데 사용된다. (c) 생성된 데이터 세트를 사용하여 조밀한 객체 descriptors를 추정하는 모델을 학습하고 이를 평가한다.이전에 제공된 실제 이미지에 대한 모델입니다.

우리의 기여는 다음과 같다:
 (i) neural radiance fields 기반의 객체 중심 밀도 descriptors를 학습하기 위한 새로운 RGB 센서 전용 self-supervised 파이프라인.
 (ii) 각 픽셀에 대한 단일 depth가 아니라 depth의 분포를 통해 대응 생성을 처리하는 추정 밀도 필드에 의해 가능한 새로운 광도 분포 공식
 (iii) 우리의 파이프라인이 다음을 할 수 있다는 것을 보여주는 실험: (a) depth 센서 없이 정확한 물체 중심 대응 학습을 가능하게 하며, (b) depth 센서가 일반적으로 고장나는 얇고 반사적인 물체에서 성공한다.
 (iv) 단일 depth 대안과 비교할 때, 확률 분포 제형이 이 데이터에 대해 학습된 대응 모델의 다운스트림 정밀도를 향상시킬 수 있음을 보여주는 실험이다.

 

 

Ⅱ. Related Work

Neural radiance fields.

NeRF는 새로운 뷰 합성을 위한 강력한 기술이다 - 물체의 이미지 세트를 입력으로 가져와서 그 물체의 새로운 뷰를 생성한다 [1].

NeRF의 핵심 구성 요소는 좌표 기반 MLP(공간에서 3D 좌표를 입력으로 취하는 신경망)를 사용하여 체적 밀도와 색상을 3D로 추정하는 것이다.

이 MLP는 체적 렌더링 엔진에 내장되어 있으며, 그라데이션 강하를 사용하여 장면의 가중치를 최적화하여 입력 좌표를 밀도(및 색상) 필드에 매핑하는 MLP를 생성한다.

NeRF는 주로 외관 보간[17] 및 portrait 사진[18]과 같은 비전 또는 그래픽 작업에 사용되었지만 포즈 추정[19] 및 SLAM[20]과 같은 로봇 응용 프로그램에도 채택되었다.

본 연구에서는 NeRF를 시각적 descriptors를 학습하기 위한 데이터 생성기로 사용할 것을 제안한다.

 

NeRF는 모든 장면 내용을 체적 양으로 나타냅니다 - 모든 것이 어느 정도 반투명하다고 가정되며, "hard" 표면은 매우 조밀한(그러나 무한 조밀하지는 않은) 필드를 사용하여 시뮬레이션됩니다 [21].

볼륨 렌더링의 사용은 상당한 이점(가장 주목할 만한 것은 smooth 그레디언트 기반 최적화)을 제공하지만 NeRF는 객체의 경계를 직접 추정하거나 depth 맵을 직접 생성하지 않기 때문에 로봇 환경에서 NeRF를 사용하려고 할 때 몇 가지 어려움이 있다.

그러나 NeRF에 의해 추정된 밀도장은 ray의 예상 종단 depth를 계산하여 depth 맵을 합성하는데 사용될 수 있다 - ray는 카메라를 향해 던져지고 밀도 필드는 ray가 투과할 것으로 예상되는 체적 물체에 "depth"를 결정하기 위해 사용된다.

Deng et al. [22]과 같은 일부 최근 연구는 이러한 depth 맵을 개선하는 방법을 탐구했다.

COLMAP에 의해 추정된 depth를 사용하여 이러한 depth 맵을 직접 supervised한다.

 

Dense descriptors.

조밀한 시각적 descriptors는 3D 장면 재구성, 위치 파악, 객체 포즈 추정 및 로봇 조작에 중요한 역할을 한다[13, 23, 24, 25, 26, 27].

현대의 접근 방식은 시각적 descriptors를 학습하기 위해 기계 학습에 의존한다.

첫째, 주석이 달린 대응이 있는 이미지 쌍은 생성 접근 방식 또는 수동 레이블을 통해 얻는다.

그런 다음 이러한 대응은 해당 픽셀의 피쳐 임베딩이 유사하도록 픽셀 수준 descriptors를 학습하는 학습 데이터로 사용된다.

데이터를 생성하기 위한 일반적인 접근 방식은 GLU-Net[6]에서처럼 대규모 이미지 컬렉션과 함께 합성 왜곡을 사용하는 것이다.

많은 예제로 학습되는 이점에도 불구하고, 이미지 공간 뒤틀림은 평면 내 회전만을 보여주기 때문에 이러한 방법은 종종 평면 외 회전을 나타내는 이미지의 대응을 예측하지 못한다.

다른 접근 방식은 implicit 3D 기하학을 활용하여 대응 관계를 supervise한다[23, 28].

이 범주 내에서, Florence et al. [13]은 로봇의 동작 및 depth 센서를 사용하여 학습 대응물을 수집하기 위한 self-supervised 학습 접근 방식을 보여준다. 

이 접근 방식은 depth 센서가 정확한 depth를 측정하지 못할 때마다 실패하기 쉬우며, 얇은 구조나 반사 구조에서 종종 발생한다.

RGB 입력만 사용하는 방법은 텍스처나 급격한 depth 변동이 없는 영역에서 시각적 대응의 모호성 문제에 직면한다.

다른 접근 방식은 시뮬레이션 기반 descriptors 학습[26, 27]을 입증했는데, 이는 유연성으로 인해 매력적인 접근 방식이다.

그러나 정확하고 현실적인 시뮬레이션을 구성하려면 상당한 엔지니어링 노력이 필요하다.

우리의 연구는 NeRF를 사용하여 제어되지 않은 설정에서 캡처된 실제 비합성 RGB 이미지에서만 학습 대응을 생성함으로써 depth 센서의 단점을 피하고 가능한 depth에 대한 확률 분포로 해석하는 밀도 필드와의 대응을 모델링하여 모호성을 해결한다.

 

 

Ⅲ. Method

우리의 접근 방식은 RGB 센서 전용 프레임워크를 도입하여 고밀도 대응 모델을 supervising하기 위한 학습 데이터를 제공한다.

특히, 프레임워크는 이러한 모델을 학습하는 데 필요한 학습 데이터의 기본 단위를 제공하는데, 이는 다음 형태의 튜플이다:

, RGB 이미지 I_s와 I_t의 쌍으로 구성되며, 각각 R^(w x h x 3), 그리고 이미지 형성 ray가 3D 공간에서 동일한 점을 교차하는 한 쌍의 픽셀 공간 좌표 u_s와 u_t를 각각 R^2에 표시한다.

이러한 튜플을 사용하기 위한 특정 대응 모델을 제안하는 대신, 우리는 이 학습 데이터를 생성하기 위한 접근 방식에 초점을 맞추고 있다.

 

이 ground-truth 대응 데이터 (1)를 고려할 때, 다양한 학습 기반 대응 접근 방식을 학습할 수 있지만, 우리의 실험은 일반화 가능한 로봇 조작을 가능하게 하는 데 유용한 것으로 밝혀진 객체 중심 밀도 descriptor 모델 [13]에 초점을 맞춘다.
descriptor 기반 대응 모델을 사용하여 매개 변수 θ를 가진 신경망 f_θ는 입력 RGB 이미지 I을 조밀한 시각적 descriptor 이미지 f_θ(I) → R^(h x w x d), 여기서 각 픽셀은 d차원 피처 벡터에 의해 인코딩되며, descriptor 공간의 근접도(작은 유클리드 거리)는 관점 변화, 조명 변화 및 잠재적 범주 수준 변화에도 불구하고 대응성을 나타낸다 [13, 23, 28].

 

A. NeRF Preliminaries

NeRF [1]는 장면을 밀도 σ 및 RGB 색 c의 체적장으로 표현하기 위해 신경망을 사용한다.
NeRF의 가중치는 무작위로 초기화되며 입력 RGB 이미지 모음을 supervision으로 사용하여 개별 장면에 최적화된다(이미지의 카메라 포즈는 알려진 것으로 가정되며 종종 COLMAP[14]를 통해 복구된다).
최적화 후 NeRF에 의해 모델링된 밀도 필드는 장면의 지오메트리(큰 밀도가 점유 영역을 나타냄)를 캡처하고 색상 필드는 이러한 점유 영역의 뷰 의존적 외관을 모델링한다.
가중치 Θ에 의해 매개 변수화된 다층 퍼셉트론(MLP)은 각 점의 밀도 σ 및 RGB 색상 c를 해당 점의 3D 위치 x = (x, y, z) 및 단위 norm 뷰 방향 d의 함수로 예측하는 데 사용된다.
신경망이 저차원 공간에서 보여주는 스펙트럼 편향[29]을 극복하기 위해, 각 입력은 위치 인코딩 γ(·)를 사용하여 인코딩되어 (σ, c) ← F_Θ(γ(x), γ(d))를 제공한다.
픽셀을 렌더링하기 위해 NeRF는 카메라 중앙에서 이미지 평면에서 해당 픽셀을 통과하는 방향 d를 따라 카메라 ray r(t) = o + td를 캐스트합니다.
ray를 따라 K 이산점 {x_k = r(t_k)}^K_(k=1)이 MLP에 입력으로 사용하기 위해 샘플링되며, MLP는 밀도 및 색상 집합 {σ_k, c_k}^K_(k=1)을 출력한다.
그런 다음 이러한 값은 볼륨 렌더링 [30]에 이어 해당 픽셀의 색상 ^C(r)을 추정하는 데 사용되며, 여기서 T_k는 ray가 성공적으로 점 r(t_k)로 전송될 확률로 해석될 수 있다.
그런 다음 NeRF는 일부 샘플링된 광선 r ∈ R을 사용하여 광도 loss L_photo = ∑ |^C(r) - C(r)|^2_2를 최소화하도록 학습된다, 여기서 C(r)는 일부 이미지에서 ray R에 해당하는 픽셀의 관측 RGB 값이다.
자세한 내용은 Mildenhall et al. [1]를 참조하십시오.

 

B. Sparse Depth Supervision for NeRF

특히 어려운 기하학(특히, 얇고 반사 구조)을 가진 물체 및 장면의 경우, depth supervision을 NeRF에 통합하는 최근 작업을 활용하면 목적에 맞는 기하학 정확도가 향상된다는 것을 발견했다[22].

Deng et al. [22]은 몇 개의 이미지 설정(즉, ~5개의 이미지)에 중점을 두지만, 우리의 조사에서 우리는 다관 설정(즉 ~60개의 이미지)에서도 depth 감독을 추가하는 것이 유익하다는 것을 발견했다. 

구체적으로, 우리는 실제 360˚ 내향 장면에서 NeRF의 밀도 예측이 사진작가나 로봇이 현장에서 던지는 일시적인 그림자로 인해 종종 악화된다는 것을 발견한다.

이러한 그림자는 일부 이미지에는 나타나지만 다른 이미지에는 나타나지 않기 때문에 NeRF는 최적화된 밀도 필드에 아티팩트를 도입하여 그림자를 설명하는 경향이 있습니다.

depth supervision을 통합하면 이 문제를 효과적으로 완화할 수 있는 것으로 보인다.

 

NeRF의 주된 목표는 RGB 이미지를 렌더링하여 뷰 합성을 수행하는 것이지만, (2)의 볼륨 렌더링 방정식은 단순히 예측된 색상 c_k를 거리 t_k로 대체함으로써 각 ray의 예상 종단 depth를 생성하도록 약간 수정할 수 있다:

T_k는 간격 k를 통과하는 ray의 확률을 나타내므로, 결과 depth ^D(r)는 ray r이 장면에 캐스팅되었을 때 이동하는 예상 거리이다.
우리는 먼저 레이더와 연관된 3D 키포인트 k(r)를 카메라 포즈 G ∈ SE(3)로 카메라 프레임으로 변환한 다음 카메라의 z축을 따라 좌표를 추출하여 ground-truth depth D(r)를 얻을 수 있다: D(r) = <G^-1 k(r), [0, 0, 1] >
depth-supervision loss L_depth = ∑|^D(r) = D(r)|는 예측 depth ^D(r)와 "ground-truth" depth D(r) 사이의 제곱 거리로 정의된다(이 경우 운동으로부터 COLMAP의 구조에 의해 생성된 부분 depth 맵이다).

이 감시는 조밀하지 않고 희소할 뿐이며, depth supervision이 유효한 depth를 반환하지 않는 픽셀에는 이 loss가 부과되지 않습니다.

DS-NeRF 학습을 위한 최종 결합 loss는 L = L_photo + L_depth이다.

 

C. Depth-Map Dense Correspondences from NeRF

NeRF에서 대응 학습 데이터를 생성하기 위해 조사하는 첫 번째 접근 방식은 RGB-D 이미지 쌍을 렌더링하고, 각 개별 픽셀에서 단일 값 depth를 가진 depth 맵 D ∈ R^(w x h)를 추출하여 NeRF를 전통적인 depth 센서로 효과적으로 처리하는 것이다.

이 경우 각 밀도 픽셀에 대한 단일 값 depth 추정치는 (3)을 사용하여 계산된다.

각 학습 이미지 쌍은 카메라 포즈 G_s가 있는 렌더링된 RGB-D 이미지(^I_s, ^D_s) 하나와 카메라 포즈 G_t가 있는 렌더링된 다른 RGB-D 이미지(^I_t, ^D_t)로 구성된다.

아래에서, 우리는 표기법을 약간 남용하고 ^D_s(u_s)를 사용하여 픽셀 단위로 예측된 depth를 나타낸다.

 

NeRF에 의해 렌더링된 이러한 depth 맵과 알려진 카메라 intrinsic K를 가정하면, 우리는 ^I_s에서 쿼리 픽셀 u_s가 주어지면 ^I_t에서 목표 픽셀 u_t를 생성할 수 있다:


, 여기서 π(·)는 투영 연산을 나타냅니다.

이 데이터 생성 방법은 각 픽셀에서 NeRF의 depth 분포의 평균을 사용하여 depth 맵을 렌더링하기 때문에 depth 맵이라고 할 것이다.

그림 4: NeRF의 밀도 필드 vs. depth 맵에서 대응 생성. 우리는 쿼리 픽셀 u_s를 +로, NeRF의 depth 맵을 사용하는 다른 이미지에서 발견된 대응을 빨간색으로, NeRF의 밀도 필드에 의해 발견된 대응을 녹색으로 표시하며, 여기서 각 포인트의 반경은 해당 가중치에 의해 스케일링된다. 우리는 (a) 포크 및 (b) 스트레이너라는 두 가지 예제 개체를 보여준다. NeRF의 depth 맵에 의해 암시된 대응은 부정확하지만, NeRF의 밀도 필드를 직접 사용함으로써, 정확한 대응성을 확률적으로 샘플링할 수 있다.

D. Generating Probabilitic Dense Correspondences from NeRF's Density Field

NeRF의 depth 맵을 사용하여 조밀한 대응성을 생성하면 ray에 따른 밀도 분포가 단일 모드일 때 잘 작동할 수 있지만, ray를 따라 조밀 분포가 다중 모드일 때 부정확한 depth를 생성할 수 있다.

그림 4에서, 우리는 NeRF의 depth 맵이 잘못된 대응을 생성하는 이 경우의 두 가지 예를 보여준다.

이 문제를 해결하기 위해, 우리는 각 픽셀에 대한 단일 depth가 아니라 depth의 분포를 통해 대응 생성을 처리할 것을 제안한다.

그림 4와 같이, depth 맵이 실패한 대응을 올바르게 복구할 수 있는 모드를 가질 수 있다.

 

특히, 알파 합성 가중치 w를 기반으로 depth 값을 샘플링할 수 있다:

depth 맵을 렌더링하고 결정적으로 대응물을 샘플링하여 평균으로 depth 분포를 줄이는 대신, 이 공식은 확률적으로 depth 및 샘플 대응에 대한 완전한 분포를 유지한다.

실제로, 우리는 먼저 각 ray를 따라 K 포인트를 샘플링하고 NeRF에서 {w(^D(u_s) = t_k), t_k}^K_(k=1)를 얻는다.

그런 다음 {w(^D(u_s) = t_k)}^K_(k=1)을 1로 정규화하고 샘플링 t에 대한 확률 분포로 처리한다.

 

우리는 확률론적 공식화가 그림 4에 설명된 바와 같이, 평균이 아닌 밀도의 모드가 ground-truth에 더 가까울 수 있기 때문에 더 정확한 다운스트림 신경 대응 네트워크를 생성할 수 있다고 가정한다.

또한 descriptor 학습 중 자기 일관성 검사(III-E절)와 결합할 경우 거짓 양성 샘플링 확률이 감소한다.

이 가설은 결과 섹션에서 검증됩니다.

 

E. Additional Correspondence Learning Details

Self-consistency.

u_s에서 u_t를 얻은 후 u_t에서 시작하여 자체 일관성 검사를 수행하고 I_s에서 확률적 대응성 ^u_s를 식별한다.

u_s와 ^u_s 사이의 거리가 특정 임계값보다 작은 경우에만 픽셀 쌍(u_s, u_t)을 채택한다.

이것은 [13, 32]의 결정론적 가시성 점검과 확률론적 아날로그이다.

 

Sampling from mask.

미세 조정된 Mask R-CNN을 통해 학습 이미지에 대한 객체 마스크를 획득한다[33].

조밀한 객체 네트[13]와 유사하게, 마스크는 descriptor 학습 중에 객체의 픽셀을 샘플링하는 데 사용된다.

 

 

Ⅳ. Results

우리는 학습과 평가를 위해 실제 이미지를 사용하여 일련의 실험을 실행한다.

우리는 다른 접근 방식으로 생성된 대응으로 학습된 조밀한 descriptors를 평가한다.

실험의 목표는 네 가지이다:

 (i) NeRF에 의해 예측된 3D 지오메트리가 특히 얇고 반사적인 물체에 대해 정확한 descriptors를 학습하기에 충분한지 조사하기 위해,

 (ii) 제안된 방법을 기존의 기성 descriptor와 비교하기 위해,

 (iii) depth 분포 제형이 효과적인지 여부를 조사하기 위해,

 (iv) 우리의 파이프라인에 의해 생성된 시각적 descriptor의 일반화 능력을 테스트한다.

 

A. Settings

Datasets

우리는 8개의 객체(3개의 개별 클래스)를 사용하여 접근 방식과 기준 방법을 평가한다.

각 개체에 대해 자동 노출 및 자동 포커스가 잠긴 아이폰 12를 사용하여 60개의 입력 이미지를 캡처했습니다.

이미지의 크기가 504x378로 조정됩니다.

우리는 COLMAP[14]를 사용하여 각 물체의 카메라 포즈와 희소 포인트 클라우드를 모두 추정한다.

테스트 세트를 구성하기 위해 8개의 이미지가 무작위로 선택되고 학습 중에 보류됩니다.

우리는 각 개체에 대해 이러한 테스트 이미지를 사용하여 100개의 대응에 수동으로 주석을 달았다.

 

Metrics.

평가 지표로 평균 끝점 오류(AEPE)와 올바른 키포인트 백분율(PCK)을 사용한다.

AEPE는 추정된 사실과 실제 대응 사이의 평균 유클리드 거리로 계산된다.

PCK@δ는 ground-truth에 대한 픽셀 단위 유클리드 거리 <δ를 가진 추정 대응의 백분율로 정의된다.

 

B. Methods

첫째, 일반적으로 사용되는 밀집 대응 벤치마크(예: ETH3D [34])에서 SOTA 결과를 얻는 몇 가지 기성 학습 descriptor를 고려한다.
 ● GLU-Net[6]은 밀도 있는 대응을 추정하기 위해 피처 피라미드 기반 네트워크에서 전역 및 로컬 상관 관계를 모두 통합하는 모델 아키텍처이다.
 ● GOCor [12]는 장면의 유사한 영역을 모호하게 하기 위해 GLU-Net [6]의 피쳐 상관 계층을 개선한다.
 ● PDC-Net[7]은 GOC 또는 [12]의 아키텍처를 채택하고 밀도 있는 대응과 불확실성을 추정하기 위한 제한된 혼합 모델로서 예측 분포를 더욱 매개 변수화한다.

 

다음으로, 우리는 밀집된 시각적 descriptor를 학습하기 위해 밀집된 객체 네트(DON)[13]를 학습시킨다.

실제로, 우리는 시각적 descriptor d = 3의 차원을 설정한다.

우리는 DON을 supervise하기 위한 학습 대응을 생성하기 위해 COLMAP 또는 NeRF를 사용하는 것을 고려한다.

 ● COLMAP[16]은 널리 사용되는 고전적 다중 뷰 스테레오(MVS) 방법이다. 우리는 대응을 생성하기 위해 추정된 depth 맵을 사용한다.
 ● NeRF[1]는 볼륨 렌더링 접근 방식으로, 우리는 depth 맵(섹션 III-C)을 통해 또는 밀도 필드(섹션 III-D)를 통해 확률적으로 이를 사용하여 대응을 생성한다.

C. Comparisons

우리는 밀도 높은 descriptor를 평가하고 표 I, 표 II 및 표 III에 정량적인 결과를 보여준다.

우리는 기성 밀도 descriptor가 synthetic warp로 이미지에 대해 학습되고 광범위한 시야각에서 대상 물체를 보지 못했기 때문에 잠재적으로 객체 중심 장면을 처리하는 데 잘 작동하지 않는다는 것을 발견했다.

대조적으로, 대상 객체로 학습된 밀집 객체 네트는 훨씬 더 나은 성능을 발휘한다.

이는 로봇 조작을 위한 객체 중심 학습 데이터를 생성하기 위한 데이터 수집 파이프라인의 필요성을 시사한다.

세 가지 대응 생성 접근 방식 중 COLMAP은 다른 방법과 비교하여 오차가 가장 높다.

NeRF의 밀도 필드를 사용하여 대응물을 샘플링하면 최상의 성능을 얻을 수 있다.

PCK@3px 메트릭에서 COLMAP를 사용하여 조밀한 객체 네트 성능을 29%, 기성 descriptor를 106% 능가한다.

그림 5: 새로운 장면 및 객체에 대한 일반화의 정성적 결과. (a) 학습된 객체 descriptor는 1) 관점, 2) 배경 및 3) 조명 변화 전반에 걸쳐 일관될 수 있음을 보여준다. (b) 모델이 학습 중에 여러 객체를 본 적이 없음에도 불구하고 여러 객체에 대해 학습된 descriptor를 시각화한다. (c) 우리는 학습 중에 보이지 않는 물체에 대해 모델을 테스트합니다. 시각적 descriptor가 범주에서 이전에 본 개체와 일치하는 것으로 표시됩니다.

D. Generalization

우리는 학습 데이터에 존재하지 않는 새로운 장면과 객체에 대해 학습된 밀집 객체 네트(Dense Object Nets)를 평가한다.

그림 5는 휘스 및 스트레이너와 시각적 descriptor의 예를 보여줍니다.

우리는 [13]에서 동일한 시각화 방법을 따른다.

 

Noisy background and lighting

그림 5a에서, 우리는 물체가 다른 배경 또는 다른 조명 조건에 놓였을 때 학습된 descriptor의 결과를 보여준다.

결과는 학습된 descriptor가 학습 장면과 다른 환경에 배치될 수 있음을 보여준다.

 

Multiple objects

우리는 그림 5b에서 입력 이미지에 여러 개체가 포함되어 있을 때 학습된 descriptor를 보여준다.

결과는 descriptor가 크기가 다른 개체에 대해 일관성이 있음을 보여준다.

 

Category-level generalization

우리는 동일한 범주의 보이지 않는 물체에 대해 우리의 모델을 추가로 테스트한다.

그림 5c는 학습 세트에 없는 보이지 않는 물체를 보여준다.

학습된 시각적 descriptor는 이러한 보이지 않는 객체로 강력하게 일반화하고 뷰 불변 descriptor를 추정할 수 있다.

 

E. Example Application: 6-DoF Robotic Pick and Place

우리는 얇고 반사적인 물체의 정확한 6-DoF 선택과 위치를 보여준다.

조밀한 descriptor를 학습한 후, 우리는 각 범주에 대한 SE(3) 파악 포즈를 인코딩하는 의미론적 키포인트 세트를 지정한다.

잡기 전에 descriptor를 사용하여 키포인트의 2D 위치를 추적하고 로봇을 이동하여 로봇 암에 장착된 카메라를 사용하여 장면의 두 RGB 이미지를 캡처한다.

그런 다음 삼각 측량을 사용하여 키포인트의 3D 위치를 도출하고 암호화된 SE(3) 그립 포즈를 실행한다.

자세한 내용은 섹션 A를 참조하십시오.

 

 

Ⅴ. Conclusion

객체 중심 밀도 descriptor를 학습하기 위한 데이터를 생성하는 파이프라인으로 NeRF-Supervision을 소개한다.

RGB-D 카메라 또는 MVS를 기반으로 하는 이전의 접근 방식과 비교하여, 우리의 방법은 얇고 반사적인 물체의 조밀한 descriptor를 학습할 수 있다.

우리는 이러한 결과 차트가 NeRF가 로봇 비전 시스템을 supervising하기 위한 미개발 대표 형식으로 활용될 수 있는 일반적인 패러다임을 전달한다고 믿는다.

 

 

Appendix A. Robotic Pick And Place

우리는 Robotiq 2F-85 병렬 jaw 그리퍼가 있는 UR5 로봇을 사용한다.

RealSense D415 카메라는 로봇 암에 장착되며 내장형 및 외부형 모두에 대해 정밀하게 보정됩니다.

우리는 그림 6에 grasping 파이프라인을 예시하고 그림 7에 pick과 place를 보여준다.

그림 6: Grasping pipeline. 우리는 입력 이미지(a)를 분할 모델에 공급하여 분할 이미지(b)를 생성한 다음, 이를 입력으로 취하여 조밀한 descriptor(c)를 예측한다. 우리는 의미론적 키포인트 세트(d)를 수동으로 정의하고 descriptor를 사용하여 그것들을 추적한다. 마지막으로, 우리는 키포인트의 3D 위치와 해당 그립 포즈를 도출하기 위해 스테레오 이미지 쌍에 대해 삼각 측량을 수행한다.
그림 7: 6-DoF pick and place. 우리는 우리의 로봇이 SE(3) 그립 포즈로 학습 데이터에 없는 물체를 정확하게 파악할 수 있음을 보여준다.