ViNT: A Foundation Model for Visual Navigation

ViNT: A Foundation Model for Visual Navigation

2026. 5. 26. 15:05ㆍ로봇 내비게이션

ViNT: A Foundation Model for Visual Navigation

Dhruv Shah, Ajay Sridhar, Nitish Dashora, Kyle Stachowicz, Kevin Black, Noriaki Hirose, Sergey Levine

Abstract

범용 사전 학습 모델 ("foundation models")을 통해 실무자들은 처음부터 학습하는 데 필요한 데이터보다 훨씬 작은 데이터셋으로 개별 머신 러닝 문제에 대한 일반화 가능한 솔루션을 생성할 수 있게 되었습니다.
이러한 모델은 일반적으로 감독이 약한 대규모 다양한 데이터셋에서 학습되며, 개별 다운스트림 애플리케이션에서 사용할 수 있는 것보다 훨씬 더 많은 학습 데이터를 소비합니다.
이 논문에서는 비전 기반 로봇 내비게이션에 범용 사전 학습 모델의 성공을 가져오는 것을 목표로 하는 파운데이션 모델인 Visual Navigation Transformer (ViNT)에 대해 설명합니다.
ViNT는 모든 내비게이션 데이터셋에 사용할 수 있는 일반적인 목표 달성 목표로 학습되었으며, 유연한 트랜스포머 기반 아키텍처를 사용하여 내비게이션 어포던스를 학습하고 다양한 다운스트림 내비게이션 작업에 효율적으로 적응할 수 있도록 합니다.
ViNT는 다양한 로봇 플랫폼에서 수백 시간 동안 로봇 내비게이션을 수행하는 기존 내비게이션 데이터셋을 기반으로 학습되었으며, 더 좁은 데이터셋에서 학습된 전문가 모델을 능가하는 긍정적인 전이를 보여줍니다.
ViNT는 디퓨전 기반 목표 제안을 통해 새로운 환경을 탐색할 수 있으며, 장거리 휴리스틱을 장착하면 킬로미터 규모의 내비게이션 문제를 해결할 수 있습니다.
ViNT는 또한 프롬프트 튜닝에서 영감을 받은 기술로 새로운 작업 사양에 맞게 조정할 수 있으며, 목표 인코더는 동일한 목표 토큰 공간에 내장된 다른 작업 방식 (예: GPS 웨이포인트 또는 턴-바이-턴 방향)의 인코딩으로 대체됩니다.
이러한 유연성과 다양한 하위 문제 영역을 수용할 수 있는 능력은 ViNT를 모바일 로봇 공학의 효과적인 파운데이션 모델로 확립합니다.

1 Introduction

최근 머신러닝 방법은 인터넷 규모의 데이터를 활용하여 타겟 데이터에 대한 제로샷 전송, 프롬프트 튜닝 또는 파인튜닝을 통해 새로운 작업에 적응할 수 있는 범용 "foundation" 모델을 학습함으로써 자연어 처리 [1], 시각 인식 [2–4] 및 기타 영역 [5, 6]에서 광범위한 성공을 거두었습니다 [7–10].
이 패러다임은 많은 분야에서 성공을 거두었지만, 환경, 플랫폼, 애플리케이션의 다양성 때문에 로봇 공학에 적용하기는 어렵습니다.
이 논문에서는 다음과 같은 질문을 던집니다: 모바일 로봇의 파운데이션 모델에는 무엇이 필요합니까?

이 논문에서는 로봇 파운데이션 모델을 (i) 새로운 유용한 설정 (예: 다양한 센서, 로봇 embodiments, 환경 등)에서 제로샷으로 배포할 수 있고, (ii) 선택한 다운스트림 작업 (예: 다양한 objectives, 목표 사양 유형, 행동 등)에 적응할 수 있는 사전 학습된 모델로 정의합니다.
우리는 특히 로봇이 자기중심적인 시각적 관찰만을 사용하여 환경을 탐색해야 하는 시각적 내비게이션 문제를 고려합니다.
일반적인 사전 학습된 로봇 내비게이션 모델은 다양한 내비게이션 애플리케이션을 가능하게 하고, 후속 작업에 대한 파인튜닝을 쉽게 허용하며, 다양한 환경과 로봇 플랫폼에 일반화할 수 있어야 합니다.
이러한 모델은 특정 도메인에 대한 애플리케이션을 구축할 수 있는 광범위한 내비게이션 정책을 제공해야 하며, 소량의 데이터로 파인튜닝한 후 새로운 로봇 플랫폼에 대한 기본 수준의 일반화와 기능을 제로샷으로 제공할 수 있어야 합니다.

이를 위해 Visual Navigation Transformer, 즉 ViNT를 제안합니다: 강력한 제로샷 일반화를 통한 시각적 내비게이션을 위한 cross-embodiment 파운데이션 모델.
우리는 ViNT를 카메라 이미지로 지정된 목표에 도달하도록 학습시키며, 거의 모든 모바일 로봇 데이터셋에 적용할 수 있는 매우 일반적인 사전 학습 objective를 제공합니다.
우리는 확산 모델을 사용하여 단기 목표를 제안하는 시각적 내비게이션 패러다임을 위한 새로운 탐색 알고리즘을 제안하고, 이를 통해 ViNT가 새로운 환경에서 내비게이션할 수 있음을 입증합니다.
ViNT는 새로운 로봇을 제로샷으로 제어하고, 이전에 보지 못했던 환경을 탐험하며, 실내 매핑을 수행하고, 개입 없이 킬로미터 규모의 실외 환경을 탐색할 수 있습니다.
또한, 우리는 ViNT가 소량의 데이터를 파인튜닝하여 새로운 작업 사양 모달리티 - 예: GPS 웨이포인트 또는 고수준 라우팅 명령 - 로 높은 성능을 달성할 수 있음을 보여줍니다, 이를 통해 ViNT는 다양한 내비게이션 애플리케이션의 파운데이션이 될 수 있습니다.
마지막으로, 암묵적 선호도와 동적 보행자 주변 탐색과 같은 ViNT가 보여주는 몇 가지 새로운 행동을 정성적으로 분석합니다.

우리는 ViNT가 다양한 로봇과 다양한 작업에 배포할 수 있는 범용 로봇 파운데이션 모델을 향한 한 걸음이 되기를 바라며, 다양한 모바일 로봇 응용 프로그램의 파운데이션이 되기를 바랍니다.
ViNT의 모델 가중치와 학습 및 배포 코드는 프로젝트 페이지에 공개될 예정입니다:

2 Related Work

다양한 로봇 응용 프로그램에서 대규모의 다양한 로봇 데이터셋을 통한 학습이 연구되었으며, 유사한 로봇 간의 데이터 공유는 더 일반화 가능한 모델을 위한 더 큰 학습 세트를 제공합니다 [11–13].
그러나 다양한 역학 및 카메라 구성 (예: 초점 거리, 시야, extrinsics)을 가진 모바일 로봇 공학 응용 프로그램의 경우, 현재의 접근 방식은 단일 로봇 플랫폼만을 대표하는 소규모 실제 데이터셋이나 학습된 정책을 전달하기 위해 쌍을 이룬 로봇 및 환경 모델과의 시뮬레이션을 통해 학습하는 경향이 있습니다 [14–16].
대신, 우리 논문은 여러 실제 로봇 시스템에서 수집된 데이터를 통해 내비게이션 동작을 학습하는 패러다임을 따르면서, 제로샷 또는 소량의 데이터로 다양한 다운스트림 작업에 적응할 수 있는 파운데이션 모델을 학습하는 데 중점을 둡니다 [17–19].

우리의 목표는 GPS 목표 [20], 목표 이미지 [21], 기술 조건부 운전 [22]으로 이동하는 등 다양한 하위 작업을 해결할 수 있는 효과적인 시각적 내비게이션 정책을 학습하는 것입니다.
시각적 내비게이션에 대한 광범위한 연구를 바탕으로, 우리는 환경의 공간적 표현을 유지하기 위해 위상 그래프와 저수준 제어를 위한 학습된 정책을 결합하여 사용합니다 [23–28], 학습된 휴리스틱을 사용하여 새로운 환경에서 로봇을 안내합니다 [15, 29].
하지만 이러한 작업과 달리, 우리의 목표는 이러한 각 문제에 대한 전문적인 해결책이 아닌 단일 일반 모델을 학습시켜, 단일 고용량 모델이 다양한 작업에 어떻게 적용될 수 있는지를 보여주는 것입니다.

ViNT와 가장 가까운 관련 연구는 RT-1, I2O, GNM [15, 19, 30]으로, 실제 환경에 배치된 로봇의 환경과 embodiments에 대한 광범위한 일반화를 연구합니다.
RT-1은 다양한 지침을 따르는 데 있어 인상적인 성능을 보여주지만, 우리의 초점은 소량의 데이터로 파인튜닝하여 여러 로봇에 걸쳐 단일 모델을 적용하여 다양한 작업을 해결하는 데 있습니다.
I2O 및 관련 노력 [15, 16]은 시뮬레이션에서 실제 환경으로의 인상적인 전환을 보여주지만, 우리의 목표는 알고리즘의 특정 선택과 직교한다는 점을 강조합니다:
우리는 다양한 다운스트림 작업을 효율적으로 해결할 수 있는 유능한 내비게이션 정책을 배우는 데 중점을 둡니다.
GNM [19]은 이질적인 RGB 데이터셋에서 정책 학습을 보여주지만, 제로샷 설정에서 이미지 목표를 달성하는 단일 작업에 중점을 둡니다.
대신, ViNT는 새로운 구현 방식과 다운스트림 애플리케이션의 작업에 대한 적응에 중점을 두고 단일 일반 정책을 학습하지만, 제로샷을 사용하여 큰 효과를 낼 수도 있습니다 (섹션 6.1).

3 The ViNT Model

우리 모델은 이미지 목표 내비게이션을 위해 학습되었으며, 이는 직접 활용하거나 다른 작업 사양과 함께 다운스트림 파인튜닝을 위한 사전 학습된 파운데이션이 될 수 있습니다.
이미지 목표 탐색 작업에서 로봇은 이미지 관찰 s에 의해 지정된 하위 목표 (즉, 목표에서 로봇의 관찰)로 이동하는 임무를 맡습니다.
PointGoal [31], GPS 내비게이션 또는 semantic objectives [32]와 같은 목표 지정을 위한 대체 메커니즘과 달리, 모델은 최소한의 가정으로 이미지 목표 내비게이션을 위해 학습될 수 있으며, 비디오와 액션이 포함된 모든 데이터를 활용하여 ground-truth 로컬화, 시맨틱 라벨 또는 기타 메타데이터에 대한 요구 없이도 학습할 수 있습니다.
이로 인해 다양한 로봇에서 얻은 크고 다양한 데이터셋을 사용하여 학습하는 것이 실용적이며, 이는 광범위한 일반화를 촉진합니다.

ViNT는 현재 및 과거의 시각적 관측값 o_(t-P:t)과 서브골 이미지 o_s를 입력으로 받아, (i) 서브골에 도달하는 데 필요한 시간 단계의 수 (동적 거리)와 (ii) 서브골로 이어지는 미래 액션의 길이 H를 가진 시퀀스를 예측합니다.
우리의 31M 매개변수 모델인 ViNT는 Transformer 아키텍처를 기반으로 하며 [33]에 최적화되어 있습니다: (i) 자원이 제한된 로봇에 대한 빠르고 효율적인 추론, 그리고 (ii) 다운스트림 작업을 프롬프팅하고 세밀하게 조정하는 능력.
우리는 모든 네트워크를 처음부터 다시 초기화하고, 식 1의 학습 objective를 가지고 엔드 투 엔드로 학습시킵니다.
모델 아키텍처는 그림 2에 요약되어 있으며 부록 A에 자세히 설명되어 있습니다.

그림 2: ViNT 모델 아키텍처. ViNT는 두 개의 EfficientNet 인코더 ψ, ϕ를 사용하여 트랜스포머 디코더에 입력 토큰을 생성합니다. 결과적으로 생성된 시퀀스는 완전히 연결된 네트워크를 통해 연결되어 목표까지의 거리 (시간적)와 H = 5의 미래 액 시퀀스를 예측합니다.

Tokenization:

ViNT 아키텍처 (그림 2)는 먼저 입력을 크기 d_model = 512의 임베딩으로 토큰화합니다.
ViNT는 현재 및 P = 5 과거의 시각적 관찰을 EfficientNet-B0 [34] 모델로 인코딩하여 독립적으로 토큰화합니다, 이 모델은 85 × 64 × 3 이미지를 입력으로 받아 최종 컨볼루션 레이어 [30]에서 평탄한 피쳐 벡터 ψ(o_i)를 출력합니다.

Goal fusion:

우리는 EfficientNet 인코더 ϕ를 사용하여 목표 이미지 ϕ(o_s)에서 나이브하게 피쳐를 추출하는 것이 성능 저하를 초래하며, 종종 목표를 완전히 무시한다는 것을 발견했습니다 (부록 A 참조).
우리는 이미지 기반 목표 도달 작업에 효과적인 피쳐들이 종종 상대적이라고 가정하며, 목표 자체의 절대적인 표현보다는 현재 관찰과 목표 간의 차이를 인코딩합니다.
따라서, 우리는 현재와 목표 관측을 공동으로 인코딩하기 위해 별도의 목표 융합 인코더 ϕ(o_t, o_s)을 사용합니다.
우리는 두 이미지를 채널 크기를 따라 쌓아 올린 다음, 두 번째 EfficientNet-B0 인코더를 통과시키고 평평하게 만들어 목표 토큰을 얻습니다.

Transformer:

P+2 관찰 및 목표 토큰은 위치 인코딩과 결합되어 트랜스포머 백본 f에 입력됩니다.
우리는 n_L = 4개의 멀티 헤드 어텐션 블록을 가진 디코더 전용 트랜스포머를 사용하며, 각각 n_H = 4개의 헤드와 d_FF = 2048개의 히든 유닛을 가지고 있습니다.

Training objective:

학습 중에 먼저 데이터셋 D에서 τ 궤적의 미니배치를 샘플링합니다.
그런 다음 P개의 연속 관측값을 선택하여 시간적 맥락 o_(t:t-P)을 형성하고 [l_min, l_max]에서 균일하게 샘플링된 d를 사용하여 [35] 하위 목표로 사용할 미래 관측값 o_s := o_(t+d)를 랜덤으로 선택합니다.
해당 H 미래 액션 ˆa := a_(t:t+H)와 거리 d는 레이블로 사용되며 maximum likelihood objective로 학습됩니다:

, ϕ, ψ, f는 위에서 정의한 대로이며, λ는 두 loss의 균형을 맞춥니다.

Embodiment-agnostic action space:

다양한 크기, 속도, 역학을 가진 로봇들 사이에서 단일 모델을 효과적으로 학습시키기 위해, 우리는 Shah et al. [19]을 따르고 ViNT를 위한 embodiment에 구애받지 않는 액션 공간을 선택합니다.
저수준 제어를 추상화하기 위해 ViNT는 상대 웨이포인트를 액션 공간 ˆa로 사용합니다; 로봇의 속도와 크기의 큰 차이를 설명하기 위해 로봇의 최고 속도에 따라 이러한 웨이포인트를 스케일링하여 정규화합니다.
배포 중에는 로봇 전용 컨트롤러를 사용하여 저수준 제어를 사용하여 이러한 웨이포인트를 비정규화하고 추적합니다.

Training data:

우리는 다양한 동적 특성, 카메라 매개변수 및 행동을 가진 다양한 환경과 로봇 플랫폼에서 발생하는 이질적인 내비게이션 궤적의 대규모 데이터셋을 사용하여 ViNT를 학습합니다.
학습 데이터셋에는 기존 데이터셋에서 전적으로 소스를 얻은 100시간 이상의 실제 궤적이 포함되어 있으며, 속도와 역학이 다양한 8개의 서로 다른 로봇 플랫폼에 걸쳐 있습니다.
데이터셋에 대한 자세한 내용은 부록 C를 참조하세요.

Deployment:

ViNT는 내장 카메라와 저수준 속도 추적 컨트롤러가 장착된 모든 로봇에서 실행할 수 있습니다.
시간 t에서 하위 목표 이미지 s가 주어졌을 때, 우리는 모델을 4Hz로 실행하고 PD 컨트롤러를 사용하여 예측된 웨이포인트 ˆa를 후퇴 지평선 방식으로 추적합니다.

4 Long-Horizon Navigation with ViNT

ViNT가 학습한 목표 조건 정책은 내비게이션 어포던스와 장애물에 대한 일반적인 이해를 담고 있지만, 그 자체로는 적용 가능성이 제한적입니다.
많은 실용적인 작업은 목표 이미지로 정의되지 않거나 ViNT가 직접 지원하는 것보다 훨씬 긴 기간이 필요합니다.
우리는 ViNT를 위상 그래프로 형성된 에피소드 메모리와 결합하여 여러 다운스트림 애플리케이션에 적용합니다, 이 메모리는 먼 위치에 도달할 수 있는 짧은 지평선 하위 목표를 제공합니다.

이전에는 볼 수 없었던 환경에서 탐색적 하위 목표 제안을 통해 그래프 기반 플래너를 더욱 강화할 수 있으며, 이를 통해 ViNT는 새로운 환경을 탐색하고 목표로 가는 길을 발견할 수 있습니다.
우리는 여러 제안 메커니즘을 고려하여 현재 관찰을 조건으로 다양한 미래 하위 목표 후보를 샘플링하는 이미지 디퓨전 모델을 통해 최대 성능을 달성한다는 것을 발견했습니다.

이러한 하위 목표는 목표 지향 휴리스틱으로 점수를 매겨 physical A∗ search [29]과 유사한 프로세스를 사용하여 목표를 향해 나아가는 최고의 하위 목표를 식별합니다.
환경에서의 과거 관측과 미개척 경계는 위상 그래프에 노드로 저장되며, 이들의 연결성은 ViNT가 예측한 거리에 따라 결정됩니다.
탐사 중에는 로봇이 환경을 탐험할 때 이 위상 그래프를 즉석에서 작성합니다.
나중에 배포할 때는 환경에서 임의의 목표에 대한 지름길을 찾는 데 사용할 수 있습니다.
먼저 하위 목표 후보 위에 계획을 세우는 고수준 알고리즘을 설명한 다음, 이러한 하위 목표 후보를 얻는 과정에 대해 논의합니다.

4.1 High-Level Planning and Exploration

계획을 위해 ViNT가 사용할 수 있는 하위 목표 후보 O_S_I ∈ S에 접근할 수 있다고 가정해 보겠습니다.
우리는 이러한 하위 목표 후보를 새로운 환경에서 목표 지향적 탐색을 위한 탐색 프레임워크에 통합합니다, 사용자는 임의로 멀리 떨어져 있을 수 있는 높은 수준의 목표 G를 제공합니다.
우리는 주로 이전 연구[29]를 따르지만, 학습된 모델을 ViNT와 디퓨전 모델로 교체합니다.
여기에서 시스템을 요약하고 부록 B.3에서 보다 완전한 논의를 제공합니다.

우리는 온라인에서 위상 그래프 M을 구성하여 에피소드 메모리 역할을 합니다, 각 노드는 개별 하위 목표 관찰로 사용되며, 엣지는 두 하위 목표 사이의 경로를 나타내며, 로봇이 경로를 선택하거나 모델이 다른 노드에서 도달할 수 있는 하위 목표를 예측할 때 추가됩니다.
우리는 목표 지향적 탐구를 탐색 문제로 설정합니다, 이 문제에서 로봇은 목표를 탐색하면서 점진적으로 M을 구축합니다.
목표를 향해 탐색을 안내하기 위해 로봇은 목표 지향 휴리스틱 h(o_t, o_s_i, G,M,C)를 사용하여 추가 컨텍스트 C가 주어졌을 때 목표에 도달할 가능성에 따라 하위 목표 후보를 점수화합니다 — 예를 들어, 평면도 또는 위성 이미지 [15, 29].
이 휴리스틱은 기하학적 (예: 유클리드 거리)이거나 학습된 것일 수 있습니다 (부록 B.3 참조).

그림 3: ViNT를 사용한 보이지 않는 환경에서의 장거리 내비게이션. 우리는 토폴로지 그래프 기반 플래너를 사용하여 물리적 검색을 통해 환경을 탐색합니다. 이미지-투-이미지 디퓨전 모델은 ViNT (노란색)를 사용하여 공간적으로 기반을 두고 목표 지향 휴리스틱 h를 사용하여 점수를 매기는 다양한 탐색 대상을 제안합니다. 하위 목표는 위상 그래프 M에 추가되고 ViNT 정책을 사용하여 실행됩니다.

새로운 환경에 배치하는 동안 로봇은 디퓨전 모델을 사용하여 o_t에서 하위 목표 후보 S를 생성하고, ViNT를 사용하여 공간적으로 이를 분쇄한 다음 목표 지향 휴리스틱 h(.)를 사용하여 점수를 매깁니다.
그런 다음 로봇은 A*-like 플래너를 사용하여 이 휴리스틱에 따라 최적의 하위 목표 o_s∗를 선택하고, 이를 M에 추가한 다음 ViNT를 사용하여 이를 향해 주행합니다 (그림 3).
이후 동일한 환경에 배치하는 동안 로봇은 M을 사용하여 환경에서 임의의 목표에 대한 지름길을 찾을 수 있습니다.
플래너와 휴리스틱에 대한 자세한 내용은 부록 B.3을 참조하세요.
실험에서 우리는 두 가지 후보 탐색 휴리스틱을 고려합니다: 로봇과 목표의 위치를 기반으로 한 기하학적 휴리스틱과 위성 이미지 형태의 추가 컨텍스트를 기반으로 한 학습된 휴리스틱.

4.2 Subgoal Generation with Diffusion

위에서 제시한 물리적 검색 알고리즘은 로봇 o_t의 현재 관찰을 통해 다양하고 도달 가능한 하위 목표 후보 S를 제안하는 능력에 의존합니다.
이는 RGB 이미지의 고차원 멀티모달 분포에서 샘플링하는 것과 같습니다.

이를 위해 우리는 ViNT 학습 데이터를 기반으로 조건부 생성 모델 g(o_s_i |o_t)를 학습시킵니다.
구체적으로, 우리는 RGB 이미지와 같은 고차원 공간에서 다양한 샘플을 생성하는 데 적합한 생성 모델 클래스인 이미지 간 디퓨전 모델 [38, 39]을 적용합니다.
우리는 ViNT 데이터셋 (부록 B.2)의 궤적에서 랜덤으로 샘플링된 미래 관측값을 사용하여 모델을 학습시키고, 추론 시점에 모델에서 K개의 하위 목표 후보 S = {s_1, . . . , s_K}을 샘플링합니다.

그림 6: VizBot (위) 및 LoCoBot (아래) 로봇 플랫폼을 사용하여 어려운 실내 환경에서 ViNT 탐색 롤아웃을 시각화합니다. 하위 목표 후보를 공간적으로 접지하여 얻은 향후 액션 샘플 ˆa는 노란색으로 표시되며, 최적의 액은 파란색으로 표시됩니다.

그러나 이러한 하위 목표 세대는 공간적으로 근거가 없습니다: 그들은 o_t와 실행 가능한 관계를 포함하지 않습니다.
우리는 ViNT를 사용하여 이러한 후보들을 분쇄하여 시간 거리 d(s_i, o_t)와 액션 롤아웃 a(s_i, o_t)를 계산하고, 그림 6과 같이 일련의 그라운드된 하위 목표를 도출했습니다.
디퓨전 모델에 의해 생성된 샘플이 반드시 실제 관측값과 일치하는 것은 아니지만 (그림 3 참조), o_t의 상대적 특성을 충분히 보존하여 그럴듯하게 만들고, ViNT가 생성된 하위 목표에 잘 일반화된다는 것을 발견했습니다 (그림 3 참조).
우리는 섹션 6.5에서 이 디퓨전 모델의 동작을 추가로 연구합니다.

5 ViNT: A Foundation Model For Downstream Tasks

이미지 목표 조건 모델로서의 핵심 기능 외에도, 우리는 ViNT가 학습한 강력한 탐색 우선순위가 이미지 목표로의 탐색을 넘어, 새로운 환경에서 모델의 일부 또는 전부를 파인튜닝하거나 새로운 데이터 양식을 통해 다양한 다운스트림 작업에 적용될 수 있음을 보여줍니다.

Full model fine-tuning:

ViNT는 새로운 환경과 로봇에 강력한 제로샷 일반화를 보여주지만, 동일한 objective를 가지고 있지만 작업 데이터를 사용하여 전체 모델을 파인튜닝함으로써 작업 성능을 더욱 향상시킬 수 있습니다.
이를 통해 ViNT는 새로운 기술을 빠르게 학습하여 지속적으로 개선되는 모델을 형성할 수 있습니다.

ViNT는 최소 1시간의 내비게이션 데이터만으로 새로운 환경과 embodiments을 마스터할 수 있으며, 처음부터 재학습하지 않고도 원래 모델의 기능을 새로운 설정으로 전환할 수 있습니다.

그림 4: 새로운 조정 가능한 목표 토큰을 사용하여 다양한 목표에 ViNT를 적응시키기.

Adapting to new modalities:

이미지 목표를 지정하는 것은 일반적인 사전 학습 objective를 제공하지만, ViNT는 원하는 목표 모달리티에서 ViNT 목표 토큰 [10]으로 "soft prompt" 매핑을 학습함으로써 다른 일반적인 형태의 목표 지정에 쉽게 적응할 수 있습니다.
우리는 공유 토큰 공간에 투영된 멀티모달 입력에 어텐드하는 트랜스포머 아키텍처의 능력을 기반으로 합니다 [40, 41].
새로운 모달리티 (예: 2D 좌표 또는 고수준 라우팅 방향 [22])에서 서브골 σ가 주어지면, 그림 4와 같이 서브골을 이 공유 토큰 공간에 매핑하는 작은 신경망 ˜ϕ를 학습시키고 ϕ(o_t, o_s)를 대체합니다.
수정된 objective를 사용하여 ViNT를 작업 중 데이터 D_F로 파인튜닝합니다:

이를 통해 최소한의 데이터로 새로운 작업에 적응하는 동시에 ViNT의 성능과 일반화를 활용할 수 있습니다.
부록 B.4에는 추가 세부 사항이 포함되어 있습니다.

6 Real-world Evaluation

우리는 학습 데이터에 없는 드론, 네 발 달린 로봇, 그리고 다른 두 개의 새로운 로봇을 포함한 다섯 가지 로봇 플랫폼에 ViNT 기반 모델을 배포했습니다.
우리는 다음 질문들에 답하기 위해 실험을 설계했습니다:

Q1. ViNT는 이전에 보지 못한 환경을 효율적으로 탐색하고 휴리스틱을 통합할 수 있습니까?
Q2. ViNT는 새로운 로봇, 환경, 장애물에 일반화되나요?
Q3. 분포 외 환경에서 성능을 향상시키기 위해 ViNT를 파인튜닝할 수 있습니까?
Q4. ViNT 정책을 새로운 작업 사양과 양식에 맞게 조정할 수 있습니까?

학습 데이터와 평가에 사용된 플랫폼에 대한 자세한 내용은 부록 D를 참조하세요.
우리는 로봇과 데이터셋 전반에 걸친 센서의 신중한 시스템 식별이나 균질화를 수행하지 않았습니다; 모든 데이터셋은 원래 소스에서 얻은 대로 사용되며, 모든 로봇 플랫폼에는 자체 저수준 컨트롤러와 온보드 스택이 있습니다.

그림 5: ViNT는 실내 및 실외 환경에서 다양한 목표를 달성하며, 여기서 시각화된 시작 (주황색)과 목표 (녹색) 사이의 궤적을 예시합니다. 목표 지향 휴리스틱 (선택적으로 위성 이미지에 의해 안내됨)을 사용하면 목표 도달 행동을 달성할 수 있으며, 이 휴리스틱을 제거하면 작업 공간을 최대한 커버할 수 있는 무방향 탐사가 가능합니다.

6.1 Navigation Performance

Q1을 이해하기 위해, 우리는 학습 데이터에서 이전에 볼 수 없었던 다양한 도전적인 실내외 환경에서 전체 그래프 기반 내비게이션 파이프라인 (섹션 4.1)을 배포합니다.
우리는 두 가지 어려운 작업에서 ViNT의 성능을 평가합니다: (i) 목표는 위치가 알려지지 않은 목표를 찾기 위해 환경을 최대한 탐색하는 것이며, (ii) GPS 좌표나 위성 이미지와 같은 맥락 정보를 사용하여 목표에 도달하는 것을 목표로 하는 유도 탐사입니다 (작업 예시는 그림 5 참조).
우리는 ViNT를 다양한 베이스라인과 비교합니다, 여기에는 모방 또는 RL [15, 42]로 학습된 종단 간 정책, 탐색을 위해 VIB를 사용한 이전 그래프 기반 접근 방식 [36], 그리고 디퓨전 모델로 하위 목표를 생성하는 대신 목표로 사용하기 위해 학습 세트에서 랜덤 이미지를 샘플링하는 ViNT의 제거가 포함됩니다.
실험 설정에 대한 자세한 내용은 부록 E.1을 참조하십시오.

표 1: ViNT와 우리의 물리적 검색 알고리즘이 결합된 ViNT는 실내 및 실외 환경에서 무방향 목표 도달 작업에서 일관되게 베이스라인을 능가합니다 (왼쪽). 디퓨전 하위 목표 제안을 효과적으로 계획함으로써 ViNT는 목표를 향한 효율적인 경로를 찾을 수 있습니다. 다른 베이스라인들은 실내 평면도 (오른쪽)에 겹쳐진 궤적을 통해 넓은 실내 환경을 탐색하는 데 어려움을 겪습니다.

커버리지 탐색 작업의 경우, 에이전트는 미지의 환경에 배치되어 추가적인 단서 없이 목표를 최대한 찾아 환경을 탐색하는 임무를 수행합니다.
표 1은 실내 및 실외 환경에서 이 작업의 성공률을 요약한 것입니다.
종단 간 베이스라인은 주변 환경과의 충돌을 피하지만 새로운 영역을 탐색하지 못하고 환경의 작은 영역에 갇히는 경우가 많다는 사실을 발견했습니다.
그래프 기반 방법은 검색 목표에 대한 커버리지를 명시적으로 추론하여 이러한 함정을 피하며, 이는 ViNT의 높은 성공률로 이어집니다.
정성적 분석 (표 1-오른쪽)에 따르면 디퓨전을 사용하여 제안된 다양한 하위 목표를 계획하는 것이 더 효율적인 경로로 이어지는 반면, 다른 베이스라인은 탐색하는 동안 구불구불한 경로를 택합니다.
그림 5는 어려운 실내 환경에서 커버리지 탐색 작업의 자기 중심적인 전개를 보여줍니다.
ViNT-R은 유효한 하위 목표 제안이 부족함에도 불구하고 우수한 성과를 거두었습니다.

이 관찰에 대한 논의는 섹션 6.5를 참조하세요.

표 2: ViNT는 2D 목표 위치 및 위성 이미지와 같은 목표 지향 휴리스틱을 효과적으로 활용하여 개입 없이 새로운 킬로미터 규모의 환경을 성공적으로 탐색할 수 있습니다.

이 관찰은 로봇이 이전에 보지 못한 환경에서 2D 목표 위치에 도달하는 임무를 수행하는 위치 유도 내비게이션 작업 (표 2)으로 확장됩니다.
로봇은 실내 휠 주행 거리 측정 (실내), GPS 좌표 (실외) 또는 수동 위성 이미지 (실외)에 접근하여 위치를 추적하고 목표 지향 휴리스틱으로 사용할 수 있습니다.
이전 SOTA 기술 [29]의 베이스라인과 비교했을 때, 디퓨전 모델의 다양한 하위 목표 예측과 그래프 기반 점수 체계가 결합되어 더 높은 성공률과 충돌 없이 이동하는 거리가 더 길어진다는 것을 발견했습니다.
ViNT는 또한 대규모 사전 학습을 통해 학습된 암묵적인 어포던스와 선호도 덕분에 혼잡한 실내 공간에서 충돌을 피하는 데 더 효과적이며, 야외 공간 (SPL 메트릭으로 포착)에서 목표를 달성하는 데 더 효율적입니다 (섹션 6.5의 추가 분석 참조).
ViNT는 또한 더 적은 개입이 필요하며, 이는 관찰된 충돌 전에 더 먼 거리에서 관찰됩니다.
그림 7은 위성 이미지를 컨텍스트로 사용하여 ViNT가 있는 야외 환경에서 물리적 검색을 실행하는 모습을 보여줍니다 (그림 5 참조).

그림 7: ViNT를 이용한 위성 유도 물리 검색. 위성 이미지 기반 휴리스틱을 사용하여 시작 (주황색)부터 목표 (녹색)까지 765m 규모의 ViNT 롤아웃을 시각화했습니다. 궤적에서 다섯 개의 인스턴스에 대한 하위 목표 후보를 공간적으로 접지하여 얻은 미래 액션 샘플 ˆa는 노란색으로 표시됩니다. ∗ 같은 플래너는 휴리스틱을 사용하여 최고의 하위 목표 (파란색으로 표시된 해당 ˆa)를 선택하여 로봇을 목표로 안내합니다.

6.2 Zero-Shot Generalization: a Single Policy to Drive Any Robot

Q2에 대응하기 위해, 우리는 무방향 탐사 작업에 대한 파인튜닝 없이 네 가지 다른 로봇 플랫폼에 동일한 사전 학습된 ViNT 정책을 배포합니다.
우리는 복잡한 환경에서 임의로 멀리 떨어진 목표에 도달하기 위한 대리 변수로서 로봇의 시작 위치로부터의 최대 변위 (미터 단위)를 표 3에 보고합니다.
특히, ViNT는 학습 중에 나타나지 않는 Go 1 사족보행을 제어하기 위해 제로 샷을 성공적으로 일반화합니다.

표 3: 커버리지 작업에서 ViNT는 100미터 (개입 없이 최대 변위 보고) 동안 다양한 로봇을 구동하여 단일 로봇 데이터셋에서 학습된 저용량 모델 (GMM)과 전문가 모델을 능가합니다.

우리는 모든 결합된 데이터셋과 로봇에서 학습된 ViNT를 최고의 단일 로봇 베이스라인 — 목표 환경의 데이터만을 사용하여 학습된 모델 — 및 모든 데이터셋에서 학습된 GNM 모델 [19]과 비교합니다.
우리는 로봇 embodiments에 걸쳐 학습된 정책이 우리가 연구한 모든 embodiments에 걸쳐 단일 로봇 모델과 일치할 뿐만 아니라 우수한 성능을 발휘할 수 있음을 관찰했습니다.
또한 ViNT의 용량이 클수록 작은 GNM 모델에 비해 일반화가 개선된다는 것을 발견했으며, 특히 학습 데이터셋에 나타나지 않는 로봇 (예: Go 1)에서 더욱 그렇습니다.
결정적으로, 우리는 ViNT가 도메인 내 로봇 (Vizbot)에 대해 긍정적인 전이를 보여주며, 목표 로봇과 설정에서만 학습된 전문가 모델을 크게 능가한다는 것을 발견했습니다, 이는 더 작은 모델에서는 나타나지 않는 새로운 현상입니다.
이는 모델이 파운데이션 모델의 핵심 속성인 성능을 향상시키기 위해 작업 간에 일반화된다는 것을 나타냅니다.

6.3 Broader Generalization via Fine-Tuning

Q3에 답하기 위해, 우리는 저데이터 영역에서 ViNT를 파인튜닝하는 문제를 고려합니다.
이 설정에서 전체 ViNT 모델은 n_ep = 5 epochs에 비해 학습률이 1×10-4로 감소된 파인튜닝된 엔드투엔드 모델입니다 (섹션 5).
소량의 온태스크 데이터 (최대 5시간, 1~2시간의 데이터에서 성공적인 결과를 얻을 수 있음)에 대한 접근을 가정하고, ViNT를 사용하여 이 데이터의 하위 집합에서 학습의 효율성을 연구합니다.
우리는 CARLA 시뮬레이터에서 자율 주행 작업을 위한 파인튜닝을 연구하는 데 두 가지 이유가 있습니다: (i) 시뮬레이션된 CARLA 환경은 ViNT를 학습하는 데 사용되는 실제 데이터와 지각적으로 구별되며 (그림 8), (ii) 도로 주행 작업에는 실제 학습 데이터에는 없는 차선 주행 및 부드러운 회전과 같은 매우 구체적인 시맨틱 행동이 필요합니다.
우리는 모델에 인코딩된 내비게이션 사전 정보를 효과적으로 활용하여 소량의 데이터 (1시간 미만)에서 ViNT를 파인튜닝하여 강력한 성능을 달성할 수 있음을 보여줍니다.

그림 8: CARLA 테스트 환경 (위쪽)과 라우팅 작업에 대한 고급 라우팅 명령을 보여주는 조감도.

우리는 ViNT 백본을 여러 대안과 비교합니다, 여기에는 지도 학습으로 학습된 시각적 표현 [2], 비지도 학습의 objectives [7, 43, 44], 그리고 embodiment에 구애받지 않는 탐색 정책 [19]이 포함됩니다.
모든 모델에 대해 동일한 파인튜닝 데이터와 절차를 사용합니다 (섹션 5 참조); 자세한 내용은 부록 E.3을 참조하십시오.

표 3: 왼쪽: ViNT는 종단 간 파인튜닝 (이미지) 또는 다운스트림 작업 (포지션 및 라우팅)에 적응할 수 있으며, 처음부터 시작하는 학습 및 기타 사전 학습 방법보다 우수합니다. 오른쪽: ViNT는 내비게이션 어포던스를 새로운 작업으로 전환할 수 있으며 (파인튜닝 없이 40%의 성공률), 1시간 미만의 파인튜닝 데이터로 작업을 효율적으로 마스터할 수 있습니다 (80%의 성공률). ViNT 파인튜닝 (녹색)은 5배 데이터 (주황색)로 학습된 단일 도메인 모델보다 성능이 뛰어납니다.

표 3은 우리의 연구 결과를 요약한 것입니다.
목표를 향한 부분적인 진전을 "success"으로 보고하고, 에이전트가 주행 차선 내에서 주행하는 궤적의 비율을 "in lane"으로 보고합니다.
사전 학습된 시각적 표현은 완전히 처음부터 학습된 정책에 비해 작업 성능을 크게 향상시키지만, 학습된 정책은 잦은 충돌과 성능 저하로 어려움을 겪는 것을 관찰할 수 있습니다.
GNM [19]은 강력한 탐색 능력 덕분에 이러한 베이스라인을 능가하지만, 저용량 모델은 작업에 완전히 일반화할 수 없습니다.
반면에 ViNT는 강력한 성능을 달성하여 차선책보다 훨씬 높은 성공률을 달성할 수 있습니다.
데이터셋 크기를 파인튜닝한 결과 (표 3-오른쪽), ViNT는 최소 1시간의 파인튜닝 데이터로도 강력한 성능을 달성하며, 데이터가 거의 없는 새로운 환경에 일반화할 수 있는 능력을 입증했습니다.

6.4 Adapting ViNT to Downstream Tasks

Q4를 평가하기 위해, 우리는 ViNT가 하위 목표 이미지를 넘어서는 목표 모달리티를 고려함으로써 더 넓은 범위의 하위 작업을 위한 파운데이션 모델로 사용될 수 있는지 조사합니다 (섹션 6.4 참조).
우리는 동일한 CARLA 운전 작업을 고려하지만, 두 가지 다른 고급 계획자를 고려합니다: (i) GPS 웨이포인트 시퀀스를 명령하는 위치 기반 플래너, (ii) 정책에 대한 고급 내비게이션 방향 (왼쪽/오른쪽/직선)을 명령하는 Google 지도와 유사한 기능을 가진 라우팅 플래너 [22].
우리는 ViNT가 학습한 사전 학습된 탐색 사전 정보를 동일한 작업 데이터를 사용하여 다운스트림 작업에 적응한 사전 학습된 시각적 표현 및 정책에 해당하는 베이스라인과 비교합니다 (자세한 내용은 부록 E.3 참조).

표 3은 두 가지 작업에 대한 결과를 요약한 것입니다.
우리는 ImageNet이나 VC-1과 같은 일반적인 사전 학습된 시각적 표현만으로는 어려운 다운스트림 작업에 대한 탐색적 어포던스를 추출하기에 충분하지 않다는 것을 다시 한 번 발견했으며, 이는 효과적인 일반화가 일반적인 시각적 표현보다 더 많은 것을 필요로 한다는 것을 시사합니다 [44, 45].
또한 파인튜닝과 달리 GNM [19]은 적응 작업에 어려움을 겪고 있으며, 이는 ViNT의 아키텍처와 용량 증가가 광범위한 일반화와 적응에 필수적임을 시사합니다.
ViNT는 두 작업 모두에서 강력한 성능을 달성하여 다운스트림 작업의 파운데이션 모델로 사용할 수 있는 능력을 입증합니다.

6.5 Emergent Behaviors

대규모 머신 러닝의 가장 흥미로운 측면 중 하나는 다양한 데이터 세트에서 대규모 모델을 학습할 때 발생하는 새로운 행동의 잠재력입니다.
ViNT (식 1)에서 사용하는 간단한 자가 지도 학습 목표에도 불구하고, 여러 가지 새로운 행동을 보여줍니다, 이 섹션에서는 이를 질적으로 설명하고 프로젝트 페이지와 보충 동영상에 예시로 제시합니다:

Implicit navigation affordances:

이상적으로는 로봇 파운데이션 모델이 바람직한 "default" 행동을 보이는 동시에, 필요에 따라 다운스트림 애플리케이션이 이 행동을 적응할 수 있는 메커니즘을 제공하고자 합니다.
우리는 ViNT가 충돌 회피와 같은 특성을 가지고 있다는 것을 발견했습니다.
증거 중 하나는 표 1의 ViNT-R 베이스라인을 통해 정량적으로 연구된 로봇이 도달할 수 없는 위치에서 랜덤으로 하위 목표를 제공했을 때의 행동입니다.
이 경우, 하위 목표가 유효하지 않고 분포에서 벗어났음에도 불구하고 (ViNT는 하위 목표에 도달하도록만 학습되었습니다), ViNT는 환경 탐색에 성공하여 80%의 시간 동안 목표에 도달하여 모든 베이스라인을 능가합니다.
이는 ViNT가 무의미한 목표 (즉, 위의 "default")가 제공될 때 충돌 없는 행동을 취하면서도 도달 가능한 하위 목표를 따르려고 시도한다는 것을 시사합니다.

그림 9: 디퓨전 모델의 샘플은 유효하지 않은 하위 목표일 수 있지만, ViNT는 이러한 제안에 대해 견고합니다.

실제로 디퓨전 모델을 추가한 "full" 버전의 방법이 더 나은 성능을 발휘하지만, 이 모델에서 생성된 하위 목표는 종종 많은 아티팩트와 함께 품질이 낮고 실제 도달 가능한 상태와 일치하지 않는 경우가 있습니다 (그림 9).
그럼에도 불구하고 이러한 "default" 동작 덕분에 ViNT는 나쁜 목표는 무시하면서 유효한 하위 목표를 성공적으로 활용할 수 있으며, 이전에 보지 못한 환경에서도 충돌 없는 내비게이션을 시연할 수 있습니다.

그림 10: ViNT는 포장 도로 (왼쪽)와 복도 (오른쪽)를 따라가는 것을 암묵적으로 선호하는 것으로 나타났습니다.

Implicit navigation preferences:

ViNT가 보여주는 또 다른 흥미로운 특성은 그림 10과 보충 영상에서 보여주듯이 포장된 도로 (야외)를 따라가고 복도 (실내) 한가운데에서 부드럽게 운전하는 암묵적인 선호도입니다.
이는 특히 흥미로운 점입니다, 왜냐하면 많은 사전 학습 데이터셋이 최적이 아닌 무거운 궤적을 포함하고 있으며, ViNT가 다양한 학습 행동으로부터 "good" 디폴트 동작을 학습할 수 있음을 시사하기 때문입니다.
이러한 선호도는 ViNT가 다른 베이스라인이 랜덤으로 환경을 탐색하는 경향이 있는 이전에 보지 못한 환경을 효율적으로 탐색하는 데 도움이 됩니다 (오른쪽 표 1 참조).

그림 11: 역동적인 보행자에 대한 견고성. ViNT는 간단한 자가 지도 학습 목표에도 불구하고 역동적인 보행자 무리를 성공적으로 탐색하여 objective를 달성할 수 있습니다.

Robustness to dynamic pedestrians:

ViNT는 단순한 자가 지도 학습 objective를 가진 오프라인 데이터로만 학습되지만, 충돌 회피 기능이 동적 장애물과 보행자에게 일반화된다는 것을 발견했습니다.
그림 11은 로봇이 두 명의 보행자 뒤에 있는 목표로 이동하는 임무를 맡은 사례를 보여줍니다.

ViNT는 보행자를 피하고 원래 경로로 복구하는 액션을 선택하여 목표에 성공적으로 도달합니다.

7 Discussion

우리는 다양한 로봇의 다양한 데이터를 기반으로 일반적인 이미지 목표 내비게이션 작업을 위해 학습된 ViNT라는 로봇 기반 모델을 소개했습니다, 이 모델은 다양한 내비게이션 기능을 지원할 수 있습니다.
ViNT는 위상 그래프 계획 방법과 결합하여 장거리 내비게이션에 배포할 수 있으며, 디퓨전 모델에서 제안한 목표를 가지고 새로운 환경을 탐색하고, 자율 주행과 같은 새로운 도메인에 파인튜닝되며, GPS 좌표나 턴-바이-턴 라우팅 명령과 같은 새로운 작업 지정 방법에 적응할 수 있습니다.
우리의 결과는 ViNT가 로봇과 환경 전반에 걸쳐 성공적으로 일반화할 수 있고, 이전 내비게이션 모델을 능가하며, 새로운 도메인과 작업에 효율적으로 파인튜닝될 수 있으며, 동적 보행자를 탐색하는 것과 같은 유망한 출현 행동을 보여준다는 것을 보여줍니다.

Limitations and Future Work

많은 대규모 모델과 마찬가지로, ViNT는 추론 시간에 더 많은 계산 부담을 수반하며, 이는 quadcopters와 같은 전력 제약 플랫폼에 도전 과제를 제기할 수 있습니다.
우리의 설계는 효율적인 추론을 가능하게 하는 것을 목표로 하지만, 우리의 트랜스포머 기반 모델은 단순한 피드포워드 컨볼루션 네트워크보다 배포 시점에 실행하는 데 여전히 상당히 비용이 많이 듭니다.
또한, ViNT는 실험에서 로봇 전반에 걸쳐 효과적으로 일반화되지만 어느 정도의 구조적 유사성을 가정합니다, 예를 들어, quadcopter의 고도를 제어하거나 동작 표현의 다른 변경 사항을 처리하거나 LIDAR와 같은 새로운 센서를 수용할 수 없습니다.
향후 연구에서 다양한 모달리티와 액션 공간에 대한 학습을 받으면 이 기능을 활용할 수 있습니다.
더 넓게 보면, ViNT는 범용 및 광범위하게 재사용 가능한 내비게이션 기반 모델의 가능성을 보여주지만, 범용 크로스 로봇 모델에 대한 가장 흥미로운 개발은 여전히 진행 중이라고 생각합니다:
점점 더 큰 멀티 로봇 데이터셋이 조립됨에 따라, 아마도 점점 더 강력해지고 범용적인 로봇 모델을 통해 더욱 광범위한 일반화와 유연한 사양을 보게 될 것입니다.
ViNT가 이 방향으로 나아가는 한 걸음이 되기를 바랍니다.

'로봇 내비게이션' 카테고리의 다른 글

Navigation World Models (0)	2025.06.25
NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration (ICRA 2024 Best Paper) (0)	2025.04.14
DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras (0)	2022.02.16

프린이씨롯메

프린이씨롯메

태그

최근글

댓글

공지사항

아카이브