2026. 6. 5. 11:25ㆍ로봇 내비게이션
GNM: A General Navigation Model to Drive Any Robot
UC Berkeley, Toyota Motor North America
Abstract
학습은 비전 기반 탐색을 위한 강력한 도구를 제공하지만, 학습 기반 정책의 기능은 제한된 학습 데이터로 인해 제약을 받습니다.
다양한 종류의 로봇을 포함하여 모든 이용 가능한 소스의 데이터를 결합할 수 있다면, 더 강력한 내비게이션 모델을 학습시킬 수 있을 것입니다.
이 논문에서는 비전 기반 내비게이션을 위한 일반적인 목표 조건 모델이 다양하지만 구조적으로 유사한 로봇에서 얻은 데이터를 바탕으로 어떻게 학습될 수 있는지 연구하고, 환경과 embodiments에 걸쳐 광범위한 일반화를 가능하게 합니다.
우리는 로봇 간의 효과적인 데이터 공유를 위해 필요한 설계 결정을 분석합니다, 여기에는 시간적 맥락과 표준화된 액션 공간의 사용이 포함됩니다, 또한, 이질적인 데이터셋에서 학습된 omnipolicy가 단일 데이터셋에서 학습된 정책보다 우수하다는 것을 입증합니다.
우리는 6개의 서로 다른 로봇으로부터 60시간의 내비게이션 경로를 큐레이팅하고, 학습된 GNM을 작동이 덜 된 쿼드로터를 포함한 다양한 새로운 로봇에 배치합니다.
우리는 다양한 데이터에 대한 학습이 감지 및 작동 저하에 대한 견고성으로 이어진다는 것을 발견했습니다.
광범위한 일반화 기능을 갖춘 사전 학습된 내비게이션 모델을 사용하면 앞으로 새로운 로봇에서 애플리케이션을 부트스트랩할 수 있으며, GNM이 그 방향으로 나아가는 한 걸음이 되기를 바랍니다.
Ⅰ. Introduction
머신러닝 방법은 인터넷 규모의 데이터를 활용하여 자연어 처리 [1], 시각 인식 [2–4] 및 기타 영역 [5, 6]에서 실제 적용 가능성을 통해 광범위한 일반화를 가능하게 했습니다.
이러한 일반화는 일반적으로 다양한 데이터셋에서 일반적인 패턴을 학습해야 하며, 일반적으로 한 번 수집한 후 다양한 용도로 재사용됩니다.
이러한 대규모 모델은 또한 더 넓고, 더 크고, 더 일반적인 데이터셋에서 학습한 표현을 재사용하여 새로운 작업에 적응할 수 있는 능력을 지원합니다, 예를 들어, 제로샷 전송 [7–9]이나 타겟 도메인 데이터에 대한 파인튜닝이 포함됩니다.
이 패러다임은 매우 성공적이었지만, 연구자마다 환경과 플랫폼이 매우 다양하기 때문에 로봇 공학에 적용하기는 어렵습니다.
엔드투엔드로 학습된 제어 정책은 일반적으로 각 로봇 플랫폼에 대해 별도의 데이터를 수집해야 하므로, 모든 연구자가 자신의 로봇 전용 데이터셋과 정책을 사용하여 작업하는 "fragmentation"가 진행 중입니다, 이로 인해 충분히 큰 데이터셋을 축적하는 것이 불가능해집니다.
더 일반적이고 재사용 가능한 크로스 로봇 데이터셋에서 모델을 학습시켜 이 문제를 극복할 수 있을까요?
우리는 이 질문을 시각적 내비게이션의 맥락에서 연구합니다, 로봇 간의 이질성에는 다양한 카메라 하드웨어, 관점, 동역학, 더 넓게는 embodiments가 포함될 수 있지만, 이러한 차이와 상관없이 전체적인 내비게이션 objective가 유사하게 보이는 경우가 있습니다.
바퀴 달린 로봇, 네 발 달린 로봇, 또는 드론은 모두 동일한 추상적인 objective를 가지고 있습니다: 환경을 탐험하고, 목표로 가는 길을 계획하며, 충돌을 피하는 것입니다.
로봇 전반에 걸친 이러한 공유 추상화를 활용하고 대규모 데이터에서 일반적인 내비게이션 omnipolicy를 학습하면 새로운 환경, 보이지 않는 센서 매개변수 (예: 카메라 intrinsics 및 extrinsics), 새로운 로봇 구성에 대한 광범위한 일반화가 가능할 수 있습니다.
이 논문에서는 집계된 멀티로봇 데이터셋에서 embodiment에 구애받지 않는 general navigation model (GMM)을 학습하여 이러한 종류의 데이터 공유를 향한 한 걸음을 내딛는 것을 제안합니다.
우리 연구의 주요 기여는 멀티로봇 데이터셋에서 일반적인 omnipolicy를 학습하기 위한 프레임워크이며, 이러한 omnipolicy가 이질적인 데이터셋에서 효과적으로 학습하고 새로운 로봇 플랫폼으로 일반화할 수 있다는 실증적 증거가 있습니다.
이를 용이하게 하기 위해, 우리는 어려운 실내외 환경에서 60시간 동안 상호작용하는 6개의 로봇에 걸쳐 수집된 대규모 이질적인 내비게이션 궤적 데이터셋을 집계합니다.
우리는 이 데이터셋에서 GNM을 학습시키고, 2개의 새로운 로봇을 포함한 4개의 서로 다른 로봇 플랫폼에 배포합니다.
우리는 여러 로봇에서 학습된 단일 정책을 사용하여 어려운 실내외 환경에서 목표 달성을 달성할 수 있으며, 단일 데이터셋으로 학습된 정책보다 우수한 성능을 발휘한다는 것을 보여줍니다.
또한 카메라 매개변수의 저하, 타이어 손상 및 로봇이 수명 동안 겪을 수 있는 기타 점진적인 변화에 대한 견고성도 보고합니다.
우리는 다양한 인기 로봇 플랫폼에서 모델을 학습하고 배포하는 데 사용되는 코드인 학습된 GNM 정책과 프로젝트 페이지에서 이러한 모델을 학습하는 데 사용되는 데이터셋을 공개했습니다.
이것이 다양한 로봇에 배포할 수 있는 범용 멀티 로봇 데이터셋과 범용 시각 내비게이션 모델을 향한 한 걸음이 되기를 바랍니다 — 현재 실무자들이 시각과 언어에서 사전 학습된 모델을 사용하는 것과 유사하게, 이러한 모델은 시각적 내비게이션을 위한 사전 학습된 백본이 될 수 있습니다.
Ⅱ. Related Work
다양한 로봇 응용 프로그램에서 대규모의 다양한 로봇 데이터셋을 사용한 학습이 연구되었으며, 유사한 로봇 간의 데이터 공유는 어려운 환경으로 학습을 확장하는 데 도움이 됩니다 [10–12].
그러나 지상 또는 항공 내비게이션과 같은 다양한 센서와 로봇 역학을 사용하는 응용 프로그램의 경우, 현재의 접근 방식은 단일 로봇 플랫폼만을 대표하는 소규모 데이터셋으로부터의 학습에 의존하는 경향이 있습니다.
우리 논문은 여러 embodiments 예에 걸쳐 수집된 이질적인 로봇 데이터셋에서 내비게이션 동작을 학습하는 것을 제안합니다.
우리의 연구는 전이 학습과 밀접하게 관련되어 있으며, 목표는 역학 [13–15], 환경 [16], 형태 [17–19], 관점 [20], embodiments [21]와 같은 도메인 간 전이 정책을 학습하는 것입니다.
우리의 초점은 특정 도메인 적응 알고리즘이나 전송을 위한 수작업 증강을 설계하는 것이 아니라, 실제 데이터로 학습된 간단하고 고용량 모델을 직접 일반화하는 것이 어떻게 광범위하게 적용 가능한 내비게이션 정책으로 가는 길을 제공할 수 있는지 연구하는 것입니다 [21].
이를 위해, 우리의 연구는 도로 주행 데이터를 모방하여 쿼드로터를 제어하는 DroNet [22]와도 밀접한 관련이 있습니다.
우리는 이 패러다임을 한 걸음 더 나아가 멀티 로봇의 데이터를 기반으로 목표 조건부 정책을 훈련하고 쿼드로터를 포함한 새로운 정책을 제어할 수 있음을 보여줍니다.
이전 연구에서는 실제 데이터 수집 없이도 대규모로 확장할 수 있는 YouTube 동영상과 같은 수동 데이터에서 시각적 표현이나 종단 간 정책을 학습하는 방법도 탐구했습니다 [23–26].
우리는 상호 보완적인 방향을 탐구하며, 쉽게 이용할 수 있는 로봇 데이터 (또는 수동적인 데이터)가 어떻게 일반화 가능한 정책으로 이어질 수 있는지 연구합니다.
이는 특히 데이터가 풍부하고 여러 로봇의 궤적이 정책을 직접 학습할 수 있는 내비게이션과 달리, 인터넷 데이터를 사용하여 표현 학습을 수행한 후 도메인 내 적응을 수행하는 2단계 방법과 대조적입니다.
시각적 내비게이션에 대한 대규모 연구 [27–31]에 이어, 우리는 고수준 계획을 위한 위상 그래프와 저수준 제어를 위한 이미지 목표 정책을 결합하여 장거리 내비게이션을 위한 반응형 정책을 효율적으로 확장할 수 있는 방법을 제공합니다 [30, 32].
이전 연구에서는 탐색 [29, 33, 34], 학습 후속 [8], 강화 학습 [35]과 같은 목표 달성을 넘어 복잡한 작업에도 이 프레임워크를 확장했습니다.
우리는 우리의 GNM이 이러한 위상 그래프와 결합하여 이미지 목표 탐색을 새로운 로봇으로 확장할 수 있음을 보여줍니다.
Ⅲ. Multi-Robot Training Dataset
우리의 목표는 다양한 로봇 시스템에서 광범위하게 적용 가능한 내비게이션 어포던스를 학습할 수 있는 일반적인 시각적 내비게이션 모델을 학습시키는 것입니다.
이러한 대규모 정책 학습을 촉진하기 위해, 우리는 다양한 역학, 센서 및 행동을 가진 로봇 플랫폼에서 수집된 8개의 데이터셋에서 출처한 이질적인 내비게이션 궤적 데이터셋을 집계했습니다.
데이터셋에는 다양한 도전적인 실내 및 오프로드 환경이 포함되어 있습니다 (표 I 및 그림 1).
우리는 이 데이터셋을 프로젝트 페이지에 공개했습니다.


GNM 데이터셋에는 60시간 이상의 실제 내비게이션 궤적이 포함되어 있습니다: 상업적으로 이용 가능한 4개의 플랫폼(TurtleBot, Clearpath Jackal, Warthog 및 Spot)과 2개의 맞춤형 플랫폼 (Yamaha Viking ATV, RC Car)을 포함한 6개의 서로 다른 로봇 플랫폼에서 수집된 원격 조작 및 자율 주행 동작의 조합입니다.
궤적에는 다양한 로봇 동역학과 0.2m/s에서 10m/s 사이의 최고 속도가 포함되어 있으며, 다양한 환경에서 작동합니다 (예: 사무실 건물, 복도, 교외, 오프로드 트레일, 대학 캠퍼스 등).
자기 중심적인 시각적 관찰만으로 작동할 수 있는 내비게이션 정책을 학습하기 위해 데이터셋에는 로봇의 명령된 액션 및 로컬 오도메트리 측정과 함께 전방 RGB 이미지가 포함되어 있습니다.
각 로봇마다 카메라 매개변수가 다르기 때문에 카메라 포즈와 intrinsic 매개변수의 변화에 따라 일반화할 수 있는 성공적인 정책이 필요하지만, 모든 플랫폼은 동일한 유형의 센서 (단안 RGB 카메라)를 사용합니다.
원하는 애플리케이션을 기반으로 관련 내비게이션 행동 [41, 42] 또는 데이터 세트의 하위 집합을 믹스 앤 매치하는 다른 데이터 세트를 추가하여 GNM을 더욱 확장하는 것은 간단합니다,
Ⅳ. Training a General Navigation Model
로봇과 환경 전반에 걸친 공통 내비게이션 작업을 연구하기 위해, 우리는 G에서 촬영된 이미지 관찰 o_G로 지정된 목표 위치 G로 로봇이 이동하는 이미지 목표 내비게이션 문제를 고려합니다 [43].
PointGoal [44], GPS 내비게이션 또는 semantic objectives [45]와 달리, 이미지 목표 내비게이션은 실제 위치 파악이나 시맨틱 틱레이블에 의존하지 않는 일반적인 프레임워크로, 모든 시각적 내비게이션 데이터셋으로 학습할 수 있는 매우 일반적인 내비게이션 작업을 공식화할 수 있게 해줍니다.
우리의 목표는 자기중심적인 시각적 관찰만으로 탐색할 수 있는 목표 도달 정책 π(o_t; o_G)을 학습하는 것입니다.
이 정책에 대한 일반적인 작업 표현을 제공하기 위해, 우리는 원하는 목표 o_G에 따라 이를 조건화하고 위상 그래프를 기반으로 한 내비게이션 시스템에 통합합니다 [27–30].
이러한 시스템은 다양한 실내 및 실외 환경에서 훌륭한 내비게이션 결과를 보여주었습니다 — 다양한 컨트롤러, 역학 및 센서 배치를 가진 로봇 전반에 걸쳐 이러한 정책을 학습하려면 무엇이 필요합니까?
우리는 멀티 로봇 정책을 학습하는 데 있어 두 가지 핵심 요소를 강조합니다: (i) 로봇 간 전송을 용이하게 하는 올바른 액션 표현을 신중하게 선택하고, (ii) 제어하는 로봇의 특성을 추론할 수 있는 "summary" 벡터에 정책을 조건화하여 로봇마다 서로 다른 유효한 능력을 발휘할 수 있도록 합니다.
이 섹션에서 설명한 특정 설계 결정이 좋은 성능을 위해 중요하다는 것을 발견했지만, 실험 (섹션 V-C)에서 논의하는 바와 같이, 우리 연구의 주요 기여는 새로운 학습 알고리즘이 아니라 이질적인 데이터셋에서 학습한 정책이 새로운 환경과 새로운 로봇에 광범위하게 일반화될 수 있다는 실증적인 시연임을 강조합니다.
A. A Shared Abstraction Across Robots
자기중심적인 이미지에서 내비게이션하는 일반적인 작업은 로봇마다 공통적이지만, 구체적인 입력 (카메라 관측)과 출력 (액션, 역학)은 상당히 다를 수 있습니다: TurtleBot은 차동 구동 방식으로 낮은 속도 명령을 기대하며 최고 속도가 0.5m/s인 반면, ATV는 애커먼 스티어링을 사용하고 throttle 및 스티어링 명령을 기대하며 최대 20배 더 빠르게 주행합니다.
이러한 비정형 raw 출력에서 직접 작동하는 공통 제어 정책을 학습하는 것은 이러한 불일치와 높은 분산 출력 (예: speed ∈ [0.2, 10]m/s)으로 인해 어려울 수 있습니다.
정책이 얼마나 빨리 움직여야 하는지 "guess"해야 하는 새로운 로봇으로 일반화할 때 이는 더욱 악화됩니다.
이를 위해, 우리는 공유 추상화를 사용하여 목표 도달 정책이 로봇 전반에 걸쳐 일관된 변화된 액션 공간에서 작동할 수 있도록 하여 데이터 포인트가 "similar"하고 공통 패턴을 더 쉽게 학습할 수 있도록 할 것을 제안합니다.
실험 결과, 여러 데이터셋에서 학습할 수 있는 것이 중요하다는 것을 발견했습니다 (분석은 V-C.1 참조).
우리는 중간 수준의 액션 공간으로 상대 웨이포인트 p(x, y)와 yaw 변화 ψ의 조합을 사용합니다.
이러한 작업에 대한 레이블은 데이터 세트 전반에 걸쳐 쉽게 구할 수 있는 로컬 오도메트리를 사용하여 얻을 수 있습니다.
또한, 이 정책은 내비게이션 시스템이 위상 그래프의 연결성을 추정하는 데 사용하는 이동 가능성의 척도로서 목표 d까지의 시간적 거리도 예측합니다.
이는 로봇 간에 공유된 액션 공간을 제공하지만, 로봇 간의 다양한 동역학 (예: 서로 다른 최고 속도)이 알고리즘을 학습하는 데 어려움을 줄 수 있다는 것을 발견했습니다.
이를 완화하기 위해, 우리는 정규화된 액션 공간 {~p(x, y), ψ}을 사용할 것을 제안합니다, 여기서 ~p := 1/α p는 로봇의 최고 속도에 해당하는 로봇 특유의 인자 α만큼 스케일링됩니다.
시간적 거리 ~d도 이 정규화된 척도에서 추정됩니다.
이 추상적인 액션 공간이 주어지면 로봇 전용 컨트롤러를 사용하여 (i) 웨이포인트를 정규화하지 않고 (ii) 웨이포인트를 추적하여 (예: PID, MPPI) 저수준 명령 (예: 속도 또는 모터 명령)을 추출할 수 있습니다.
B. Embodiment Context
임의의 로봇에 배치될 때, 정책은 해당 로봇의 능력을 추론해야 합니다.
예를 들어, TurtleBot은 제자리에서 회전할 수 있지만 도로의 돌출부를 넘지 않는 반면, RC카는 작은 돌출부를 쉽게 통과할 수 있지만 회전 반경이 제한적입니다.
정책에 이러한 인식을 제공하는 간단한 방법은 정책의 크기, 회전 반경 등과 같은 기능에 대한 간결한 "summary"를 제공하는 수작업으로 설계된 매개변수에 따라 정책을 조정하는 것입니다.
이러한 매개변수를 수작업으로 정의하는 것은 정책을 새로운 로봇에 빠르고 쉽게 배포하는 데 장애물이 되며, 관련 매개변수 집합을 식별하고 정의하는 데 인간의 직관이 필요합니다.
대신, 우리는 간단하고 자동적인 접근 방식을 제안합니다: 로봇을 완전히 식별하는 매개변수를 수동으로 정의하는 대신, 로봇의 관점에서 연속적인 과거 관찰 시퀀스를 사용하여 학습된 embodiment context C_t를 추론하고, 관찰 외에도 이 맥락에서 학습된 정책을 조건화합니다.
이 문맥에는 로봇의 구성과 역학에 대한 정보가 포함되어 있으며, 이는 정책의 행동을 조절하는 데 사용할 수 있습니다.
이 맥락에는 로봇을 완전히 식별하기 위한 모든 정보가 포함되어 있지는 않지만, 로봇을 효과적으로 제어하기에 충분하다고 가정합니다.
우리의 실험 결과, embodiment 맥락이 수작업으로 설계된 로봇 표현 없이도 동일한 정책을 새로운 로봇 구성에 적용할 수 있음을 보여줍니다.
우리는 섹션 V-C.2에서 맥락을 제공하는 다양한 방법을 실증적으로 평가한 결과, k개의 연속적인 과거 관찰 {o(t_k):(t-1)}에 대한 정책을 조건으로 하는 시간적으로 일관된 맥락 C_t를 사용함으로써 가장 효과적인 표현이 달성된다는 것을 발견했습니다.
C. Imaplementation Details
embodiment 맥락에서 정책을 조건화하고 액션 공간을 변환하는 조합은 이질적인 데이터셋에서 간단한 목표 도달 정책을 학습할 수 있게 해줍니다.
제안된 수정 사항은 다운스트림 정책 아키텍처 및 학습 알고리즘의 선택과 직교하며, 서로 다른 인코더를 사용하거나 강화 학습을 통해 학습할 수 있다는 점에 유의하는 것이 중요합니다.

Architecture:
우리는 현재 관측 o_t와 목표 관측 o_G를 입력으로 받아 정규화된 웨이포인트와 거리를 예측하는 목표 조건 정책 아키텍처를 사용합니다.
또한, 우리는 과거 k = 5개의 연속 관측값을 쌓아 구성된 시간적 맥락 C_t를 조건으로 합니다.
네트워크에 대한 시각적 입력은 모든 관측치에 대해 85 x 64 RGB 이미지로 제공됩니다.
이전 연구 [33, 46]에 이어, 그림 2와 같이 (i) 현재 관찰 {o_t, C_t}와 (ii) 조건부 목표 관찰을 위해 별도의 MobileNetv2 인코더를 사용하여 문맥 조건 표현을 학습합니다.
두 임베딩은 연결되어 세 개의 완전히 연결된 레이어를 통해 두 개의 예측 헤드로 전달됩니다: 정규화된 시간 거리 ~d_t와 τ = 5개의 정규화된 미래 웨이포인트 {~p_i; ψ_i}의 시퀀스.
Training:
Shah et al. [28]의 절차에 따라, 우리는 데이터셋에서 동일한 궤적에서 샘플링된 이미지-목표 쌍을 "positives"로 사용하고, 다른 궤적에서 샘플링된 "negatives"로 조합하여 학습 데이터 쌍을 얻습니다.
거리 헤드는 양성과 음성 모두에 대해 학습되는 반면, 액션 헤드는 양성에만 학습됩니다.
우리는 l2 회귀 loss를 사용하여 지도 학습을 통해 두 헤드를 공동으로 학습시킵니다, 배치 크기가 400-1200 사이인 멀티 GPU 학습을 사용하고 Adam 옵티마이저 [47]를 사용하여 5 x 10-4의 학습률로 그래디언트 업데이트를 수행합니다.
Deployment:
우리는 이 목표 도달 정책을 위상 맵 M과 결합합니다, 여기서 노드는 로봇의 관측값으로 표현되며 (embodiment 맥락을 추가하여), 엣지는 ViNG [28]의 설정에 따라 학습된 정책에서 얻은 시간 거리 추정치 d를 사용하여 계산됩니다.
로봇은 매 시간 단계마다 현재 및 목표 관측값을 M에서 연관짓습니다, 즉, 시간적 거리가 가장 작은 노드를 찾아내고, Dijkstra 알고리즘을 사용하여 최적의 하위 목표 시퀀스 {s_i}를 계산합니다.
정책 π는 현재 관측치 {o_t, C_t}와 즉각적인 하위 목표 s_1을 통해 쿼리되어 로봇 전용 저수준 컨트롤러에 의해 추적되는 일련의 웨이포인트 {~p_i, ψ_i}를 얻습니다.
Ⅴ. Deploying the GNM across Robots
우리는 학습된 GNM omnipolicy를 네 가지 로봇 플랫폼에서 다양한 도전적인 실내외 환경에 배포합니다.
다음 질문에 답하기 위해 실험을 설계했습니다:
Q1. 멀티 로봇 학습이 새로운 로봇과 환경에 대한 일반화를 가능하게 할 수 있습니까?
Q2. GNM 정책이 단일 도메인 데이터만으로 학습된 정책보다 우수합니까?
Q3. GNM으로 좋은 성능을 얻기 위해 섹션 IV에서 설계 선택이 얼마나 중요합니까?
Q4. 여러 데이터 세트로 학습된 정책이 단일 도메인 정책보다 성능 저하에 더 강합니까?

A. Meet the Robots
우리는 그림 3과 같이 쿼드로터와 해당 학습 데이터가 없는 다른 두 개의 새로운 로봇을 포함하여 네 가지 다른 로봇 플랫폼에 GNM을 배포합니다.
Vizbot:
Roomba를 기반으로 한 Niwa et al. [48]의 디자인에서 영감을 받은 맞춤형 로봇 플랫폼입니다.
기성품 PCB 장착 fisheye 카메라가 장착되어 있습니다.
Vizbot이나 다른 Roomba와 유사한 로봇의 학습 데이터는 없습니다.
DJI Tello:
전방 카메라가 장착된 상업용 쿼드로터.
GNM에 대한 쿼드로터의 학습 데이터는 없습니다.
지상 내비게이션을 모방하기 위해 드론을 지상에서 1m 떨어진 수평면으로 제한합니다.
Clearpath Jackal UGV:
시중에서 판매되는 오프로드 플랫폼으로, 기성 PCB 장착 fisheye 카메라가 장착되어 있습니다.
이 시스템은 RECON, Berkeley, 및 SCAND-J 데이터셋에 사용되는 데이터 수집 플랫폼과 유사하지만 카메라와 장착 높이가 다릅니다.
LoCoBot:
Kobuki 기반의 인기 오픈 소스 플랫폼으로, 기성 PCB 장착 fisheye 카메라가 장착되어 있습니다.
LoCoBot의 학습 데이터는 없지만, GS는 비슷한 TurtleBot2에서 수집되었지만 낮은 높이의 구형 카메라는 다릅니다.

B. Zero-Shot Deployment
Q1에 대응하기 위해, 우리는 로봇마다 파인튜닝 없이 동일한 학습된 GNM을 네 개의 서로 다른 로봇 플랫폼에 배포합니다.
그림 3과 표 II는 동일한 모델을 사용하는 4개의 다른 로봇에 대한 다양한 실내 및 실외 환경에서의 평가를 요약한 것입니다.
가장 주목할 만한 점은 GNM에서 공중 로봇의 궤적을 본 적이 없음에도 불구하고 GNM이 Tello를 조종할 수 있다는 점입니다.
GNM 정책은 테스트된 모든 로봇에서 단일 로봇 정책보다 일관되게 우수하며, 경우에 따라 최대 5배 더 나은 성능을 발휘합니다.
또한 학습 데이터에 없던 인도에서 야외로 이동하는 LoCoBot이나 사무실 건물 내부로 이동하는 Jackal과 같은 대규모 out-of-distribution (OOD) 환경으로의 일반화도 관찰했습니다.
이는 이질적인 데이터셋에 대한 학습이 새로운 환경-로봇 쌍뿐만 아니라 완전히 새로운 로봇으로 일반화할 수 있음을 시사합니다.


데이터 공유가 성능 (Q2)에 어떤 이점이 있는지 더 잘 이해하기 위해, 우리는 Jackal 및 LoCoBot 플랫폼 (표 III, IV)에서 20개의 실내외 환경에서 이질적인 데이터셋으로 학습된 정책의 내비게이션 성능을 정량적으로 평가합니다.
다양한 양의 데이터로 성과 추세를 예측하기 위해 점점 더 다양해지는 하위 집합에서 정책을 학습합니다 — "Small", "Mid", "Large" 데이터는 표 I에 나열된 첫 번째 2, 4, 6개 데이터셋의 데이터에 해당하며, 목표를 향한 평균 진전으로 측정된 성공률을 사용하여 성과를 정량화합니다.
실험 영상과 테스트 환경에 대한 자세한 내용은 보충 영상과 프로젝트 페이지를 확인하시기 바랍니다.
데이터셋에 해당 데이터가 없는 보이지 않는 로봇인 LoCoBot에 배포한 결과, 단일 데이터셋 (예: GoStanford (GS) [27] 또는 CoryHall [36])에서 학습된 정책이 다른 센서를 사용하는 새로운 embodiment 방식으로 일반화되지 않는다는 것을 발견했습니다.
많은 비전 기반 애플리케이션 [49, 50]에서 사전 학습을 위한 인기 전략인 ImageNet과 같은 작업에 구애받지 않는 데이터셋을 위해 학습된 시각적 표현을 파인튜닝하면 약간 개선되지만 대부분의 환경에서는 여전히 어려움을 겪고 있습니다.
그러나 로봇 간에 작업 관련 데이터셋을 공유하여 학습된 정책은 표 III에 나타난 바와 같이 이러한 단일 도메인 정책보다 훨씬 우수합니다.
또한, 관련 없어 보이는 작업 (예: 오프로드 주행)에서 추가 데이터가 나왔음에도 불구하고 더 다양하고 다양한 데이터셋 (GNM-Large)을 추가하는 것이 성능 향상에 기여한다는 것을 관찰했습니다.
그림 4는 학습 데이터의 다양성을 높이면 성능이 향상되는 예시적인 사무실 환경을 보여줍니다.

우리는 이전에 보지 못했던 다양한 야외 및 실내 환경에 배치된 Jackal에서도 유사한 경향을 관찰합니다 (표 IV).
당연히 오프로드 RECON 데이터로 학습된 단일 도메인 정책은 많은 야외 환경에서는 잘 작동하지만, RECON 데이터셋의 OOD인 실내 내비게이션에는 어려움이 있습니다.
마찬가지로, GS 정책은 야외 환경에서는 어려움을 겪지만 일부 쉬운 실내 환경에서는 성공합니다.
GNM omnipolicies는 다양한 실내 및 "Hard" 실외 환경에 더 잘 일반화할 수 있으며, 이는 100m 이상의 길이를 가질 수 있어 단일 도메인 정책을 크게 능가합니다 (그림 4).
C. A Systematic Analysis of the Design Space
Q3에 대한 답변으로, 우리는 섹션 Ⅳ에서 제시된 설계 선택 사항들을 체계적으로 분석합니다.
우리는 다양한 수준의 복잡성을 가진 실내 환경에서, "Easy" 환경은 넓은 통로와 부드러운 회전을 가지고 있고, "Moderate" 환경은 타이트한 통로나 날카로운 회전을 가지고 있으며, "Hard" 환경은 타이트한 통로와 다중 회전을 결합하여 더 큰 (최대 50m) 공간에서 LoCoBot의 각 설계 선택을 평가합니다.

1) Shared Action Space:
우리는 섹션 IV-A에서 논의된 세 가지 액션 공간을 GNM-Mid에 대한 세 가지 다른 정책을 학습하고 10개의 환경에서 평가하여 비교합니다 (표 V).
속도를 액션 공간으로 사용하는 것은 대부분의 쉬운 환경에서 잘 작동하지만, 종종 웨이포인트를 사용하여 정책을 능가합니다, 그러나 이 두 정책 모두 급회전과 같은 동적 기동이 필요한 환경에서는 어려움을 겪습니다.
반면에 정규화된 웨이포인트에 기반한 정책은 어려운 환경을 포함하여 다른 정책들보다 훨씬 우수합니다.
이는 액션 공간을 정규화하면 정책이 실제로 더 효과적으로 학습하고 새로운 로봇에 일반화할 수 있음을 시사합니다.
2) Embodiment Context:
embodiment 맥락을 표현하는 두 가지 방법을 고려합니다: (i) k개의 연속적인 과거 관측값 {o_(t-k):(t-1)}을 포함하는 시간적으로 일관된 맥락과 (ii) 목표 환경에서 로봇의 고정된 k개의 과거 관측값 집합을 포함하는 정적 맥락.
다양한 복잡성을 가진 환경에서 이러한 선택을 비교한 결과 (표 V), 두 가지 형태의 컨텍스트를 추가하면 로봇이 여러 장애물과 급격한 회전이 있는 좁은 통로를 탐색해야 하는 어려운 환경에서도 내비게이션 성능이 크게 향상된다는 것을 발견했습니다.
이는 embodiment에 대한 추가 정보 (예: 시점, 속도 등)로 인해 정책이 더 잘 일반화되는 데 도움이 되는 맥락임을 시사합니다.
두 가지 중에서 시간적 변형이 더 우수하다는 것을 발견했으며, 이는 이러한 일반화를 가능하게 하기 위해 시간 정보 (예: 속도, 회전 반경 등)가 중요하다는 것을 시사합니다.
섹션 V-B와 그림 3에서 논의된 주요 실험에서는 k = 5인 시간적으로 일관된 맥락을 사용합니다.
3) Policy Architecture:
또한 목표 정보를 인코딩하기 위해 다양한 정책 아키텍처를 비교했습니다: (i) 단일 인코더 스태킹, 관찰 및 목표 이미지가 채널 차원 [29]을 따라 적층되는 경우, (ii) 독립 인코더로 이미지를 처리하고 결과 임베딩을 결합하는 Siamese 아키텍처 [27, 28, 51], (iii) 관찰에서 정책 출력으로 가는 추가 경로가 있는 그림 2의 조건부 아키텍처 [33, 46].
우리는 아키텍처 선택이 내비게이션 성능에 큰 영향을 미치며, 조건부 모델이 가장 우수하다는 것을 발견했습니다.
우리는 이것이 학습된 임베딩이 현재 관찰에 따라 조건화될 수 있는 추가 경로 때문이라고 가정합니다, 이는 이전 연구 [33]에서 연구된 바와 같이 더 일반화 가능한 표현으로 이어집니다.

D. Robustness to Degradation
이질적인 데이터셋에 대한 학습의 주요 강점은 다양한 매개변수에 걸친 학습이 정책이 로봇 간의 공유 어포던스를 학습하도록 장려하여 센서 배치 및 기계적 특성과 같은 로봇 매개변수의 작은 변화에도 견고하다는 점입니다.
우리는 그림 5에 나타난 몇 가지 예시적인 열화 시나리오에서 공유 GNM을 테스트함으로써 실제로 이러한 견고성을 제공할 수 있음을 보여줍니다.
로봇의 최대 각속도가 클리핑된 스티어링 성능 저하 (그림 5a)를 통해 학습된 정책을 테스트한 결과, GNM은 위치 확인 실패 없이 목표를 향해 더 길고 부드러운 경로를 취함으로써 성능 저하를 보상할 수 있음을 발견했습니다.
우리는 또한 카메라의 위치를 교란시키고 내비게이션 중 로봇을 손상시켜 동력학에 물리적으로 영향을 미치면서 GNM을 테스트한 결과, 성능 저하에도 불구하고 목표에 성공적으로 도달할 수 있음을 발견했습니다 (그림 5d).
이 실험들에 대한 보충 영상을 참조해 주세요.
Ⅵ. Discussion
이 논문에서는 일반적인 목표 조건이 충족된다는 것을 입증했습니다
RC 자동차부터 ATV에 이르기까지 다양한 로봇이 수집한 내비게이션 데이터셋에서 학습한 내비게이션 정책은 어려운 환경에서 새로운 로봇을 제어할 수 있습니다.
학습 프레임워크의 설계는 간단하며 주로 이전 작업을 따릅니다:
새로운 관찰은 시간적 맥락을 포함하고 액션 공간을 표준화하는 등 비교적 간단한 결정들이 이질적인 데이터로부터 광범위한 일반화를 가능하게 하기에 충분하다는 것입니다.
경험적으로, 우리의 접근 방식이 학습에서 보지 못한 로봇들을 포함한 다양한 로봇들에게 실제 내비게이션을 가능하게 할 수 있음을 보여줍니다, 심지어 작동이 덜 된 quadrotor도 포함됩니다.
이 원칙의 구체적인 구현에는 몇 가지 한계가 있습니다.
가장 눈에 띄는 점은 우리 시스템이 기능의 차이를 명시적으로 설명하지 않는다는 점입니다: 우리는 모든 로봇이 전방 RGB 카메라를 사용하는 지상 로봇이라고 가정합니다 (비록 quadrotor로의 일반화를 연구합니다).
다양한 감지, 작동 (속도와 조향의 변동성을 넘어서는), 그리고 이동 가능성을 다루는 것은 향후 연구에 있어 흥미로운 방향이 될 것입니다.
둘째로, 우리의 데이터셋은 훨씬 더 클 수 있습니다: 60시간의 데이터를 통해 흥미로운 일반화를 관찰할 수 있지만, 훨씬 더 크고 광범위한 데이터셋을 통해 앞으로 더 나은 일반화를 가능하게 할 수 있습니다.
다양한 데이터로 학습된 일반 내비게이션 모델의 약속은 다양한 다운스트림 내비게이션 애플리케이션을 위한 사전 학습된 base 모델을 제공할 수 있다는 점입니다.
컴퓨터 비전 연구자와 실무자들이 일반적으로 작업에 사용할 사전 학습된 백본을 다운로드하는 것으로 시작하는 것처럼, 향후 내비게이션 프로젝트에서도 "universal" 출발점을 제공할 수 있을 만큼 충분히 광범위하게 일반화된 사전 학습된 내비게이션 omnipolicy를 사용할 수 있기를 바랍니다.
'로봇 내비게이션' 카테고리의 다른 글
| ViNT: A Foundation Model for Visual Navigation (0) | 2026.05.26 |
|---|---|
| Navigation World Models (0) | 2025.06.25 |
| NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration (ICRA 2024 Best Paper) (0) | 2025.04.14 |
| DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras (0) | 2022.02.16 |