GR-3

2025. 8. 27. 11:45Robotics

GR-3

 

ByteDance Seed

 

Abstract

우리는 일반론적 로봇 policy를 구축하기 위한 최근의 진전인 GR-3 개발을 보고합니다.

GR-3는 대규모 vision-language-action (VLA) 모델입니다.
추상적인 개념을 포함하는 새로운 객체, 환경 및 지침으로 일반화하는 데 있어 탁월한 능력을 보여줍니다.
또한 최소한의 인간 궤적 데이터로 효율적으로 파인튜닝할 수 있어 새로운 환경에 신속하고 비용 효율적으로 적응할 수 있습니다.
GR-3는 또한 이중 수동 조작과 이동이 필요한 작업을 포함하여 장거리 및 손재주 작업을 처리하는 데 탁월하여 견고하고 신뢰할 수 있는 성능을 보여줍니다.
이러한 기능은 웹 스케일 비전-언어 데이터와의 공동 학습, VR 장치를 통해 수집된 인간 궤적 데이터의 효율적인 파인튜닝, 로봇 궤적 데이터와의 효과적인 모방 학습을 포함하는 다면적인 학습 레시피를 통해 달성됩니다.
또한, 우리는 GR-3와 통합될 때 다양한 작업을 수행할 수 있는 뛰어난 유연성과 신뢰성을 갖춘 다재다능한 이중 수동 이동 로봇인 ByteMini를 소개합니다.
광범위한 실제 실험을 통해 GR-3가 다양한 도전 과제에서 SOTA 베이스라인 방법인 π_0을 능가한다는 것을 입증했습니다.
우리는 GR-3가 인간의 일상 생활을 도울 수 있는 일반 로봇을 구축하는 데 한 걸음이 되기를 바랍니다.

 

 

 

1   Introduction

인간의 일상 업무를 도울 수 있는 지능형 일반 로봇을 찾는 것은 로봇 연구에서 오랜 목표였습니다 [3, 7, 9–11, 13, 67].
중요한 도전 과제는 현실 세계의 방대한 다양성에서 비롯되며, 로봇 policy가 다양한 새로운 시나리오를 처리할 수 있는 강력한 일반화 능력을 갖추어야 한다는 점입니다.
또한 많은 일상 업무는 본질적으로 장기적이며 복잡한 손재주가 필요하여 로봇 policy가 매우 견고하고 신뢰할 수 있어야 합니다.

 

최근 Vision-Language-Action (VLA) 모델의 발전 [9, 11, 29, 37, 67]은 지능형 일반주의 로봇 policy 개발을 위한 유망한 길을 열어주었습니다.
이 모델들은 사전 학습된 vision-language models (VLM)을 기반으로 구축되었으며 [4, 14, 19, 39], action 예측 기능을 통합하여 로봇이 자연어 지시에 따라 다양한 작업을 수행할 수 있도록 합니다.
이러한 발전에도 불구하고, 지침을 따르는 것은 여전히 중요한 도전 과제로 남아 있습니다, 특히 로봇 궤적 데이터에서 보이지 않는 새로운 객체 범주나 정교한 추론이 필요한 복잡한 개념을 포함하는 배포 외 지침에서는 더욱 그렇습니다 [11, 49].
게다가 VLA 모델은 일반적으로 policy 학습을 위해 많은 양의 데모가 필요하므로 새로운 환경에 효율적으로 적응하는 데 상당한 어려움이 있습니다.
마지막으로, 복잡한 장기 작업에서 견고성을 보장하는 것은 누적 오류로 인해 여전히 어려운 과제입니다, 특히 변형 가능한 물체를 조작하는 것과 같은 손재주 있는 기술이 필요한 작업에서는 더욱 그렇습니다.

그림 1 개요. GR-3는 세 가지 유형의 데이터를 통해 학습할 수 있습니다: 비전-언어 데이터, 로봇 궤적 데이터, 그리고 인간 궤적 데이터. 뛰어난 견고성으로 손재주 있고 긴 시야의 작업을 수행할 수 있으며, 새로운 객체, 환경 및 지침에 잘 일반화할 수 있습니다.

이 보고서에서는 1) 언어를 엄격하게 따르고 새로운 객체, 환경 및 지침에 잘 일반화하는 대규모 vision-language-action (VLA) 모델인 GR-3을 소개합니다, 이 모델은 2) 퓨샷의 인간 궤적 데이터를 통해 효율적으로 학습하여 새로운 설정에 빠르게 적응하고, 3) 높은 견고성과 신뢰성으로 장기적이고 능숙한 작업을 수행합니다 (그림 1).
GR-3는 자연어 지침, 환경으로부터의 관찰, 그리고 로봇 state를 입력으로 받습니다.
양방향 수동 이동 로봇을 종단 간 방식으로 제어하기 위한 action 청크를 출력합니다.
구체적으로, GR-3는 사전 학습된 VLM [2]을 기반으로 구축되었으며 플로우 매칭을 통해 action을 예측합니다 [47, 48].
우리는 모델 아키텍처에 대한 신중한 연구를 수행하고, 잘 선택된 일련의 설계 선택 사항을 소개합니다, 이는 학습 후속 기능과 장기 과제 수행에 매우 중요하다는 것을 알게 됩니다.
일반화 능력을 향상시키기 위해, 우리는 로봇 궤적 데이터와 다양한 비전-언어 작업을 다루는 대규모 비전-언어 데이터를 사용하여 GR-3을 공동 학습합니다.
이 학습 레시피를 통해 GR-3는 새로운 카테고리의 객체를 다룰 수 있을 뿐만 아니라 로봇 궤적 데이터에서 볼 수 없는 크기, 공간 관계, 상식 지식과 관련된 추상적인 개념도 이해할 수 있습니다 (그림 2).
또한, VR 기기를 통해 수집된 최소한의 인간 궤적 데이터로 GR-3를 효율적으로 파인튜닝할 수 있어 새로운 환경에 신속하고 비용 효율적으로 적응할 수 있음을 보여줍니다.
GR-3와 함께, 우리는 현실 세계에서 다양한 도전적인 작업을 수행할 수 있는 높은 유연성과 신뢰성을 갖춘 다재다능한 이중 수동 이동 로봇인 ByteMini를 소개합니다.

그림 2 기능. GR-3는 엄격하게 지침을 따르며 추상적인 개념과 관련된 보이지 않는 지침을 이해할 수 있습니다. long-horizon table bussing과 dexterous cloth manipulation에서 견고하고 신뢰할 수 있는 성능을 발휘합니다.

우리는 세 가지 도전적인 작업에 걸쳐 광범위한 실제 실험을 수행합니다: 1) generalizable pick-and-place, 2) long-horizon table bussing, 3) dexterous cloth manipulation.
GR-3는 모든 작업에서 SOTA 베이스라인인 π_0을 지속적으로 능가합니다.
새로운 범주의 객체로 일반화하고 복잡한 시맨틱을 이해하는 데 있어 강력한 능력을 보여줍니다.
또한, 각 객체당 10개의 인간 궤적만으로 새로운 객체에 효율적으로 적응할 수 있습니다.
마지막으로, GR-3는 테이블 bussing 및 cloth 조작과 같은 어려운 작업에서 높은 평균 작업 진행률을 달성하며, 장기적이고 능숙한 작업을 수행하는 데 탁월한 견고성을 자랑합니다.

 

 

 

2   The GR-3 Model

GR-3는 종단 간 vision-language-action (VLA) 모델인 π_θ입니다.
입력 언어 명령 l, 관찰 o_t, 그리고 로봇 state s_t, 즉 a_t = π_θ(l, o_t, s_t)를 조건으로 k-길이 action 청크 a_t = a_(t:t+k)를 생성하여 이동 기반을 가진 이중 수동 로봇을 제어합니다.
GR-3는 트랜스포머 혼합 구조를 채택합니다 [45].
여러 카메라 뷰에서 관찰 이미지와 언어 명령을 사전 학습된 vision-language model (VLM), 즉 Qwen2.5-VL-3B-Instruct [2]로 처리하고 action diffusion transformer (DiT)로 action 청크를 예측합니다 [56].

 

구체적으로, GR-3는 action 예측을 위해 플로우 매칭을 사용합니다 [9, 47, 48].

플로우 예측은 현재 로봇 state s_t와 VLM 백본에서 출력된 KV 캐시를 기반으로 합니다.
k-길이 action 청크는 k개의 토큰으로 표현되며 로봇 state 토큰과 연결되어 action DiT의 입력 토큰 시퀀스를 생성합니다.
플로우 매칭 시간 단계는 adaptive layer norm (AdaLN)을 통해 주입됩니다 [57].
action DiT에 인과 어텐션 마스크를 적용하여 action 청크 내부의 시간적 의존성을 모델링합니다.
빠른 추론을 보장하기 위해, action DiT는 VLM 백본에 비해 절반의 레이어 수를 포함하고 있으며, VLM 레이어 후반부의 KV 캐시만 사용합니다.
GR-3에는 총 4B 매개변수가 포함되어 있습니다.

 

초기 탐색에서 우리는 학습 중 빈번한 불안정성을 관찰했습니다.
QK norm [26]에서 영감을 받아, 우리는 어텐션 네트워크와 DiT 블록 내 feed-forward networks (FFN)의 선형 레이어 뒤에 추가적인 RMSNorm [78]을 적용합니다.
이 디자인 선택은 전체 학습 과정에서 안정성을 크게 향상시킵니다.
또한, 섹션 5에서 보여준 바와 같이, 우리의 다운스트림 실험에서 언어 추종 능력이 크게 향상된다는 것을 발견했습니다.

 

 

 

3   Training Recipe

우리는 모방 학습을 위한 로봇 궤적 데이터, 공동 학습을 위한 웹 스케일 비전-언어 데이터, 그리고 퓨샷 일반화를 위한 인간 궤적 데이터를 포함한 다양한 데이터 소스를 기반으로 GR-3 모델을 학습시킵니다.
이 학습 레시피는 GR-3를 1) 새로운 객체, 환경 및 지침에 일반화하고, 2) 저비용으로 보이지 않는 설정에 효율적으로 적응하며, 3) 장기적이고 능숙한 작업을 견고하게 수행할 수 있게 합니다.

 

3.1 Imitation Learning with Robot Trajectory Data

우리는 전문가 데모 세트 D에서 policy의 log-likelihood를 최대화하여 모방 학습 objective를 가진 GR-3를 학습시킵니다:

구체적으로, 우리는 학습 중에 플로우 매칭 loss를 통해 action 예측을 supervise합니다:

여기서 τ ~ U(0, 1)은 플로우 매칭 시간 단계이고 t는 에피소드 시간 단계를 나타냅니다.
a_t^τ = (1 - τ)ϵ + τa_t는 노이즈 action 청크로, 여기서 ϵ ~ N(0, I)는 랜덤 노이즈이고 u(a_t^ τ|a_t) = a_t - ϵ는 플로우 예측을 위한 실제 레이블입니다.
학습을 가속화하기 위해, 우리는 VLM 백본의 하나의 전진 패스에 대해 여러 샘플링된 플로우 매칭 시간 단계에서 플로우 매칭 loss를 계산합니다 [42].
추론 중에 action 청크는 랜덤 노이즈 a_t^(τ=0) ~ N(0, I)에서 초기화되며, 오일러 방법, 즉 a_t^(τ+Δτ) = a_t^τ + v_θ(l, o_t, s_t, a_t^τ) Δτ와 함께 τ = 0에서 τ = 1로 통합됩니다.
우리는 실험에서 Δτ = 0.2를 설정했습니다.

그림 4 GR-3 데이터. 우리는 학습 중에 세 가지 유형의 데이터를 활용합니다: 로봇 궤적 데이터 (위), 인간 궤적 데이터 (가운데), 그리고 비전-언어 데이터 (아래).

우리는 원격 조작을 통해 실제 로봇 궤적을 수집합니다.
수집 프로세스를 보다 제어 가능하게 하고 데이터 다양성을 극대화하기 위해, 우리는 1) 수행할 작업, 2) 객체 조합, 3) 배경 설정을 포함한 원격 운영자에게 정보를 제공하는 데이터 수집 스케줄러 (그림 4)를 개발했습니다.
각 궤적 컬렉션이 시작될 때마다 시스템은 원격 운영자가 환경을 적절히 배치할 수 있는 새로운 구성을 생성합니다.
스케줄러의 구현을 통해 전체 데이터 분포를 효과적으로 관리하고 수집된 데이터를 철저히 랜덤화하여 데이터셋의 풍부함과 변동성을 크게 향상시킬 수 있습니다.
또한, 유효하지 않은 저품질 데이터를 걸러내어 데이터셋을 정제하기 위해 수집 후 품질 검사를 실시합니다.

 

이전 연구 [38]에 따르면 policy는 언어 조건에 적절히 attending하는 대신 action 예측에서 여러 관점에서 허위 상관관계를 활용할 수 있습니다.
이 문제를 해결하기 위해 auxiliary supervision을 위한 추가 작업 차원으로 "task status"를 통합합니다.

작업 상태는 다음 중 하나일 수 있습니다: Ongoing (0), Terminated (1), Invalid (-1).
Ongoing 상태는 로봇이 작업을 진행 중임을 나타내고, Terminated 상태는 로봇이 작업을 성공적으로 완료했음을 나타냅니다.
Invalid 상태는 현재 관찰에 따라 주어진 명령이 유효하지 않음을 나타냅니다.
예를 들어, 테이블 위에 칼이 없다면 "put the knife into the woven basket"는 무효로 간주됩니다.
학습 중에 우리는 언어 명령을 잘못된 명령어로 랜덤으로 대체하고, action 청크의 다른 차원에 대한 supervision 없이 모델이 Invalid 상태를 예측하도록 학습시킵니다.
이 설계는 DiT가 언어 지시에 따라 작업 상태를 추정하도록 하여, 섹션 5.2에 나타난 바와 같이 언어 추종 기능을 크게 향상시킵니다.

그림 3 GR-3 모델. GR-3는 로봇 궤적과 비전-언어 데이터 모두에서 각각 플로우 매칭 objective (왼쪽)와 다음 토큰 예측 objective (오른쪽)와 함께 공동 학습됩니다.

3.2 Co-Training with Vision-Language Data

GR-3에 out-of-distribution (OOD) 지침을 따를 수 있는 일반화 기능을 부여하기 위해, 우리는 로봇 궤적과 비전-언어 데이터 모두에서 GR-3를 공동으로 학습합니다 (그림 3) [11].
로봇 궤적 데이터는 플로우 매칭 objective를 사용하여 VLM 백본과 action DiT를 모두 학습시킵니다.
비전-언어 데이터는 다음 토큰 예측 objective를 가진 VLM 백본만 학습합니다.
단순화를 위해, 우리는 동일한 가중치를 가진 미니 배치에서 비전-언어 데이터와 로봇 궤적을 동적으로 혼합합니다.
결과적으로, 공동 학습 objective는 다음 토큰 예측 loss와 플로우 매칭 loss의 합입니다.

 

비전-언어 데이터와의 공동 학습을 통해 GR-3는 보이지 않는 객체에 효과적으로 일반화하고 복잡한 개념의 새로운 시맨틱을 제로샷 방식으로 이해할 수 있습니다.
우리는 다양한 데이터 소스 [25, 30, 39, 62, 75]를 혼합하여 대규모 비전-언어 데이터셋을 큐레이션합니다.
이 큐레이팅된 데이터셋은 이미지 캡셔닝, 시각적 질문 응답, 이미지 그라운딩, 인터리빙된 그라운드 이미지 캡셔닝 등 다양한 작업을 다룹니다 (그림 4).
또한 효과적인 공동 학습을 위해 데이터셋의 품질을 향상시키기 위한 필터링 및 재주석 파이프라인을 개발했습니다.
공동 학습은 GR-3가 사전 학습된 VLM에서 강력한 비전-언어 능력을 유지하는 데 도움이 될 뿐만 아니라, action DiT가 이러한 능력을 action 예측에 활용할 수 있게 하여 다운스트림 조작 작업에서의 일반화 능력을 효과적으로 향상시킵니다.

 

3.3 Few-Shot Generalization with Human Trajectory Data

GR-3는 새로운 설정에 맞게 쉽게 파인튜닝할 수 있는 다용도 VLA 모델입니다.
그러나 실제 로봇 궤적을 수집하는 것은 시간이 많이 걸리고 비용이 많이 듭니다.
최근 VR 기기와 핸드 트래킹 기술의 발전은 인간의 궤적 데이터에서 직접 action을 학습할 수 있는 유망한 기회를 제공합니다 [27, 34, 59].
이 보고서에서는 GR-3의 효율적인 파인튜닝 기능을 최소한의 인간 궤적에서 퓨 샷 학습이라는 어려운 환경으로 확장합니다.
구체적으로, 새로운 설정이 주어졌을 때, 우리는 PICO 4 Ultra Enterprise를 사용하여 소량의 인간 궤적 데이터를 수집합니다.
인간의 궤적은 VR 기기를 통해 시간당 약 450개의 궤적을 효율적으로 수집할 수 있으며, 이는 약 250개의 궤적을 수집하는 원격 조작 로봇의 궤적 수집보다 훨씬 빠른 속도입니다.
이 효율성은 새로운 환경에 신속하고 비용 효율적으로 적응할 수 있도록 도와줍니다.

 

구체적으로, 수집된 인간 궤적 데이터에는 자기중심적인 비디오와 인간 손의 궤적이 포함되어 있습니다.
로봇 궤적에 동일한 라벨링 파이프라인을 사용하여 인간 궤적 데이터를 언어로 라벨링합니다.
비전-언어 데이터와 로봇 궤적으로 1단계 학습을 마친 후, 인간 궤적 데이터를 통합하고 세 가지 유형의 데이터에 대해 공동 학습을 수행합니다.
로봇 궤적과 달리, 인간 궤적 데이터는 팔 관절 상태나 그립퍼 상태 없이 자기중심적인 시각과 손 궤적만을 포함합니다.
결과적으로 우리는 누락된 손목 뷰를 위해 빈 이미지를 패딩하고, 인간 궤적 데이터를 위해 손 궤적만을 사용하여 모델을 학습시킵니다.

 

 

4   Hardware & System

4.1 The ByteMini Robot

ByteMini 로봇 (그림 5)은 데이터 수집 및 policy rollout을 위해 배포됩니다.

이 22-DoF 이중 수동 이동 로봇은 세 가지 핵심 objective를 가지고 특별히 설계되었습니다: 유연한 조작, 높은 신뢰성, 그리고 사용자 친화성.

그림 5 ByteMini 로봇. 우리는 독특한 손목 구체 관절의 로봇 사양, 멀티 카메라 뷰, 그리고 움직임 범위를 보여줍니다.

Flexible manipulation.

독특한 구 손목 관절 구성이 특징인 7-DoF 편향되지 않은 로봇 팔은 인간과 같은 손재주를 제공합니다 [22].
컴팩트한 구 손목 디자인 (그림 5)은 제한된 공간에서 유연한 작동을 방해하는 비콤팩트 손목 치수를 가진 전통적인 SRS 구성 팔[54]의 중요한 한계를 극복합니다.
팔 팔꿈치는 2.53 rad에 큰 내부 부착을 가능하게 하도록 특별히 설계되어 있어 로봇 가슴 부위에서 두 팔이 섬세한 작업을 수행할 수 있습니다.

 

High reliability.

데이터 수집 및 policy rollout 시 요구되는 작업량으로 인해 ByteMini는 매우 높은 안정성과 일관성을 유지해야 합니다.
리프트 메커니즘이 통합된 omni 모바일 플랫폼을 활용하여 공간 이동성과 수직 높이 조정을 안정적으로 달성합니다.
신뢰성을 더욱 높이고 동작 일관성을 보장하기 위해, 팔의 액추에이터는 안정성과 높은 투명성으로 잘 알려진 Quasi Direct Drive (QDD) 원리 [35]를 기반으로 설계되었습니다.

 

User-friendliness.

사용성을 향상시키기 위해 다양한 시나리오에서 10시간 이상의 긴 내구성을 제공하는 듀얼 리튬 배터리로 지원되는 휴대용 스크린과 로봇의 NUC를 통합했습니다.
또한 ByteMini는 무선 E-stop 기능을 갖추고 있어 중요한 상황에 신속하게 대응할 수 있습니다.

 

우리는 머리와 두 손목에 RGBD 카메라를 장착합니다.
손목 카메라는 정밀한 조작을 위해 근접 관찰을 가능하게 합니다.

 

4.2 System & Control

Whole-body compliance control.

전신 규정 준수 제어 프레임워크 [65]는 모든 degrees of freedom (DoF)를 전체적인 구조로 취급하여 임의의 원격 조작된 인간 동작을 실현 가능한 로봇 동작으로 재타겟팅합니다.
조작 가능성 최적화, 특이점 회피, 물리적 관절 한계를 실시간 최적 제어 문제 내에서 동시에 해결하여 로봇의 손재주를 극대화합니다.
이는 다양한 장기 조작 작업을 위해 대규모 작업 공간에서 유동적이고 지속적인 움직임을 생성하여 policy 학습을 위한 고품질 전문가 궤적을 생성합니다.
준수하는 힘 조절기는 매우 역동적인 움직임과 환경과의 물리적 상호작용을 가능하게 하여 안전성과 데이터 수집 효율성을 향상시킵니다.

 

Whole-body teleoperation.

원격 조작 데이터 수집 중에 Meta VR Quest를 통한 전신 리타겟팅은 직관적이고 사용자 친화적인 제어를 제공하여 인간의 움직임을 로봇 엔드 이펙터에 직접 매핑할 수 있습니다.
원격 운영자는 팔, 리프트 메커니즘, 그리퍼, 모바일 베이스 이동을 동시에 제어할 수 있어 복잡한 장거리 작업을 위한 원활한 데이터 수집이 가능합니다.

 

Trajectory optimization for policy rollout.

예측된 action 청크를 사용하여 로봇의 19개의 DoF (양력 메커니즘과 헤드에서 3개의 DoF 제외)를 제어하여 policy를 실행합니다.
우리는 policy rollout 중 GR-3에 의해 생성된 궤적의 안정성과 부드러움을 향상시키기 위해 순수 추구 [15]와 궤적 최적화를 통합합니다.
실시간 매개변수 최적화는 저크를 최소화하고 웨이포인트 간 및 궤적 간의 원활한 전환을 보장합니다.

 

 

5   Experiments

우리는 GR-3의 성능을 종합적으로 평가하기 위해 광범위한 실제 실험을 수행합니다.
실험을 통해 우리는 네 가지 질문에 답하는 것을 목표로 합니다:
 • GR-3는 학습 중에 보이지 않는 지침을 포함하여 엄격하게 준수합니까?
 • GR-3는 새로운 객체, 환경 및 지침을 포함한 배포 외 설정으로 일반화할 수 있습니까?
 • GR-3는 인간의 궤적 데이터에서 퓨 샷 학습을 수행하고 로봇 embodiment로 전환할 수 있습니까?
 • GR-3는 장기적이고 능숙한 작업을 수행할 수 있는 강력한 policy를 효과적으로 학습할 수 있습니까?

 

우리는 세 가지 작업을 고려합니다: 일반화 가능한 pick-and-place, long-horizon table bussing, 및 dexterous cloth hanging.
우리는 우리의 방법을 SOTA 방법인 π_0 [9]과 비교합니다.
공식 GitHub 저장소의 지침을 따르고, 제공된 기본 모델에서 π_0를 파인튜닝합니다, 이 모델은 대규모 로봇 데이터에 대해 사전 학습된 것으로, 세 가지 작업 각각에 대해 개별적으로 조정됩니다.

 

5.1 Generalizable Pick-and-Place

분포 외 환경에서 GR-3의 일반화 능력을 평가하기 위해, 우리는 일반화 중심의 pick-and-place 작업을 평가합니다.
총 101개의 물체를 덮는 35,000개의 로봇 궤적을 수집했으며, 이 작업은 총 69시간 동안 진행되었습니다.
로봇 궤적에 주석을 달기 위해 "put A into B"라는 지침을 사용합니다, 여기서 A는 객체 카테고리이고 B는 컨테이너입니다.
베이스라인 모델의 경우, 이러한 로봇 궤적 데이터를 사용하여 π_0을 파인튜닝합니다.
GR-3의 경우 로봇 궤적 데이터와 비전-언어 데이터를 모두 사용하여 모델을 공동 학습시킵니다.
학습 중에는 변화하는 환경에 대한 견고성을 향상시키기 위해 로봇 궤적의 이미지를 광도 증강으로 증강합니다.
우리는 또한 로봇 궤적만으로 모델을 학습시키는 우리 방법의 변형인 GR-3와 Co-Training을 비교합니다.
이 ablation 연구는 비전-언어 공동 학습의 영향을 평가하고 모델 성능에 기여하는 구체적인 이점을 파악하는 데 도움이 됩니다.

그림 6 일반화 가능한 Pick-and-Place의 실험 설정. (a) 학습 중에 보이는 물체를 테스트합니다. (b) 학습 중에 보이지 않는 물체를 테스트합니다. (c) 기본 환경은 학습 중에 나타납니다. 다른 것들은 학 중에 보이지 않는 분포 외 환경입니다.

Settings.

우리는 네 가지 다른 설정에서 평가합니다: 1) 기본, 2) 보이지 않는 환경, 3) 보이지 않는 지침, 4) 보이지 않는 물체.
기본에서는 학습 중에 보이는 환경에서 평가합니다.
학습 중에 보이는 54개의 객체 (그림 6(a))를 사용하여 기본적인 명령어 추종 기능을 테스트합니다.
보이지 않는 환경에서는 학습 중에 보이지 않는 네 가지 실제 환경에서 동일한 객체 세트를 사용하여 평가합니다: 계산대, 회의실, 책상, 휴게실 (그림 6(c)).
객체의 레이아웃은 기본 설정과 일치하도록 유지됩니다.
보이지 않는 지침에서는 복잡한 개념 이해가 필요한 지침으로 모델을 안내합니다, 예를 들어, "put the left coke into the carton"와 "put the animal with tentacles into the carton"와 같은 지침이 있습니다.
보이지 않는 물체에서는 로봇 궤적 데이터에서 보이지 않는 45개의 물체를 사용하여 평가합니다 (그림 6(b)).

 

우리는 instruction following (IF)과 성공률을 사용하여 모델 성능을 평가하며, 이는 각각 명령어 준수 능력과 작업 완료에 대한 전반적인 성능을 측정합니다.
IF 비율의 경우, 로봇이 주어진 지침에 따라 지정된 객체에 올바르게 접근하면 시험이 성공한 것으로 간주됩니다.
성공률을 위해 로봇이 타겟 물체를 용기에 넣으면 시험이 성공한 것으로 간주됩니다.
두 지표 모두에서 점수가 높을수록 더 강력한 능력을 나타냅니다.

 

Basic Instruction Following.

기본 환경과 보이지 않는 환경에서는 54개의 보이는 객체를 배치당 6개의 객체가 있는 9개의 미니 배치로 나눕니다.
각 롤아웃 시, 우리는 주어진 지침에 따라 모델이 여섯 개의 모든 객체 중에서 하나의 객체를 선택하도록 안내합니다.
다양한 모델 간의 결과 비교 가능성을 보장하기 위해 사전 캡처된 마스크에 따라 객체를 배치하여 평가 중 미니 배치의 객체 레이아웃이 가능한 한 일관되게 유지되도록 합니다.

그림 7 일반화 가능한 Pick-and-Place의 실험 결과. (a) 네 가지 다른 설정에서 일반화 가능한 Pick-and-Place에 대한 결과. (b) 인간 궤적을 이용한 샷 일반화 결과.

그림 7(a)에 나타난 바와 같이, GR-3는 IF 비율과 성공률 측면에서 기본 환경과 보이지 않는 환경 모두에서 π0을 능가합니다.
기본 환경과 보이지 않는 환경 간의 성능 저하는 환경 변화에 대한 GR-3의 견고성을 강조합니다.
또한, 이 두 가지 설정에서 공동 학습이 포함된 GR-3와 GR-3 사이에 유의미한 성능 차이가 관찰되지 않았으며, 이는 공동 학습이 관찰된 객체의 모델 성능에 영향을 미치지 않는다는 것을 시사합니다.

 

Generalizable Instruction Following.

보이지 않는 지침에서는 크기, 공간적 관계, 상식적인 지식과 관련된 추상적인 개념을 이해하는 능력을 테스트하는 것을 목표로 합니다.
예시 지침으로는 "put the coke next to the sprite into the carton", "put the largest object into the carton", "put the marine animal into the carton" 등이 있습니다.
이러한 지침은 로봇 궤적 데이터에서 보이지 않으며, 모델이 지침의 복잡한 시맨틱을 추론해야 합니다.
보이지 않는 객체에서는 45개의 보이지 않는 객체를 배치당 5개의 객체로 구성된 9개의 미니 배치로 나눕니다, 즉, 모델은 롤아웃당 5개의 객체 중 하나의 객체를 선택해야 합니다.
이 설정은 특히 도전적입니다, 45개의 객체 중 70% 이상이 로봇 궤적 데이터에서 보이지 않는 범주에 속하기 때문입니다.

 

그림 7(a)에 나타난 바와 같이, GR-3는 두 설정 모두에서 π0을 큰 차이로 능가하여 우수한 일반화 능력을 보여줍니다.
보이지 않는 명령어에서는 40%에서 77.1%로, 보이지 않는 객체에서는 40%에서 57.8%로 성공률을 높입니다.
GR-3는 또한 두 설정 모두에서 공동 학습을 통해 GR-3보다 훨씬 뛰어난 성능을 보여주며, 이는 vision-language (VL) 데이터와의 공동 학습이 강력한 일반화 능력에 기여한다는 것을 나타냅니다.
VLA 모델은 대규모 VL 데이터에서 얻은 풍부한 지식을 효과적으로 policy 학습에 전달하고 새로운 설정에서 강력한 제로샷 기능을 가능하게 합니다.
또한 로봇 궤적만으로 GR-3을 학습하면 π0 베이스라인에 비해 성능이 떨어지는 것으로 나타났습니다.
우리는 π0의 성능 우수성이 대규모 cross-embodiment 사전 학습에서 비롯된다고 가정합니다 [9].

 

Few-Shot Generalization from Human Trajectory Data.

우리는 또한 VR 기기로 수집된 인간 궤적을 사용하여 퓨샷 일반화 능력 [31, 71]을 평가합니다.
이는 1) 모델이 cross-embodiment 데이터에서 학습해야 하고 2) 데이터가 부족하기 때문에 어려운 일입니다.
구체적으로, 우리는 보이지 않는 객체 설정에서 45개의 보이지 않는 객체에 대해 객체당 최대 10개의 인간 궤적을 수집했습니다 (그림 6(b)).
450개의 인간 궤적의 전체 지속 시간은 약 30분입니다.
로봇 궤적과 VL 데이터로 학습된 체크포인트를 기반으로 GR-3를 점진적으로 학습합니다.
우리는 로봇 궤적 및 VL 데이터와 함께 인간 궤적 데이터를 추가로 통합하여 추가적인 20k단계에 대한 공동 학습을 수행합니다.

 

우리는 보이는 물체와 보이지 않는 물체 모두에서 다양한 퓨샷 설정(1-샷, 5-샷, 10-샷)에서 성능을 평가합니다 (그림 7(b)).
base 모델의 제로샷 성능과 비교했을 때, 우리는 보이지 않는 물체에 대한 더 많은 인간 궤적 데이터를 통해 IF 비율과 성공률을 지속적으로 향상시킬 수 있으며, 각 물체당 단 10개의 인간 궤적만으로도 성공률을 57.8%에서 86.7%로 높일 수 있습니다.
또한, 관찰된 객체에서 뚜렷한 성능 저하가 없다는 것을 알 수 있으며, 이는 사전 학습된 VLA 모델을 다운스트림의 새로운 설정에 적응시키기 위한 유망한 샘플 효율적이고 비용 효율적인 파인튜닝 전략임을 나타냅니다.

그림 8 테이블 bussing의 실험 설정 및 결과. (a) Flat: 로봇은 한 번의 실행으로 장거리 테이블 bussing을 운행해야 합니다. (b) Instruction following (IF): 로봇에게 여러 하위 작업 설명이 롤로 표시됩니다. (c) 테스트 객체. (d) Flat 및 Instruction following (IF) 설정의 결과.

5.2 Long-Horizon Table Bussing

우리는 장거리 조작을 처리하는 데 있어 GR-3의 견고성을 평가하기 위해 table bussing 작업에 대한 실험을 수행합니다 (그림 8).
이 작업에서 로봇은 지저분한 식기, 음식, 포장 상자, 플라스틱 bussing 박스가 있는 테이블을 청소해야 합니다.
작업을 완료하려면 로봇은 1) 음식을 포장 상자에 넣고, 2) 모든 도구를 버스 박스에 넣고, 3) 모든 쓰레기를 쓰레기통에 넣어야 합니다.
작업 공간이 넓기 때문에 로봇은 전체 작업을 수행하기 위해 이동 베이스를 이동 박스에서 bussing 박스로 이동시켜야 합니다 (그림 8(a)).
우리는 모델을 평평한 환경과 instruction-following (IF) 환경에서 평가합니다.

 

The Flat Setting.

이 설정에서는 로봇에게 "clean up the dining table"라는 일반적인 작업 지시를 한 번의 실행으로 전체 작업을 자율적으로 완료하도록 안내합니다 (그림 8(a)).
평평한 설정은 모델이 장거리 작업을 처리할 때의 견고성을 평가하는 데 도움이 됩니다.
우리는 성공적으로 완료된 하위 작업과 전체 하위 작업 수의 비율을 계산하는 평균 작업 진행률을 평가 지표로 사용합니다.
1.0의 값은 완전한 성공을 의미하며, 분수 값은 부분적인 성공에 해당합니다.
이 설정을 위해 총 다섯 가지 다른 객체 세트를 평가합니다.

 

The Instruction-Following (IF) Setting.

이 설정에서는 모델이 지침을 따르는 방식을 추가로 평가합니다.
로봇에게 "put the paper cup into the rubbish bin"와 같은 여러 하위 작업 설명을 롤로 표시하여 테이블을 청소하도록 요청합니다.
로봇은 홈 위치에서 시작하여 각 하위 작업을 수행합니다.
우리는 평균 하위 과제 성공률을 평가 지표로 사용합니다.
IF 설정은 총 여섯 가지 다른 지침 세트를 다룹니다 (그림 8(b)):

 • Basic: 객체 레이아웃은 학습 데이터에 있는 것과 매우 유사합니다.

 • Multiple Objects: 우리는 객체 카테고리의 하위 집합의 여러 인스턴스를 장면에 추가합니다.
로봇에게 이 카테고리에 속하는 모든 인스턴스를 bussing 박스나 쓰레기통에 넣으라고 명령하는 지침이 포함되어 있습니다. 

 • Multiple Destinations: 우리는 장면에 직조 바구니를 추가하고 로봇에게 직조 바구니나 bussing 박스에 도구를 넣으라고 명령합니다.

 • Multiple Objects & Destinations: 위의 두 설정을 결합하여 로봇에게 객체 카테고리의 모든 인스턴스를 두 목적지 중 하나로 이동하도록 지시합니다.

 • Novel Destinations: 로봇은 학습 데이터에서 물체와 함께 나타나지 않는 목적지로 물체를 이동시켜야 합니다, 예를 들어, “put the fork into the rubbish bin"

 • Invalid Tasks: 실제 응용에서는 로봇이 복잡한 명령어를 처리해야 하며, 그 중 일부는 유효하지 않을 수 있습니다.
예를 들어, 테이블에 파란 그릇이 없다면 "put the blue bowl into the plastic box"는 무효로 간주됩니다.
이러한 시나리오에서는 policy가 잘못된 유효한 작업을 수행하는 것을 거부하기를 원합니다 [52].
이 설정에서는 주어진 관찰로는 완료할 수 없는 작업으로 모델을 프롬프트합니다.
이 시험은 모델이 10초 이내에 어떤 물체도 조작하지 않는 경우에만 성공한 것으로 간주됩니다.

 

Implementations.

이 작업을 위해 총 약 101시간의 로봇 궤적을 수집했습니다.
기본 방법의 경우, 이러한 로봇 궤적에서 π0을 파인튜닝합니다.
GR-3의 경우 로봇 궤적과 vision-language (VL) 데이터를 모두 공동 학습합니다.
우리는 또한 우리 방법의 두 가지 변형인 GR-3 w/o Norm과 GR-3 w/o Task Status (TS)를 사용하여 ablation 연구를 수행합니다.
GR-3 w/o Norm은 DiT 블록의 어텐션과 FFN에서 도입된 RMSNorm을 제거합니다.
학습 중에는 TS가 없는 GR-3 작업 상태가 포함되지 않습니다.
모든 방법에 대해 두 가지 설정에 대해 각각 flat 버전과 IF 버전이라는 두 가지 개별 모델을 학습시킵니다.
flat 버전의 경우, 일반 작업과 하위 작업을 언어 지침으로 랜덤으로 샘플링합니다.
IF 버전의 경우, 학습 중에는 하위 작업만 지침으로 사용합니다.

 

Results.

그림 8(d)에 나타난 바와 같이, GR-3는 두 설정 모두에서 특히 IF 설정 (성공률 기준 53.8% vs. 97.5%)에서 π0보다 우수한 성능을 보였습니다.
π0는 장기적인 테이블 bussing을 수행할 수 있지만, 특히 배포되지 않는 시나리오에서는 명령어 팔로우에 어려움을 겪습니다.
포크와 숟가락을 구분할 수 없습니다.
그리고 새로운 목적지에서는 주어진 지침을 따르는 대신 학습 데이터에 있는 객체와 함께 나타나는 컨테이너에 객체를 넣습니다.
반면에 GR-3는 여섯 가지 테스트 세트 모두의 지침을 엄격하게 따릅니다.
여러 객체와 대상에 잘 일반화되며, 무효 작업에서 잘못된 작업을 수행하는 것을 억제할 수 있습니다.

 

RMSNorm을 제거하면 두 설정, 특히 IF 설정 모두에서 성능이 저하됩니다.
GR-3 w/o Norm은 지침을 잘 따르지 못합니다.

특히 새로운 목적지로 일반화할 수 없습니다.
이 결과는 지시 후속 기능을 향상시키는 데 있어 RMSNorm의 중요한 역할을 강조합니다.
작업 상태가 없으면 IF 기능도 저하되어 VLA 모델이 지침을 따르도록 돕는 작업 상태의 효과가 강조됩니다.

 

5.3 Dexterous Cloth Manipulation

이 실험에서는 변형 가능한 물체의 능숙한 조작에 대해 GR-3을 평가합니다.
특히, 우리는 모델이 옷걸이가 달린 건조대에 옷을 걸 수 있도록 도전합니다 (그림 2).
이 작업에서 로봇은 1) 옷걸이를 집어 들고, 2) 옷을 옷걸이에 올려놓고, 3) 옷을 건조대에 걸어야 합니다.
마지막 단계에서 로봇은 옷을 걸기 위해 이동식 받침대를 테이블에서 건조대로 회전시켜야 합니다.
이 작업을 위해 총 116시간의 로봇 궤적을 수집했습니다.

이 데이터를 바탕으로 π0을 학습시켰습니다.
GR-3의 경우, 우리는 이러한 로봇 궤적과 비전 언어 데이터를 공동 학습합니다.
우리는 세 가지 다른 설정에서 평가를 수행합니다: Basic, Position, 그리고 Unseen Instances.

그림 9 손재주 있는 천 조작의 실험 설정. (a) 테스트 세트에서 본 옷과 본 적 없는 옷. (b) Basic 및 Position 설정.

Settings.

Basic의 경우, 학습 중에 보이는 여섯 가지 옷을 평가합니다.
옷들은 학습 데이터와 비슷하게 배치되어 있습니다.
위치에 대해서는 그림 9(b)와 같이 옷을 회전시키고 구겨서 만듭니다.
위치 설정은 모델이 까다로운 옷 레이아웃을 처리하는 데 있어 견고함을 평가합니다.
보이지 않는 인스턴스에서는 학습 중에 보이지 않는 옷으로 일반화할 수 있는 모델의 능력을 평가합니다.
구체적으로, 우리는 네 가지 보이지 않는 옷으로 평가합니다 (그림 9(a)).
학습 데이터에서는 모든 옷이 긴팔이지만, 테스트 세트에서는 보이지 않는 두 벌의 옷이 짧은팔입니다.
평균 작업 진행률을 평가 지표로 사용하며, 여기서 완전한 성공 – 건조대에 셔츠를 걸면 – 은 1.0에 해당합니다.
전체 과정은 네 가지 주요 이정표로 나뉩니다: 1) 옷걸이를 집어 들고, 2) 오른쪽 어깨를 옷걸이에 올리고, 3) 왼쪽 어깨를 옷걸이에 올리고, 4) 셔츠를 건조대에 걸었습니다 (그림 10(a)).
각 마일스톤은 전체 작업 진행 상황에 분수 점수를 부여합니다.

그림 10 손재주 있는 천 조작에 대한 실험 결과. (a) Basic 설정의 전체 롤아웃에 걸친 성공 (견고)과 실패 (해치)의 Sankey 다이어그램. (b) 세 가지 평가 환경에서 π0 및 GR-3의 평균 작업 진행률.

Results.

결과는 그림 10에 나와 있습니다.
GR-3는 세 가지 평가 설정 모두에서 π0을 능가합니다.
Basic과 Position에서 각각 평균 86.7%와 83.9%의 작업 진행률을 달성하여 복잡한 손재주 작업을 능숙하게 처리하고 포지션 변동에 대한 견고함을 보여줍니다.
또한 GR-3는 새로운 패턴과 소매 길이로 보이지 않는 옷에 일반화할 수 있어 평균 작업 진행률이 75.8%에 달합니다.
롤아웃 프로세스를 살펴보기 위해 그림 10(a)의 기본 설정의 네 가지 마일스톤에 걸쳐 성공과 실패에 대한 Sankey 다이어그램을 보여줍니다.
두 모델 모두에서 가장 어려운 부분은 오른쪽 어깨 뒤에 왼쪽 어깨를 걸이에 놓는 것입니다.
이는 로봇이 옷걸이를 잡고 잡기 위해 종종 옷걸이 뒤로 접히는 왼쪽 칼라를 당겨야 하기 때문입니다.
또 다른 고장 모드는 행거가 왼쪽 어깨를 그리퍼 위에 올려놓는 동안 그리퍼에서 미끄러져 마지막 단계에서 고장이 발생할 때 발생합니다.

 

 

6   Related Work

Generalist Manipulation Policies.

물리적 세계와 효과적으로 상호작용하기 위한 지침을 따를 수 있는 일반주의적 조작 policy를 구축하는 것은 로봇 연구에서 오랜 도전 과제였습니다 [3, 6, 7, 9–11, 29, 37, 43, 44, 64, 66, 68].
이전 연구들 [33, 53, 61, 74]은 대규모 데이터를 통해 표현을 학습하여 복잡한 작업에서 더 견고한 로봇 행동을 가능하게 할 것을 제안합니다.
최근 vision-language-action (VLA) 모델의 발전은 policy 일반화를 강화하고 조작 능력을 향상시키기 위해 다양한 접근 방식을 채택하고 있습니다.
인기 있는 [9, 18, 29, 37, 41, 49, 55, 58, 60, 68, 70] 작업 라인은 다양한 로봇 embodiments [17, 21, 36, 55, 69]에서 수집된 궤적을 포함하는 cross-embodiment 데이터를 통해 policy를 학습합니다.
실제 로봇 궤적과 함께, 다른 [9, 11, 29]들은 사전 학습된 비전-언어 모델을 활용하여 로봇 policy를 개발하며, 보이지 않는 환경으로 일반화하는 데 강력한 능력을 보여줍니다.
일반화를 개선하는 또 다른 방법은 웹 규모의 비디오 데이터셋 [8, 13, 20, 28, 40, 73]에서 미래 예측을 수행하거나, 액션이 없는 비디오에서 잠재적인 액션 [7, 12, 77]을 학습하는 것입니다.
이 연구에서는 로봇 궤적과 비전-언어 데이터를 공동으로 학습하고 퓨샷으로 인간 궤적을 효율적으로 파인튜닝할 수 있는 VLA 모델인 GR-3을 소개합니다.
광범위한 실험을 통해, 우리는 GR-3가 1) 엄격하게 지침을 따르고 새로운 객체, 환경 및 지침에 일반화할 수 있음을 보여줍니다, 2) 소수의 인간 궤적 데이터로부터 새로운 설정에 효율적으로 적응할 수 있으며, 3) 높은 견고성으로 장기적이고 능숙한 작업을 수행할 수 있음을 보여줍니다.

 

Multi-Modal Co-Training for Robot Manipulation.

실제 로봇 궤적을 수집하는 것은 비용과 시간이 많이 듭니다.
그 결과, policy 학습을 확장할 때 데이터 소스를 확장하는 것이 중요해집니다 [32, 46].
인기 있는 접근 방식은 사전 학습된 비전 인코더 [33, 50, 53, 61, 74] 또는 최근에 사전 학습된 비전-언어 모델 [7, 9, 11, 29]에서 policy를 초기화하는 것입니다.
이 프레임워크를 기반으로 학습 중에는 로봇 궤적 외에도 멀티모달 데이터를 통합하는 것이 자연스럽습니다 [11, 29, 58, 63, 76].
특히, GATO [63]는 이미지 캡셔닝 및 실제 로봇과의 블록 스태킹을 포함한 다양한 작업을 수행할 수 있는 일반 에이전트를 구축합니다.
다양한 모달리티의 데이터를 일련의 토큰으로 변환하고 다음 토큰 예측을 위해 대규모 트랜스포머를 학습시킵니다.
RT-2 [11]은 로봇 궤적과 비전-언어 데이터 모두에서 대형 비전-언어 모델을 공동으로 파인튜닝하는 것이 일반화를 크게 향상시킨다는 것을 보여줍니다.
이질적인 데이터에 대한 공동 학습을 통해 π0.5 [29]는 환경과 객체 전반에 걸쳐 탁월한 일반화를 보여주며, 실제 보이지 않는 시나리오에서도 효과적인 배포를 가능하게 합니다.
이 작업에서 GR-3는 유사한 공동 학습 전략을 채택합니다.
우리는 여러 데이터 소스로부터 잘 설계된 웹 규모의 비전-언어 데이터셋을 큐레이션하고, 다양한 비전-언어 작업에 대한 대규모 공동 학습을 수행합니다.
대규모 공동 학습을 통해 GR-3는 보이지 않는 객체에 대한 제로샷 일반화와 추상적인 개념 이해가 필요한 복잡한 명령어에 강력한 능력을 발휘합니다.

 

Leveraging Human Data for Policy Training.

데이터 효율성을 높이기 위해 인간 데이터를 policy 학습에 통합하는 것이 로봇 연구에서 인기 있는 접근 방식이 되었습니다.
인기 있는 작품 [1, 5, 51, 72]은 policy 학습을 강화하기 위해 인간 비디오에서 다양한 유형의 표현을 추출합니다.
Wu et al. [73]과 Chang et al. [13]은 생성적 비디오 사전 학습을 위해 대규모 인간 비디오를 활용할 것을 제안합니다 [16, 23, 24].
최근 손 추적 및 VR 장치의 개발로 인해 Qiu et al. [59]과 Kareer et al. [34]은 손 궤적이 있는 인간 비디오가 소량의 로봇 데이터와 공동 학습을 통해 로봇 embodiments에 대한 policy 성능을 향상시킬 수 있음을 보여줍니다.
이 보고서에서는 이러한 연구 라인을 따라 GR-3가 인간 궤적에서 퓨샷 학습을 통해 새로운 환경에 효과적으로 적응할 수 있음을 보여줍니다.

 

 

7   Limitations & Conclusions

Limitations and future work.

어려운 작업에서 강력한 성능을 발휘함에도 불구하고 GR-3에는 한계가 있습니다.
강력한 일반화 능력을 보여주지만, 새로운 개념과 객체가 포함된 보이지 않는 지시를 따르는 실수를 저지르고, 보이지 않는 형태의 객체를 잡는 데 어려움을 겪습니다.
우리는 새로운 시나리오를 처리하는 데 있어 모델 성능을 지속적으로 향상시키기 위해 모델과 학습 데이터를 확장할 계획입니다.
또한, 모든 모방 학습 방법과 마찬가지로 GR-3는 롤아웃 중 배포되지 않은 상태에 갇혀 실패에서 회복하지 못할 수 있습니다.
미래에는 복잡하고 손재주가 많은 작업에 대한 견고성을 강화하고 모방 학습의 한계를 넘어 성능을 최적화하기 위해 reinforcement learning (RL)을 도입할 계획입니다.

 

Conclusions.

이 보고서에서는 이중 수동 이동 로봇을 제어하기 위한 action을 출력하는 강력한 vision-language-action (VLA) 모델인 GR-3을 소개합니다.
우리는 모델 아키텍처를 신중하게 연구하고 대규모 비전 언어 데이터와의 공동 학습, 인간 궤적에서의 효율적인 퓨샷 학습, 로봇 궤적에서의 효과적인 모방 학습을 결합한 종합적인 학습 레시피를 개발합니다.
세 가지 도전적인 작업에 대한 광범위한 실제 실험을 통해 GR-3가 추상적인 개념으로 복잡한 명령어를 이해하는 데 탁월하고, 새로운 객체와 환경에 효과적으로 일반화되며, 최소한의 인간 궤적에서 효율적으로 학습하고, 뛰어난 견고성과 신뢰성으로 장기적이고 능숙한 작업을 수행한다는 것을 보여줍니다.
우리는 GR-3가 현실 세계에서 인간의 다양한 작업을 도울 수 있는 일반 로봇을 만드는 데 한 걸음이 되기를 바랍니다.