RT-1: Robotics Transformer for Real-World Control at Scale

RT-1: Robotics Transformer for Real-World Control at Scale

2025. 3. 10. 11:26ㆍRobotics

RT-1: Robotics Transformer for Real-World Control at Scale

Robotics at Google, Everyday Robots, Google Research, Brain Team

Abstract

대규모의 다양한 작업에 구애받지 않는 데이터셋에서 지식을 이전함으로써, 최신 머신러닝 모델은 제로샷 또는 소규모 작업별 데이터셋을 사용하여 특정 다운스트림 작업을 높은 수준의 성능으로 해결할 수 있습니다.
이 능력은 컴퓨터 비전, 자연어 처리 또는 음성 인식과 같은 다른 분야에서도 입증되었지만, 실제 로봇 데이터를 수집하기 어렵기 때문에 모델의 일반화 능력이 특히 중요한 로보틱스에서는 아직 입증되지 않았습니다.
우리는 이러한 일반 로봇 모델의 성공 비결 중 하나가 다양한 로봇 데이터를 모두 흡수할 수 있는 고용량 아키텍처와 결합된 개방형 작업 무관 학습에 있다고 주장합니다.
이 논문에서는 유망한 확장 가능한 모델 특성을 보이는 Robotics Transformer라는 모델 클래스를 제시합니다.
우리는 실제 작업을 수행하는 실제 로봇에 대한 대규모 데이터 수집을 기반으로 다양한 모델 클래스와 데이터 크기, 모델 크기 및 데이터 다양성의 함수로 일반화할 수 있는 능력에 대한 연구에서 결론을 검증합니다.

1 Introduction

종단 간 로봇 학습은 모방 또는 강화를 통해 일반적으로 단일 태스크 (Kalashnikov et al., 2018; Zhang et al., 2018) 또는 로봇이 수행해야 할 작업에 좁게 조정된 멀티 태스크 (Kalashnikov et al., 2021b; Zhang et al., 2021) 설정에서 작업별 데이터를 수집하는 것을 포함합니다.
이 워크플로우는 컴퓨터 비전 및 NLP와 같은 다른 도메인에서 supervised learning에 대한 고전적인 접근 방식을 반영합니다, 이러한 접근 방식에서는 작업별 데이터셋을 수집, 라벨링하여 개별 작업을 해결하고, 작업 자체 간의 상호 작용이 거의 없습니다.
최근 몇 년 동안 비전, NLP 및 기타 영역이 고립된 소규모 데이터셋과 모델에서 벗어나 광범위하고 대규모 데이터셋에서 사전 학습된 대규모 일반 모델로 변화하고 있습니다.
이러한 모델의 성공 비결은 대규모 데이터셋에 존재하는 모든 지식을 흡수할 수 있는 고용량 아키텍처와 결합된 개방형 작업 무관 학습에 있습니다.
모델이 언어나 인식의 일반적인 패턴을 학습하기 위해 경험을 "sponge up"할 수 있다면, 개별 작업을 더 효율적으로 수행할 수 있습니다.
대규모 작업별 데이터셋의 필요성을 제거하는 것은 일반적으로 supervised learning에서 매력적이지만, 데이터셋이 엔지니어링이 많이 필요하거나 비용이 많이 드는 인간 시연이 필요할 수 있는 로보틱스에서는 더욱 중요합니다.
따라서 우리는 묻습니다: 다양한 로봇 작업으로 구성된 데이터를 기반으로 단일하고 유능하며 대규모의 멀티태스크 백본 모델을 학습할 수 있습니까?
그리고 이러한 모델이 새로운 작업, 환경, 객체에 대한 제로샷 일반화를 나타내며 다른 영역에서 관찰되는 이점을 누리고 있습니까?

로보틱스에서 이러한 모델을 구축하는 것은 쉽지 않습니다.
최근 몇 년 동안 문헌에서 여러 대규모 멀티태스크 로봇 policy들이 제안되었지만 (Reed et al., 2022; Jang et al., 2021), 이러한 모델은 Gato와 같이 실제 작업의 범위가 제한되거나 (Reed et al., 2022), 새로운 작업으로 일반화하기보다는 학습 작업에 초점을 맞추는 경우가 많습니다 (Shridhar et al., 2021; 2022), 또는 최근의 명령어 후속 방법 (Stridhar et al., 2021; Jang et al., 2021), 또는 새로운 작업에서 상대적으로 낮은 성능을 달성하는 경우가 많습니다 (Jang et al., 2021).

두 가지 주요 과제는 올바른 데이터 세트를 조립하고 올바른 모델을 설계하는 것입니다.
데이터 수집 및 큐레이션은 종종 많은 대규모 머신러닝 프로젝트 (Radford et al., 2021; Ramesh et al., 2021)의 "unsung hero"이지만, 특히 로보틱스에서는 데이터셋이 로봇에 특화되어 수동으로 수집되는 경우가 많습니다 (Dasari et al., 2019; Ebert et al., 2021).
평가에서 보여드리겠지만, 좋은 일반화를 위해서는 다양한 작업과 설정을 포괄하는 규모와 폭을 모두 갖춘 데이터셋이 필요합니다.
동시에, 데이터셋의 작업들은 일반화를 가능하게 하기 위해 충분히 잘 연결되어야 하며, 이를 통해 모델이 구조적 유사 작업들 간의 패턴을 발견하고 새로운 방식으로 이러한 패턴을 결합한 새로운 작업을 수행할 수 있어야 합니다.
우리는 ~130k 편의 에피소드와 700개 이상의 작업을 포함한 13개의 로봇으로 구성된 17개월 동안 수집한 데이터셋을 활용하여 이 데이터셋의 다양한 측면을 평가했습니다.

두 번째 도전 과제는 모델 자체의 설계에 있습니다.
효과적인 로봇 멀티태스크 학습을 위해서는 고용량 모델이 필요하며, Transformer (Vaswani et al., 2017) 모델은 특히 우리의 경우처럼 언어 지침을 조건으로 많은 작업을 학습해야 할 때 이 점에서 뛰어납니다.
그러나 로봇 컨트롤러는 실시간으로 작동할 수 있을 만큼 효율적이어야 하므로 특히 트랜스포머에게 큰 도전 과제가 됩니다.
우리는 RT-1 (Robotics Transformer 1)이라고 부르는 새로운 아키텍처를 제안합니다, 이는 카메라 이미지, 명령어 및 모터 명령어를 포함한 고차원 입력 및 출력을 압축된 토큰 표현으로 인코딩하여 트랜스포머가 사용할 수 있도록 함으로써 런타임 시 효율적인 추론을 가능하게 합니다.

우리의 기여는 RT-1 모델이며, 실제 로봇 작업의 대규모 및 광범위한 데이터셋에서 이 모델을 실험하는 것입니다.
우리의 실험은 RT-1이 이전 기술들에 비해 크게 향상된 일반화와 견고성을 보일 수 있을 뿐만 아니라, 모델과 학습 세트의 구성 모두에서 많은 설계 선택을 평가하고 완화할 수 있음을 보여줍니다.
우리의 결과에 따르면 RT-1은 700개 이상의 학습 지시를 97%의 성공률로 수행할 수 있으며, 새로운 작업, 방해 요소 및 배경에 대해 각각 25%, 36%, 18% 더 나은 성능을 발휘할 수 있습니다.
이 수준의 성능 덕분에 SayCan (Ahn et al., 2022) 프레임워크에서 50단계까지 매우 긴 작업을 수행할 수 있습니다.
또한 RT-1이 시뮬레이션 또는 다른 로봇 유형의 데이터를 통합하여 원래 작업의 성능을 유지하고 새로운 시나리오에 대한 일반화를 개선할 수 있음을 보여줍니다.
RT-1 기능에 대한 간략한 개요는 그림 1b에 나와 있습니다.

2 Related Work

최근 여러 연구에서 로봇 제어를 위한 트랜스포머 기반 policy들을 제안했습니다.
RT-1과 마찬가지로 여러 작품에서는 트랜스포머로 처리된 언어 명령어를 새로운 작업을 구체화하고 일반화하기 위한 강력한 프레임워크로 사용합니다 (Zhang & Chai, 2021; Pashevich et al., 2021; Silva et al., 2021; Jang et al., 2021; An et al., 2022; Nair et al., 2022).
우리의 연구는 트랜스포머의 적용을 한 단계 더 발전시켜, 언어 및 비전 관찰을 로봇 action에 매핑하는 문제를 시퀀스 모델링 문제로 다루고 있습니다, 이 매핑을 학습하기 위해 트랜스포머를 사용합니다.
이 아이디어는 게임 플레이 (Chen et al., 2021; Lee et al., 2022a)와 시뮬레이션 로봇 내비게이션 (Fang et al., 2019), 이동 (Janner et al., 2021; Gupta et al., 2022), 조작 (Jiang et al., 2022) 환경에서의 성공에서 직접 영감을 받았습니다.
우리는 이러한 연구들 중 일부가 텍스트 조건화를 넘어 로봇 형태 (Gupta et al. (2022)) 및 작업 사양에 대한 다른 모달리티 (예: Jang et al. (2021); Jiang et al. (2022))에 걸쳐 일반화하기 위해 트랜스포머를 사용한다는 점에 주목합니다.
이러한 확장은 RT-1의 미래 방향을 약속합니다.

트랜스포머 기반 policy들을 넘어, 우리의 연구는 대규모로 일반화 가능하고 견고한 실제 로봇 조작에 중점을 두고 있습니다.
기존의 실제 트랜스포머 기반 로봇 조작 연구는 작업별 시연 세트에서 작업을 효율적으로 학습하는 데 중점을 둡니다(Shridhar et al., 2022).
Behavior Transformer (Shafiullah et al., 2022)와 Gato (Reed et al., 2022)는 대규모 로봇 및 비로봇 데이터셋에서 단일 모델을 학습하는 것을 지지합니다.

그러나 이러한 연구들은 실제 로봇 작업에서 제한적입니다, 예를 들어, Gato는 새로운 작업이나 다양한 실제 환경에 대한 일반화를 평가하지 않고도 단일 작업 (컬러 블록 스태킹)을 효과적으로 학습합니다.

기술적 측면에서, 우리의 연구는 실시간 제어에 필요한 계산 효율성과 고용량 및 일반화를 결합하기 위해 트랜스포머 기반 policy들을 어떻게 구축할 수 있는지 검토합니다.

고용량 트랜스포머 모델을 사용하여 로봇 제어 policy들을 학습하는 것은 비교적 최근의 혁신이지만, 로보틱스는 오랜 역사를 가지고 있으며, 멀티태스크와 언어-조건 학습을 기반으로 하고 있으며, RT-1은 이러한 기반을 바탕으로 하고 있습니다.
로봇 grasping을 위한 학습 policy들과 예측 모델을 다루는 중요한 연구 (Saxena et al., 2006; Lenz et al., 2015; Pinto & Gupta, 2016; Gupta et al., 2018; Viereck et al., 2017)는 새로운 객체로 일반화하는 것을 목표로 하고 있습니다.
이전 연구들은 언어 파싱, 비전, 로봇 제어를 결합한 파이프라인 접근 방식 (MacMahon et al., 2006; Kollar et al., 2010; Tellex et al., 2011)과 종단 간 접근 방식 (Mei et al., 2016; Stepputtis et al., 2020; Lynch & Sermanet, 2020; Anne et al., 2022)을 통해 로봇 언어 이해를 해결하고자 했습니다.
멀티태스크 로봇 학습은 목표 달성을 위한 학습 (Chung et al., 2015; Raffin et al., 2019; Jurgenson et al., 2020; Huang et al., 2020)과 이산 집합 또는 기타 매개변수화된 형태로 작업을 수행할 수 있는 학습 policy들 (Deisenroth et al., 2014; Devin et al., 2017; Fox et al., 2019; Kalashnikov et al., 2021a)의 관점에서도 접근하고 있습니다.
로보틱스의 여러 이전 연구들도 다양한 작업을 설명하는 시연이나 실험을 포함하는 데이터셋을 수집하는 데 중점을 두었습니다 (Sharma et al., 2018; Dasari et al., 2019; Yu et al., 2020; Singh et al., 2020; James et al., 2020).
우리의 연구는 멀티태스크, 언어-조건부 로봇 학습의 힘을 뒷받침하는 추가적인 증거를 추가하여, 더 큰 규모의 실험 결과와 더 다양한 action, 객체, 장면을 제시하고, 훨씬 더 큰 규모의 로봇 학습을 가능하게 하는 새로운 아키텍처와 설계 선택을 제안합니다.

3 Preliminaries

Robot learning.

우리는 비전에서 언어-조건 과제를 해결하기 위한 로봇 policy들을 학습하는 것을 목표로 합니다.
공식적으로 우리는 순차적인 의사-결정 환경을 고려합니다.
시간 단계 t = 0에서 policy π는 언어 명령 i와 초기 이미지 관찰 x_0으로 표시됩니다.
policy는 action a_0을 샘플링하여 로봇에 적용하는 action 분포 π(· | i, x_0)를 생성합니다.

이 과정은 계속되며, policy는 학습된 분포 π(· | i, {x_j})에서 샘플링하여 로봇에 적용하여 반복적으로 action a_t를 생성합니다.

종료 조건이 달성되면 상호작용이 종료됩니다.

시작 단계 t = 0에서 종료 단계 T까지의 전체 상호작용 i, {(x_j, a_j)}을 에피소드라고 합니다.
에피소드가 끝나면 agent는 로봇이 지시 i를 수행했는지 여부를 나타내는 이진 reward r ∈ {0, 1}을 받게 됩니다.
목표는 지침 분포, 시작 상태 x_0, 전환 역학에 대한 기대감에서 평균 reward를 최대화하는 policy π을 학습하는 것입니다.

Transformers.

RT-1은 Transformer (Vaswani et al., 2017)를 사용하여 policy π를 매개변수화합니다.
일반적으로 트랜스포머는 셀프 어텐션 레이어와 완전 연결 신경망의 조합을 사용하여 입력 시퀀스 {ξ_h}를 출력 시퀀스 {y_k}에 매핑하는 시퀀스 모델입니다.
트랜스포머는 원래 텍스트 시퀀스를 위해 설계되었지만, 각 입력 ξ_j와 출력 y_k가 텍스트 토큰을 나타내는 경우 이미지 (Parmar et al., 2018)와 다른 모달리티 (Lee et al., 2022a; Reed et al., 2022)로 확장되었습니다.
다음 섹션에서 자세히 설명하는 바와 같이, 우리는 입력 i, {x_j}를 시퀀스 {ξ_h}에 매핑하고, 작업 출력을 시퀀스 {y_k}에 매핑하여 π을 매개변수화한 후 트랜스포머를 사용하여 매핑 {ξ_h} → {y_k}를 학습합니다.

Imitation learning.

모방 학습 방법은 데모 데이터 세트 D에서 policy π를 학습시킵니다 (Pomerleau, 1988; Zhang et al., 2018; Zhang et al., 2021).
구체적으로, 우리는 에피소드 데이터 세트 D = {(i^(n)), {(x_t^(n), a_t^(n))}에 접근할 수 있다고 가정합니다, 이 모든 에피소드는 성공적입니다 (즉, 최종 reward가 1입니다).

우리는 behavioral cloning (Pomerleau, 1988)를 사용하여 π을 학습합니다, 이는 이미지와 언어 지침에 따라 action a_t의 negative log likelihood를 최소화하여 π을 최적화합니다.

그림 2: (a) 대규모 데이터를 수집하는 로봇 교실; (b) 평가에 사용되는 두 가지 현실적인 환경 중 하나인 실제 사무실 주방; (c) 평가에 사용되는 다른 사무실 주방 (논문의 나머지 부분에서는 Kitchen2로 명명); (d) 논문 전반에 걸쳐 사용되는 모바일 조작기; (e) 기술 다양성을 확장하기 위해 대부분의 기술에 사용되는 객체 세트; (f) 피킹 기술의 객체 다양성을 확장하기 위해 주로 사용되는 더 다양한 객체 세트.

4 System Overview

이 연구의 목표는 대량의 데이터를 흡수하고 효과적으로 일반화할 수 있는 일반적인 로봇 학습 시스템을 구축하고 시연하는 것입니다.
우리는 Everyday 로봇의 모바일 매니퓰레이터를 사용합니다, 이는 7 자유도 암, 두 손가락 그립퍼, 그리고 모바일 베이스를 갖추고 있습니다 (그림 2 (d) 참조).
데이터를 수집하고 방법을 평가하기 위해 세 가지 주방 기반 환경을 사용합니다: 두 개의 실제 사무실 주방과 이를 모델로 한 학습 환경.
그림 2 (a)에 표시된 학습 환경은 부분 카운터로 구성되어 있으며 대규모 데이터 수집을 위해 구축되었습니다.
그림 2 (b, c)에 표시된 두 실제 환경은 학습 환경과 유사한 조리대를 가지고 있지만 조명, 배경 및 전체 주방 구조가 다릅니다 (예: 서랍 대신 캐비닛이 있거나 싱크대가 보일 수 있습니다).
우리는 이러한 다양한 환경에서 policy의 성과를 평가하고, policy의 성과와 일반화 능력을 측정합니다.

우리의 학습 데이터는 인간이 제공한 시연으로 구성되어 있으며, 로봇이 방금 수행한 지침에 대한 텍스트 설명과 함께 각 에피소드에 주석을 달았습니다.
지침에는 일반적으로 동사와 타겟 객체를 설명하는 하나 이상의 명사가 포함됩니다.
이러한 지침을 그룹화하기 위해 여러 가지 기술 (예: "pick", "open" 또는 "place upright"과 같은 동사)과 객체 (예: "coke can", "apple" 또는 "drawer"와 같은 명사)로 나눕니다.
우리는 섹션 5.2에서 대규모 데이터 수집 전략의 세부 사항을 설명합니다.
우리의 가장 큰 데이터셋에는 다양한 객체를 사용하여 700개 이상의 서로 다른 작업 지침을 구성하는 130k 개 이상의 개별 데모가 포함되어 있습니다 (그림 2(f)).
우리는 섹션 5.2에서 수집된 데이터의 세부 사항을 설명합니다.

우리 시스템의 주요 기여 중 하나는 네트워크 아키텍처인 Robotics Transformer 1 (RT-1)입니다, 이는 대량의 데이터를 흡수하고, 효과적으로 일반화하며, 실질적인 로봇 제어를 위해 실시간 속도로 action을 출력할 수 있는 효율적인 모델입니다.
RT-1은 짧은 이미지 시퀀스와 자연어 명령을 입력으로 받아 각 시간 단계마다 로봇에 대한 action을 출력합니다.
이를 위해, 아키텍처 (그림 1a에 표시됨)는 여러 요소를 활용합니다: 먼저 이미지와 텍스트는 FiLM (Perez et al., 2018)을 통해 사전 학습된 명령어 임베딩을 조건으로 ImageNet pretrained convolutional network (Tan & Le, 2019)를 통해 처리되며, 그 다음으로 TokenLearner (Ryoo et al., 2021)를 통해 압축된 토큰 세트를 계산하고, 마지막으로 Transformer (Vaswani et al., 2017)를 통해 이러한 토큰에 attend하여 이산화된 action 토큰을 생성합니다.
action은 암 움직임을 위한 7차원 (x, y, z, roll, pitch, yaw, opening of the gripper), 베이스 움직임을 위한 3차원 (x, y, yaw), 그리고 세 가지 모드 간 전환을 위한 이산 차원으로 구성됩니다: 암, 베이스를 제어하거나 에피소드를 종료합니다.
RT-1은 폐쇄 루프 제어를 수행하고 "terminate" action을 생성하거나 미리 설정된 시간 단계 제한에 도달할 때까지 3Hz에서 action을 명령합니다.

5 RT-1: Robotics Transformer

이 섹션에서는 이미지, 텍스트 및 action을 토큰화하는 방법을 설명한 다음 RT-1 모델 아키텍처에 대해 논의합니다.
그런 다음 실시간 제어에 필요한 런타임 속도를 달성하는 방법을 설명합니다.
마지막으로 데이터 수집 절차와 데이터셋의 기술 및 지침에 대해 설명합니다.

그림 3: RT-1의 아키텍처 다이어그램. 이 명령어는 USE 임베딩으로 변환되어 FiLM 레이어를 통해 사전 학습된 EfficientNet을 조건화하는 데 사용됩니다. 결과적으로 생성된 비전 언어 토큰은 TokenLearner에 의해 축소되어 디코더 전용 트랜스포머에 입력되며, 이 트랜스포머는 토큰화된 action을 출력합니다.

5.1 Model

우리 모델은 Transformer 아키텍처 (Vaswani et al., 2017)를 기반으로 구축되었으며, 이미지와 작업 설명의 이력을 입력으로 받아 토큰화된 action을 직접 출력합니다, 그림 1a와 그림 3에 자세히 나와 있음.
다음에서는 그림 3의 상하 순서에 따라 모델의 구성 요소를 설명합니다.
규모별 모델 선택에 대한 자세한 내용은 부록 C.3에 나와 있습니다.

Instruction and image tokenization.

RT-1 아키텍처는 이미지 및 언어 명령어의 데이터 효율적이고 간결한 토큰화를 기반으로 합니다.
RT-1은 ImageNet 사전 학습된 EfficientNet-B3 (Tan & Le, 2019) 모델을 통해 이미지를 전달함으로써 6개의 이미지의 이력을 토큰화합니다, 이 모델은 해상도 300×300의 6개의 이미지를 입력으로 받아 최종 컨볼루션 레이어에서 9×9×512 형태의 공간 피쳐 맵을 출력합니다.
Reed et al. (2022)과 달리, 우리는 이미지를 트랜스포머 백본에 제공하기 전에 시각적 토큰으로 패치하지 않습니다.
대신 EfficientNet의 출력 피쳐 맵을 81개의 시각적 토큰으로 평탄화하여 네트워크의 후반 레이어에 전달합니다.

언어 명령어를 포함하기 위해, 우리는 자연어 명령어에 이미지 토큰화기를 사전 학습된 언어 임베딩 형태로 조건화하여 작업 관련 이미지 피쳐를 조기에 추출하고 RT-1의 성능을 향상시킬 수 있게 합니다.
이 명령어는 먼저 Universal Sentence Encoder (Cer et al., 2018)를 통해 임베드됩니다.
이 임베딩은 이미지 인코더를 조건화하기 위해 사전 학습된 EfficientNet에 추가된 identity-initialized FiLM 레이어 (Perez et al., 2018)에 대한 입력으로 사용됩니다.
일반적으로 사전 학습된 네트워크 내부에 FiLM 레이어를 삽입하면 중간 활성화가 중단되고 사전 학습된 가중치를 사용하는 이점이 무효화됩니다.
이를 극복하기 위해, 우리는 FiLM 아핀 변환을 0으로 생성하는 밀집된 레이어 (f_c 및 h_C)의 가중치를 초기화하여, FiLM 레이어가 처음에 identity로 작용하고 사전 학습된 가중치의 기능을 보존할 수 있도록 합니다.
우리는 identity-initialized FiLM이 ImageNet 사전 학습 없이 처음부터 초기화된 EfficientNet으로 학습할 때 더 나은 결과를 제공한다는 것을 발견했지만, 위에서 설명한 초기화를 능가하지는 못했습니다.
이미지 토큰화기의 아키텍처는 그림 3에 나와 있습니다.

RT-1의 FiLM EfficientNet-B3를 통한 이미지 및 명령어 토큰화는 총 16M 개의 파라미터로, 26개의 MBConv 블록과 FiLM 레이어로 구성되어 81개의 비전-언어 토큰을 출력합니다.

TokenLearner.

RT-1이 attend하는 토큰의 수를 더욱 압축하여 추론 속도를 높이기 위해 RT-1은 TokenLearner (Ryoo et al., 2021)를 사용합니다.
TokenLearner는 많은 토큰을 훨씬 적은 수의 토큰으로 매핑하는 방법을 학습하는 요소별 어텐션 모듈입니다.
이를 통해 이미지 토큰의 정보를 기반으로 중요한 토큰 조합만 후속 트랜스포머 레이어에 전달하면서 이미지 토큰을 소프트하게 선택할 수 있습니다.
TokenLearner의 포함은 사전 학습된 FiLM-EfficientNet 레이어에서 나온 81개의 시각적 토큰을 8개의 최종 토큰으로 하위 샘플링한 후 트랜스포머 레이어로 전달합니다.

Transformer.

이 이미지당 8개의 토큰은 기록된 다른 이미지와 concat되어 총 48개의 토큰 (위치 인코딩 추가)을 형성하여 RT-1의 트랜스포머 백본에 입력됩니다.
트랜스포머는 8개의 셀프 어텐션 레이어와 action 토큰을 출력하는 19M개의 총 매개변수를 갖춘 디코더 전용 시퀀스 모델입니다.

Action tokenization.

action을 토큰화하기 위해 RT-1의 각 action 차원은 256개의 bin으로 이산화됩니다.
앞서 언급했듯이, 우리가 고려하는 action 차원에는 암 움직임에 대한 7가지 변수 (x, y, z, roll, pitch, yaw, opening of the gripper), 베이스 움직임에 대한 3가지 변수 (x, y, yaw), 그리고 세 가지 모드 간 전환을 위한 이산 변수가 포함됩니다: 암, 베이스 제어하기 또는 에피소드 종료하기.
각 변수에 대해 우리는 목표를 256개의 bin 중 하나에 매핑합니다, bin은 각 변수의 경계 내에서 균일하게 분포되어 있습니다.

Loss.

이전 트랜스포머 기반 컨트롤러 (Reed et al., 2022; Lee et al., 2022a)에서 사용된 표준 범주형 크로스 엔트로피 objective 및 인과 마스킹을 사용합니다.

Inference speed.

자연어나 이미지 생성과 같은 대형 모델의 많은 응용 프로그램과 달리, 실제 로봇에서 실시간으로 실행되어야 하는 모델의 고유한 요구 사항 중 하나는 빠르고 일관된 추론 속도입니다.
이 작업에서 고려한 지침을 실행하는 인간의 속도 (2~4초 범위로 측정)를 고려할 때, 우리는 모델이 그보다 훨씬 느리지 않기를 원합니다.
우리의 실험에 따르면, 이 요구 사항은 최소 3Hz 제어 주파수에 해당하며, 시스템 내 다른 지연 시간이 주어졌을 때 모델의 추론 시간 예산은 100ms 미만입니다.

이 요구 사항은 우리가 사용할 수 있는 모델의 크기를 제한합니다.
우리는 또한 실험에서 모델 크기가 추론 속도에 미치는 영향을 탐구합니다.

추론 속도를 높이기 위해 두 가지 기술을 사용합니다:

(i) 사전 학습된 EfficientNet 모델에서 생성되는 토큰의 수를 줄이기 위해 TokenLearner (Ryoo et al., 2021)를 사용합니다.

(ii) 이러한 토큰을 한 번만 계산하고 향후 추론을 위해 겹치는 다음 창에 재사용합니다.
이 두 가지를 모두 통해 모델 추론 속도를 각각 2.4배와 1.7배 높일 수 있습니다.

모델 추론에 대한 자세한 내용은 부록 C.1에 나와 있습니다.

5.2 Data

우리의 목표는 높은 성능, 새로운 작업에 대한 일반화, 그리고 방해 요소와 배경에 대한 견고함을 보여주는 시스템을 구축하는 것입니다.
따라서 우리는 여러 작업, 객체 및 환경을 포함하는 다양한 로봇 궤적 데이터 세트를 수집하는 것을 목표로 합니다.
우리의 주요 데이터셋은 17개월 동안 13대의 로봇으로 수집된 ~130k 대의 로봇 시연으로 구성되어 있습니다.
우리는 이 대규모 데이터 수집을 일련의 사무실 주방 부문에서 수행했으며, 이를 로봇 교실이라고 부릅니다 (그림 2 참조).
데이터 수집에 대한 자세한 내용은 부록 C.2에 나와 있습니다.

Skills and instructions.

작업의 정의는 문헌에서 일관성이 없지만, 이 연구에서는 시스템이 수행할 수 있는 언어 명령어의 수를 세어봅니다, 여기서 명령어는 "place water bottle upright", "move the coke can to the green chip bag", "open the drawer"와 같이 하나 또는 여러 명사로 둘러싸인 동사에 해당합니다.
RT-1은 실험에서 자세히 평가하고 설명하는 여러 현실적인 사무실 주방 환경에서 700개 이상의 언어 지시를 수행할 수 있습니다.
평가를 그룹화하고 시스템의 성능에 대한 결론을 도출하기 위해, 우리는 사용된 동사들을 기준으로 지침을 그룹화하며, 이를 기술이라고 부릅니다.
더 자세한 지침 목록은 표 1에 나와 있으며, 예시와 각 기술당 지침 수가 포함되어 있습니다.

현재의 기술에는 서랍을 고르고, 배치하고, 열고, 닫기, 서랍에 물건을 넣고, 길게 늘어진 물건을 똑바로 놓고, 넘어뜨리기, 냅킨 당기기, 항아리 열기 등이 포함됩니다.
기술은 RT-1의 새로운 명령어로의 일반화와 많은 작업 수행 능력과 같은 측면을 테스트하기 위해 많은 객체 (그림 2 (e))를 사용하여 여러 행동을 시연하도록 선택되었습니다.
그런 다음 "pick" 스킬의 객체 다양성을 크게 확장하여 스킬이 다양한 객체로 일반화되도록 했습니다 (그림 2 (f)의 확장된 객체 집합 참조).
기술은 섹션 6.4와 6.3에 설명된 실험에 사용된 표 1의 마지막 행에 추가된 지침을 포함하도록 ablation을 수행하는 동안 더욱 확장되었습니다.
이 추가 기술들은 사무실 주방에서 현실적이고 긴 시간 동안의 지시에 중점을 두었습니다.
작업 및 데이터를 추가하는 전체 프로세스는 부록 C.4에 설명되어 있습니다.

새로운 명령어를 추가할 때 특정 기술에 대한 가정을 하지 않기 때문에 시스템을 쉽게 확장할 수 있으며, 더 다양한 데이터를 지속적으로 제공하여 기능을 향상시킬 수 있습니다.

6 Experiments

우리의 실험은 다음 질문들에 답하고자 합니다:
1. RT-1은 많은 수의 명령을 수행하는 방법을 배울 수 있을 뿐만 아니라 새로운 작업, 객체 및 환경에 제로샷으로 일반화하는 방법도 배울 수 있습니까? (섹션 6.2)
2. 시뮬레이션 데이터나 다른 로봇의 데이터와 같은 이질적인 데이터 소스를 통합하여 결과 모델을 더욱 발전시킬 수 있을까요? (섹션 6.3)
3. 다양한 방법을 장기 로봇 시나리오에 어떻게 일반화할 수 있습니까? (섹션 6.4)
4. 데이터 양과 다양성에 따라 일반화 지표는 어떻게 변하나요? (섹션 6.5)
5. 모델 설계에서 중요하고 실용적인 결정은 무엇이며 성능과 일반화에 어떤 영향을 미치나요? (부록 섹션 D.4)

이 섹션에서는 두 가지 기본 SOTA 아키텍처인 Gato (Reed et al., 2022)와 BC-Z (Jang et al., 2021)를 비교할 것입니다.
중요한 것은 이 두 가지 모두 섹션 5.2 (시스템의 중요한 부분)에 자세히 설명된 데이터를 기반으로 학습되었다는 점입니다, 왜냐하면 이 출판물의 원래 모델은 평가 작업에 필요한 일반화 속성을 나타내지 않기 때문입니다.
Gato는 RT-1과 마찬가지로 트랜스포머 아키텍처를 기반으로 하지만, 여러 측면에서 RT-1과 다릅니다.
먼저, 언어 개념 없이 이미지 토큰을 계산하고 각 이미지 토큰 임베딩은 초기 언어 융합 및 전역 이미지 임베딩과 달리 각 이미지 패치마다 개별적으로 계산됩니다.
둘째, 사전 학습된 텍스트 임베딩을 사용하여 언어 문자열을 인코딩하지 않습니다.
또한 섹션 5.1에서 설명한 실제 로봇에 필요한 추론 시간 고려 사항 (예: 토큰러너 및 자동 회귀 동작 제거)은 포함되지 않습니다.
실제 로봇에서 Gato를 충분히 높은 주파수로 실행하기 위해, 우리는 또한 원래 출판물과 비교하여 모델의 크기를 제한합니다, 이는 1.2B 매개변수 (로봇 추론 시간 1.9초)를 초래했으며, 이는 RT-1과 유사한 크기 (Gato의 경우 37M 매개변수 vs. RT-1의 경우 35M 매개변수)로 제한합니다.
BC-Z는 ResNet 아키텍처를 기반으로 하며, SayCan (Ann et al., 2022)에서 사용되었습니다.
BC-Z는 이전 타임스텝을 사용하지 않는 피드포워드 모델이며, 이산 action 토큰이 아닌 연속 action을 사용한다는 점에서 RT-1과 다릅니다.
원래 BC-Z 모델 크기 외에도, 우리는 우리의 방법을 RT-1과 유사한 수의 매개변수를 가진 더 큰 버전의 BC-Z와 비교하여 BC-Z XL이라고 부릅니다.
우리는 부록 섹션 D.4와 D.5에서 이러한 각 설계 결정이 성능에 어떻게 영향을 미치는지 연구하고 분석합니다.

우리는 학습 지침의 성능, 보이지 않는 지침으로의 일반화, 배경 및 방해 요소에 대한 견고성, 그리고 장기적인 시나리오에서의 성능을 측정하기 위해 실험의 성공률을 평가합니다.

이 섹션에서는 3000건 이상의 실제 실험을 통해 우리의 접근 방식과 베이스라인을 평가하며, 이는 현재까지 로봇 학습 시스템 중 가장 큰 규모의 평가 중 하나입니다.

6.1 Experimental Setup

섹션 4에서 언급했듯이, 우리는 세 가지 환경에서 Everyday Robots의 모바일 매니퓰레이터 세트를 사용하여 RT-1을 평가합니다: 두 개의 실제 사무실 주방과 이를 모델로 한 학습 환경.
그림 2(a)에 표시된 학습 환경은 부분 카운터로 구성되어 있으며, 그림 2(b, c)에 표시된 두 실제 환경은 학습 환경과 유사한 카운터 탑을 가지고 있지만 조명, 배경 및 전체 주방 지오메트리가 다를 수 있습니다 (예: 서랍이나 싱크대 대신 캐비닛이 보일 수 있음).
policy는 학습 작업에 대한 성능뿐만 아니라 새로운 작업에 대한 일반화, 보이지 않는 환경에 대한 견고성, 그리고 장기 작업에 대해 서로 연결될 때의 성능을 평가합니다, 이는 아래에 자세히 설명되어 있습니다.

Seen task performance.

본 지침의 성능을 평가하기 위해, 우리는 학습 세트에서 샘플링된 지침의 성능을 평가합니다.
그러나 이 평가는 여전히 객체의 배치와 설정의 다른 요소들 (예: 시간대, 로봇 위치)을 변화시키는 것을 포함하므로, 환경의 현실적인 변동성에 일반화할 수 있는 기술이 필요합니다.

이 평가에서는 총 200개 이상의 작업을 테스트합니다: 물건을 고르는 데 36개, 물건을 두드리는 데 35개, 물건을 똑바로 놓는 데 35개, 물건을 옮기는 데 48개, 다양한 서랍을 열고 닫는 데 18개, 서랍에서 물건을 꺼내서 넣는 데 36개.

Unseen tasks generalization.

보지 못한 작업에 대한 일반화를 평가하기 위해 21개의 새로운 보지 못한 지침을 테스트합니다.
이 지침들은 기술과 객체 전반에 걸쳐 배포됩니다.
이렇게 하면 학습 세트에 각 객체와 기술의 일부 인스턴스가 존재했지만 새로운 방식으로 결합될 수 있습니다.
예를 들어 "pick up the apple"를 누른 경우 사과를 포함하는 다른 학습 지침도 있습니다.

보이지 않는 모든 지침 목록은 부록 D.1에서 확인할 수 있습니다.

Robustness.

견고성을 평가하기 위해, 우리는 방해 요소의 견고성을 위해 30개의 실제 작업을 수행하고, 배경의 견고성을 위해 22개의 작업을 수행합니다.
배경 견고성은 조명과 배경 시각적 요소가 다른 새로운 주방 (예: 패턴이 있는 테이블 천)과 다양한 카운터 표면 (예: 테이블 천)에서 평가하여 테스트되었습니다.
견고성 평가 시나리오의 예시 구성은 그림 4에 나와 있습니다.

그림 4: 방해 요소(첫 번째 줄) 평가 시나리오: 왼쪽에서 오른쪽으로: 쉬운 (0-5 방해 요소), 중간 (9 방해 요소), 단단한 (9 방해 요소 및 가려진 물체); 배경 (두 번째 줄), 왼쪽에서 오른쪽으로: 원래 환경, 패턴이 있는 식탁보, 새 주방, 그리고 실제 주방의 현실적인 시나리오 (세 번째 줄), 왼쪽에서 오른쪽으로 일반화 수준: L1, L2, L3.

Long-horizon scenarios.

우리는 또한 각각 일련의 기술을 실행해야 하는 보다 현실적인 장기 시나리오에 대한 일반화를 평가합니다.
이 평가의 목표는 새로운 작업, 객체, 환경과 같은 여러 일반화 축을 결합하고 현실적인 환경에서 전반적인 일반화 능력을 테스트하는 것입니다.
이 평가는 두 개의 실제 주방에서 15개의 장기적인 지침으로 구성되어 있으며, 각 단계는 대략 10개의 서로 다른 단계로 구성된 일련의 기술을 실행해야 합니다, 각 단계는 학습 지침과 거의 유사한 범위를 가집니다.
이러한 단계는 섹션 6.4 및 부록 D.3에 자세히 설명된 SayCan 시스템 (Ahn et al., 2022)을 사용하여 "how would you throw away all the items on the table?"와 같은 상위 수준의 지침에서 자동으로 얻어집니다.

6.2 Can RT-1 learn to perform a large number of instructions, and to generalize to new tasks, objects and environments?

첫 번째 질문에 답하기 위해, 우리는 이전에 제안된 모델들과 비교하여 RT-1의 전반적인 성능, 일반화 및 견고성 능력을 분석합니다.
구체적으로, 우리는 Gato (Reed et al., 2022)와 BC-Z (Jang et al., 2021)가 사용한 모델 아키텍처뿐만 아니라 BC-Z XL이라고 부르는 더 큰 버전의 BC-Z와 비교합니다.
그러나 모든 모델은 RT-1과 동일한 데이터로 학습되며, 평가는 작업 세트, 데이터셋 또는 전체 로봇 시스템이 아닌 모델 아키텍처만 비교한다는 점에 유의하세요.
RT-1의 기능은 데이터셋과 작업 세트에 의해 크게 결정되며, 이는 이전 연구들 (예: BC-Z는 100개의 작업을 사용하고 원래의 Gato 모델은 다양한 모양의 스태킹 작업을 학습함)에 비해 크게 향상된다고 믿습니다, 따라서 이러한 비교는 이전 모델들에 비해 상당히 유리한 것으로 간주되어야 하며, 이는 우리가 수집한 크고 다양한 데이터셋과 작업 세트의 이점이기도 합니다.

표 2: 보이는 작업 전반에 걸친 RT-1 및 베이스라의 전반적인 성능, 보이지 않는 작업에 대한 일반화, 그리고 방해 요소와 배경에 대한 견고성.

결과는 표 2에 나와 있습니다.
각 카테고리에서 RT-1이 이전 모델들을 크게 능가한다는 것을 발견했습니다.
보이는 작업에서 RT-1은 200개 이상의 명령어 중 97%를 성공적으로 수행할 수 있으며, 이는 BC-Z보다 25%, Gato보다 32% 더 많습니다.
보이지 않는 작업에서 RT-1은 새로운 명령어로 일반화할 수 있음을 보여주며, 이전에 보지 못한 명령어의 76%를 수행하여 차선책보다 24% 더 많은 성능을 발휘합니다.
이러한 새로운 지침으로의 일반화는 policy의 자연어 조건화 덕분에 가능하지만, policy가 이전에 본 개념의 새로운 조합을 이해할 수 있기 때문에 모든 베이스라인도 자연어에 조건화되어 원칙적으로 동일한 이점을 누릴 수 있습니다.
다음 섹션에서는 RT-1의 다양한 구성 요소를 추가로 정리하여 우리 방법의 어떤 측면이 이 차이에 가장 큰 기여를 하는지 더 잘 이해합니다.
방해 요소와 배경에서 RT-1은 매우 견고하여 방해 요소 강건성 작업의 83%와 배경 강건성 작업의 59%를 성공적으로 수행한 것으로 나타났습니다 (각각 차선책보다 36%와 18% 더 높음).
전반적으로 RT-1은 일반적인 성능이 높지만, 인상적인 수준의 일반화와 견고성을 보인다는 것을 발견했습니다.
우리는 그림 5에서 다양한 기술, 환경 및 객체를 다루는 지침을 포함한 RT-1 에이전트의 예시 궤적을 보여줍니다.
우리는 또한 부록에서 배경 (그림 10)과 방해 요소 (그림 12)를 포함한 다양한 일반화 테스트에 대한 추가 궤적 예제를 제시합니다.

Generalization to realistic instructions.

다음으로, 우리의 방법이 실제 주방에 배치되기 위해 이전에 평가한 모든 다양한 축에 걸쳐 충분히 일반화되는지 테스트합니다, 이는 새로운 작업 조합, 객체 방해 요소 및 새로운 환경과 같은 여러 분포 변화를 동시에 초래합니다.

실제 주방에서 현실적인 시나리오로 알고리즘을 평가하기 위해 여러 현실적인 목표를 달성하기 위한 작업 시퀀스를 구성합니다.
로봇은 서랍에 여러 개의 간식을 다시 채우고, 조미료 병에 부딪혀 정리한 후 사람이 열어둔 서랍을 닫습니다, 오렌지와 냅킨이 달린 간식을 준비하고, 주방의 여러 곳에서 잃어버린 선글라스와 문어 장난감을 가져옵니다.
이 시나리오에서 사용된 자세한 지침은 부록 D.1에 나열되어 있습니다.
사무실 주방은 학습 환경에서 극적인 변화를 수반하며, 다양한 수준의 일반화를 통해 이러한 시나리오별로 작업을 분류합니다: 새로운 카운터탑 레이아웃 및 조명 조건에 대한 일반화를 위한 L1, 보이지 않는 방해 요소 객체에 대한 추가 일반화를 위한 L2, 급격하게 새로운 작업 설정에 대한 추가 일반화를 위한 L3, 새로운 작업 객체 또는 싱크대 근처와 같은 보이지 않는 위치의 객체.
재입고, 간식 준비, 실제 주방에서 분실물을 가져오는 세 가지 작업에 해당하는 세 가지 단계는 그림 4의 마지막 행에 나와 있습니다.
다양한 수준에 대한 예시 궤적은 그림 11의 부록에 나와 있습니다.

표 3: 현실적인 일반화 시나리오: 현실적인 Google 주방 시나리오에서 세 가지 일반화 수준에서 모델 성공률을 비교합니다: 새로운 카운터탑 레이아웃 및 조명 조건에 대한 일반화를 위한 L1, 보이지 않는 방해 요소 객체에 대한 추가 일반화를 위한 L2, 급격하게 새로운 작업 설정, 새로운 작업 객체 또는 싱크대 근처와 같은 보이지 않는 위치에 대한 추가 일반화를 위한 L3.

우리는 이러한 현실적인 시나리오에서 작업별 성공률과 표 3의 다양한 일반화 수준을 보고한 결과, RT-1이 모든 수준에서 가장 견고한 것으로 나타났습니다.
Gato는 첫 번째 단계에서는 꽤 잘 일반화되지만, 더 어려운 일반화 시나리오에서는 상당히 낮은 성능을 보입니다.
BC-Z와 그 XL 등가물은 L2 수준에서 꽤 잘 작동하며, L3 수준에서는 Gato보다 더 나은 성능을 보이지만 여전히 RT-1의 일반화 수준에는 미치지 못합니다.

6.3 Can we push the resulting model further by incorporating heterogeneous data sources such as simulation or data from different robots?

다음으로, 매우 이질적인 데이터를 활용하기 위한 RT-1의 한계를 탐구합니다.
우리는 RT-1이 이 데이터에 내재된 다양한 작업에서 원래 작업 성능을 희생하지 않으면서도 다양한 데이터 소스를 통합하고 학습하며 이러한 데이터를 개선할 수 있는 방법을 시연합니다.
이를 위해 두 가지 실험을 수행합니다: (1) RT-1은 실제 데이터와 시뮬레이션 데이터 모두에서 학습되고 테스트되었으며, (2) 서로 다른 로봇이 원래 수집한 다양한 작업의 대규모 데이터셋에서 학습된 RT-1입니다.
각각에 대한 자세한 정보는 부록 D.2에 제공됩니다.

표 4: RT-1에 시뮬레이션 데이터를 통합한 실험 결과. 시뮬레이션 데이터를 추가해도 실제 객체의 성능에는 영향을 미치지 않으며, 시뮬레이션에서만 도입된 객체의 실제 성능은 크게 향상됩니다 (+64%). 또한 실제 세계에서만 볼 수 있는 기술로 사용되는 시뮬레이션 객체(+26%)에 대한 실제 일반화를 개선합니다. 예를 들어, X가 시뮬레이션된 "pick X" 작업에만 나타나는 "move X to Y"과 같은 경우입니다.

Absorbing simulation data.

표 4는 RT-1과 베이스라인이 실제 데이터와 시뮬레이션 데이터를 모두 흡수하는 능력을 보여줍니다.
이를 테스트하기 위해 실제 시연 데이터를 모두 수집하지만, 로봇이 실제 세계에서 본 적이 없는 물체를 포함하는 추가 시뮬레이션 데이터도 제공합니다.
구체적으로, 우리는 다양한 일반화 시나리오를 지정합니다: 실제 물체에 대한 관찰된 기술의 경우, 학습 데이터는 해당 명령어의 실제 데이터 (즉, 관찰된 작업에 대한 수행)를 가지고 있으며, 시뮬레이션 객체에 대한 관찰된 기술의 경우, 학습 데이터는 해당 명령어의 시뮬레이션 데이터 (예: "sim 객체 선택")를 가지고 있으며, 시뮬레이션 객체에 대한 관찰되지 않은 기술의 경우,학습 데이터는 해당 객체의 시뮬레이션 데이터를 가지고 있지만 (예: 로봇이 해당 시뮬레이션 객체를 선택하고 다른 객체 근처로 이동하지 않는 연습만 했음에도 불구하고) 해당 객체에 대한 기술을 설명하는 지침의 예는 없습니다 (예: "sim 객체를 사과로 이동").
모든 평가는 실제 세계에서 이루어지지만 평가되는 지침의 수를 제한하기 위해 pick 및 move-to 스킬에 중점을 둡니다.

표 4에서 RT-1의 경우 Real Only 데이터셋에 비해 시뮬레이션 데이터를 추가하는 성능이 저하되지 않는다는 것을 알 수 있습니다.

그러나 시뮬레이션에서만 볼 수 있는 객체와 작업의 성능이 실제 성능에 비해 크게 향상되어 (23%에서 87%로) 도메인 전이의 정도가 인상적임을 보여줍니다.
또한 보이지 않는 명령어의 성능이 7%에서 33%로 크게 향상되었습니다; 문제의 객체가 실제로 본 적이 없고 명령어도 전혀 본 적이 없다는 점에서 인상적입니다.
전반적으로, RT-1은 매우 다른 도메인에서도 새로운 데이터를 효율적으로 흡수할 수 있다는 것을 발견했습니다.

표 5: 두 개의 다른 로봇 데이터를 혼합하기 위한 실험 결과. QT-Opt (Kalashnikov et al., 2018)의 Kuka 빈픽킹 데이터를 RT-1에 통합하면 표준 교실 평가 성능에 최소한의 영향을 미치며, 일상 로봇 조작기에서 Kuka 데이터의 설정과 유사한 빈픽킹 평가로의 일반화가 거의 2배 향상됩니다. 이것은 두 가지 다른 로봇 형태 간의 효과적인 전이를 보여줍니다.

Absorbing data from different robots.

RT-1의 데이터 흡수 한계를 극복하기 위해, 우리는 서로 다른 로봇에서 유래한 두 가지 데이터 소스를 결합하는 추가 실험을 수행합니다: 지금까지의 실험에 사용된 Kuka IIWA와 Everyday Robots 모바일 매니퓰레이터.
Kuka 데이터에는 QT-Opt (Kalashnikov et al., 2018)에서 수집된 모든 성공적인 사례가 포함되어 있으며, 이는 209,000개의 에피소드에 해당합니다, 이 에피소드에서는 로봇이 쓰레기통에 있는 물체를 무차별적으로 잡고 있었습니다 (표 5의 Kuka 에피소드 예시 참조).
RT-1이 표준 "Classroom eval"이라고 부르는 이 두 가지 매우 다른 데이터셋을 효과적으로 흡수할 수 있는지 테스트하고, Kuka 데이터에 존재하는 빈 피킹 설정을 반영하는 새로 구성된 작업의 성능을 "Bin-picking eval"이라고 부릅니다 (그림 6 참조).

그림 6: 표 5에서 RT-1은 두 개의 로봇 플랫폼에서 얻은 데이터로 학되어 있으며, 이를 통해 일반화하는 방법을 배웁니다.

데이터셋 간의 주요 차이점을 주목하여 이 설정의 어려움을 강조하고자 합니다.
데이터를 수집한 로봇들은 외관과 action 공간이 다를 뿐만 아니라, 배치된 환경도 외관과 역학이 다릅니다.
또한 QT-Opt 데이터는 완전히 다른 action 분포를 나타냅니다 – 우리 데이터셋에 있는 인간 시연이 아닌 RL 에이전트에 의해 수집되었습니다.

결과는 표 5에 나와 있습니다.
RT-1 데이터와 Kuka 데이터를 혼합한 모델은 원래 작업의 성능 (즉, 교실 평가)이 2% 감소하는 데 그치는 것으로 나타났습니다.
더 중요한 것은, Bin-picking 평가에서 멀티 로봇 데이터로 학습된 모델이 RT-1 데이터로만 학습된 모델의 22%에 비해 39%의 성능을 보인다는 것입니다.
이는 17%의 성능 차이 (거의 2배)입니다.
또한, Everyday Robots (EDR) 로봇을 사용하여 Kuka 빈 피킹 데이터를 학습하고 빈 피킹 작업을 평가한 RT-1은 0%의 성능을 달성하여 다른 로봇 형태에서 행동을 전이하기 어렵다는 것을 확인했습니다.
그러나 두 로봇의 데이터를 혼합하면 RT-1이 Kuka 로봇이 관찰한 상태에서도 EDR 로봇의 올바른 동작을 추론할 수 있습니다.
이는 EDR 로봇에 대한 빈픽킹의 명시적인 시연 없이도 달성할 수 있으며, Kuka 로봇이 수집한 과거 경험을 활용함으로써 이루어집니다.
이 결과는 RT-1의 흡수 특성이 다른 로봇의 경험을 관찰하여 새로운 기술을 습득하고 로봇의 능력을 향상시키기 위해 더 많은 멀티 로봇 데이터셋을 결합하는 흥미로운 미래 연구 경로를 제시한다는 것을 나타냅니다.

6.4 How do various methods generalize long-horizon robotic scenarios?

다음 실험 세트에서는 우리의 방법이 장기적인 현실적인 주방 환경에서 사용될 만큼 충분히 일반화되는지 평가합니다.
이 질문에 답하기 위해, 우리는 두 개의 다른 실제 주방에서 SayCan (Ahn et al., 2022) 프레임워크 내에서 RT-1 및 다양한 베이스라인인을 실행합니다.
SayCan은 많은 저수준 명령어를 결합하여 고수준 명령어를 수행하기 때문에 가능한 고수준 명령어의 수가 기술과 결합하여 증가하므로 RT-1의 기술 폭을 충분히 확인할 수 있습니다 (SayCan 알고리즘에 대한 자세한 내용은 Ahn et al. (2022)을 참조하십시오).
장기 과제의 성공률은 과제의 길이에 따라 기하급수적으로 감소하기 때문에 조작 기술의 높은 성공률이 특히 중요합니다.
또한, 모바일 조작 작업은 내비게이션과 조작이 모두 필요하기 때문에 기본 위치에 견고하게 대응할 수 있는 policy 능력이 매우 중요합니다.
자세한 내용은 부록 D.3에 나와 있습니다.

표 6: Kitchen1과 Kitchen2에서 SayCan 스타일의 긴 지평선 작업. (*원래 SayCan 평가는 약간 다른 프롬프트를 사용하므로 계획 성공률이 낮습니다.)

표 6은 부록 표 12의 지침에 따라 결과를 보여줍니다.
오리지널 SayCan을 제외한 모든 방법은 계획 성공률 87%를 기록하며, RT-1이 Kitchen1에서 67%의 실행 성공률로 가장 우수한 성능을 발휘합니다.
Kitchen2는 로봇 교실 학습 장면이 Kitchen1을 모델로 하기 때문에 훨씬 더 어려운 일반화 장면을 구성합니다 (그림 2의 주방 사진 참조).
이러한 일반화의 어려움으로 인해 Gato를 사용하는 SayCan은 긴 지평선 작업을 완료할 수 없으며, BC-Z를 사용하는 SayCan은 13%의 성공률을 달성할 수 있습니다.
원래 SayCan 논문은 새 주방에서의 성능을 평가하지 않았습니다.
놀랍게도, 우리의 방법에서는 조작 성능이 Kitchen1에서 Kitchen2로 눈에 띄지 않습니다.
보충 영상에서는 Kitchen2에서 보이지 않는 서랍을 조작할 수 있게 해주며, SayCan-RT1을 사용하여 최대 50단계의 초장기 작업을 계획하고 실행할 수 있음을 보여줍니다.

6.5 How do generalization metrics change with varying amounts of data quantity and data diversity?

이전 연구들은 모델 매개변수의 수에 따라 트랜스포머 기반 모델 (Lee et al., 2022a; Reed et al., 2022; Jiang et al., 2022)의 확장 능력을 보여주었지만, 많은 로봇 작업에서 모델 크기는 종종 주요 병목 현상이 아니며, 최대 크기는 실제 로봇에서 이러한 모델을 실행하기 위한 지연 시간 요구 사항에 의해 제한됩니다.
대신, 본 연구에서는 전통적으로 데이터가 제한된 로봇 학습 분야에서 중요한 역할을 하기 때문에 데이터셋 크기와 다양성의 영향을 완화하는 데 중점을 둡니다.
데이터 수집은 실제 로봇에게 특히 비용이 많이 들기 때문에, 우리 모델이 특정 성능과 일반화를 달성하기 위해 어떤 종류의 데이터가 필요한지 정량화하는 것이 중요합니다.
따라서 마지막 질문은 서로 다른 데이터 속성을 가진 RT-1의 스케일링 속성에 초점을 맞추고 있습니다.

표 7: 보이는 작업 전반에 걸친 RT-1의 다양한 데이터 제거, 보이지 않는 작업에 대한 일반화, 그리고 방해 요소와 배경에 대한 견고성. 데이터 다양성은 데이터 양보다 성능과 일반화에 더 큰 영향을 미칩니다.

표 7에서는 데이터셋 크기 (% 데이터)와 데이터셋 다양성 (% 작업)을 줄이면서 RT-1의 성능, 일반화 및 견고성을 보여줍니다.
데이터셋 크기와 다양성의 축을 분리하기 위해, 가장 큰 데이터를 가진 작업에서 데이터를 제거하고 작업당 예제 수를 200개 (결과적으로 51%의 데이터), 100개 (37%의 데이터), 50개 (22.5%의 데이터)로 제한하여 동일한 작업 다양성을 가진 더 작은 데이터셋을 만듭니다.
좁은 데이터셋을 만들기 위해 데이터가 가장 적은 작업을 제거하여 전체 데이터의 97%를 유지하지만 작업의 75%만 유지합니다.
데이터셋 크기를 줄이면 성능이 전반적으로 감소하는 경향과 일반화가 더 가파르게 감소하는 경향을 볼 수 있습니다.
데이터셋을 더 좁히면, 특히 일반화 측면에서 성능이 훨씬 더 가파르게 저하됩니다.
실제로 데이터의 97%를 유지하면서 작업의 25%를 제거하면 데이터셋 크기를 49%까지 줄이는 것과 동등한 일반화 성능을 달성할 수 있습니다.
따라서 데이터의 다양성이 데이터 양보다 더 중요하다는 것이 우리의 핵심 시사점입니다.

7 Conclusions, Limitations and Future Work

우리는 대량의 데이터를 효과적으로 흡수하고 데이터 양과 다양성에 따라 확장할 수 있는 로봇 학습 방법인 Robotics Transformer 1, RT-1을 소개했습니다.
우리는 13개의 로봇을 사용하여 17개월 동안 수집된 130k 개 이상의 에피소드가 포함된 대규모 데모 데이터셋을 사용하여 RT-1을 학습시켰습니다.
광범위한 실험을 통해 700개 이상의 명령어를 97%의 성공률로 수행하고 이전에 발표된 베이스라인보다 새로운 작업, 객체 및 환경에 효과적으로 일반화할 수 있는 방법을 입증했습니다.
또한 RT-1이 시뮬레이션 및 기타 로봇 형태에서 이질적인 데이터를 성공적으로 흡수하는 동시에 원래 작업 성능을 희생하지 않고 새로운 시나리오로의 일반화를 개선할 수 있음을 입증했습니다.
마지막으로, 우리는 이러한 수준의 성능과 일반화를 통해 SayCan (Ahn et al., 2022) 프레임워크에서 50단계까지 매우 긴 작업을 수행할 수 있는 방법을 보여주었습니다.

RT-1은 데이터 흡수 모델을 통해 대규모 로봇 학습을 향한 유망한 단계를 제시하지만, 여러 가지 한계가 있습니다.
첫째, 모방 학습 방법으로, 시연자의 성능을 능가하지 못할 수 있다는 사실과 같은 접근 방식의 도전 과제를 계승합니다.
둘째, 새로운 명령어로의 일반화는 이전에 본 개념들의 조합으로 제한되며, RT-1은 아직 이전에 본 적이 없는 완전히 새로운 동작으로 일반화할 수 없습니다.
마지막으로, 우리의 방법은 크지만 그다지 능숙하지 않은 조작 작업 세트에 대해 제시됩니다.
우리는 이 문제를 해결하기 위해 RT-1이 가능하게 하고 일반화하는 일련의 지침을 계속 확장할 계획입니다.

이 작업의 향후 방향을 모색하면서 비전문가가 직접 데이터 수집과 모델 프롬프트를 통해 로봇을 학습시킬 수 있는 방법을 개발하여 로봇 기술의 수를 더 빠르게 확장하고자 합니다.
현재 버전의 RT-1은 특히 방해 요소 물체에 대해 상당히 견고하지만, 환경 다양성을 크게 증가시킴으로써 배경과 환경에 대한 견고성을 더욱 향상시킬 수 있습니다.
우리는 또한 확장 가능한 어텐션과 기억력을 통해 RT-1의 반응 속도와 맥락 유지율을 향상시키기를 희망합니다.

연구 커뮤니티가 이 작업을 기반으로 구축할 수 있도록 RT-1 코드를 오픈소스화했으며, 이를 통해 연구자들이 로봇 학습 확장을 위한 향후 연구에 귀중한 자원을 제공할 수 있기를 바랍니다.

'Robotics' 카테고리의 다른 글

Open X-Embodiment: Robotic Learning Datasets and RT-X Models (0)	2025.03.24
PaLM-E: An Embodied Multimodal Language Model (0)	2025.03.20
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control (0)	2025.03.17
π0: A Vision-Language-Action Flow Model for General Robot Control (0)	2025.02.20
Cosmos World Foundation Model Platform for Physical AI (0)	2025.01.10

프린이씨롯메

프린이씨롯메

태그

최근글

댓글

공지사항

아카이브