2025. 7. 3. 11:11ㆍRobotics
Octo: An Open-Source Generalist Robot Policy
Dibya Ghosh, Homer Walke, Karl Pertsch, Kevin Black, Oier Mees, Sudeep Dasari, Joey Hejna, Tobias Kreiman, Ria Doshi, Charles Xu, Jianlan Luo, You Liang Tan, Lawrence Yunliang Chen, Pannag Sanketi, Quan Vuong, Ted Xiao, Dorsa Sadigh, Chelsea Finn, Sergey Levine
Abstract
다양한 로봇 데이터셋에 대해 사전 학습된 대규모 policy는 로봇 학습을 혁신할 잠재력을 가지고 있습니다: 새로운 policy를 처음부터 학습하는 대신, 이러한 일반적인 로봇 policy는 도메인 내 데이터를 조금만 사용하여 파인튜닝될 수 있지만, 광범위하게 일반화될 수 있습니다.
그러나 다양한 로봇 학습 시나리오, 환경 및 작업에 널리 적용되기 위해서는 이러한 policy가 다양한 센서와 action 공간을 처리하고, 일반적으로 사용되는 다양한 로봇 플랫폼을 수용하며, 새로운 도메인에 쉽고 효율적으로 파인튜닝되어야 합니다.
이 연구에서는 로봇 조작을 위한 오픈 소스, 널리 적용 가능한 일반 policy를 개발하기 위한 토대를 마련하는 것을 목표로 합니다.
첫 번째 단계로, 현재까지 가장 큰 로봇 조작 데이터셋인 Open X-Embodiment 데이터셋에서 80만 개의 궤적을 기반으로 학습된 대규모 트랜스포머 기반 policy인 Octo를 소개합니다.
언어 명령이나 목표 이미지를 통해 지시할 수 있으며, 표준 소비자 GPU에서 몇 시간 내에 새로운 센서 입력과 action 공간을 갖춘 로봇 설정에 효과적으로 파인튜닝할 수 있습니다.
9개의 로봇 플랫폼을 대상으로 한 실험에서, 우리는 Octo가 새로운 관찰 및 action 공간에 효과적으로 조정될 수 있는 다목적 policy 초기화 역할을 한다는 것을 입증했습니다.
또한 아키텍처부터 학습 데이터까지 Octo 모델의 설계 결정에 대한 세부적인 ablation 작업을 수행하여 향후 일반 로봇 모델 구축에 대한 연구를 안내합니다.

Ⅰ. Introduction
로봇 학습을 위한 일반적인 접근 방식은 특정 로봇과 당면한 작업을 위해 수집된 데이터 세트에 대한 policy를 학습하는 것입니다.
이러한 방식으로 처음부터 학습하려면 각 작업에 상당한 데이터 수집 노력이 필요하며, 그 결과로 나온 policy는 일반적으로 좁은 일반화만 보입니다.
원칙적으로, 다른 로봇과 작업에서 수집된 경험은 모델을 다양한 로봇 제어 문제에 노출시켜 일반화와 성능을 향상시킬 수 있는 가능한 해결책을 제공합니다.
그러나 자연어 [68, 88]와 컴퓨터 비전 [76, 44]에서 범용 모델이 보편화되었음에도 불구하고, 많은 작업에서 많은 로봇을 제어할 수 있는 유사한 "general-purpose robot model"을 구축하는 것은 어려운 일임이 입증되었습니다.
로봇 공학에서 통합 제어 policy를 학습하는 것은 다양한 로봇 embodiments, 센서 설정, action 공간, 작업 사양, 환경 및 컴퓨팅 예산을 처리해야 하는 독특한 과제를 제시합니다.
이 방향으로, 여러 연구들은 로봇 관측을 action에 직접 매핑하고 새로운 도메인과 로봇에 제로샷 또는 퓨샷 일반화를 제공하는 로봇 파운데이션 모델을 제안했습니다.
우리는 이러한 모델을 일반적으로 "generalist robot policies" (GRPs)이라고 부르며, 작업, 환경 및 로봇 시스템 [75, 9, 23, 103, 10, 81, 1, 91, 35, 94, 45]에서 저수준의 시각 운동 제어를 수행할 수 있는 능력을 강조합니다.
예를 들어, GNM 모델 [80]은 다양한 로봇 내비게이션 시나리오에서 일반화되며, RoboCat 모델 [9]은 목표 조건 작업을 위한 다양한 로봇 embodiments를 처리합니다, RT-X 모델 [67]은 다섯 가지 로봇 embodiments에 걸쳐 언어 조건 조작을 수행합니다.
이 모델들은 진정한 "general-purpose robot model"을 향한 중요한 단계를 나타내지만, 여러 중요한 측면에서 제한적이었습니다: 일반적으로 다운스트림 사용자는 단일 카메라 스트림과 같이 미리 정의되고 종종 제한적인 입력 관찰 세트에 제약을 받습니다; 새로운 도메인에 대한 효과적인 파인튜닝을 지원하지 않으며, 중요한 것은 이러한 모델 중 가장 큰 모델은 일반 대중에게 제공되지 않는다는 점입니다.
우리는 다운스트림 로봇 애플리케이션의 다양한 인터페이스에 더 적합한 일반적인 로봇 policy가 사전 학습하기 위한 시스템을 설계합니다.
우리 모델의 핵심은 임의의 입력 토큰 (관찰 및 작업에서 생성)을 출력 토큰 (이후 action으로 디코딩)으로 매핑하는 트랜스포머 아키텍처로, 다양한 로봇 및 작업 데이터셋에서 학습할 수 있습니다.
추가 학습 없이도 이 policy는 다양한 카메라 구성 (예: 작업 공간 또는 손목 카메라)을 수용할 수 있으며, 다양한 로봇을 제어할 수 있으며, 언어 명령이나 목표 이미지를 통해 안내받을 수 있습니다 — 모델에 입력되는 토큰을 변경하기만 하면 됩니다.
가장 중요한 것은 이 모델을 새로운 센서 입력, action 공간 또는 형태를 가진 새로운 로봇 설정에 맞게 조정할 수 있다는 점입니다, 적절한 어댑터를 추가하고 작은 타겟 도메인 데이터셋과 접근 가능한 컴퓨팅 예산으로 파인튜닝할 수 있다는 점입니다.
저희의 주요 기여는 현재까지 가장 큰 로봇 조작 데이터셋에서 사전 학습된 트랜스포머 기반 policy인 Octo입니다: Open X-Embodiment 데이터셋에서 800k의 로봇 시연 [67].
Octo는 새로운 관찰 및 action 공간에 효과적으로 파인튜닝할 수 있는 최초의 GRP이자 학습 파이프라인, 모델 체크포인트, 데이터를 포함한 완전 오픈 소스인 최초의 일반 로봇 조작 policy입니다.
마지막으로, Octo를 구성하는 개별 구성 요소들 — 트랜스포머 백본, 언어 및 목표 이미지 사양 지원, 표현 action 분포를 모델링하기 위한 디퓨전 헤드 — 은 이전 연구에서 논의된 바 있지만, 이러한 구성 요소들을 강력한 일반론적 로봇 policy로 특별히 결합한 것은 독특하고 참신합니다.
우리는 4개 기관에 걸쳐 9대의 로봇을 대상으로 한 광범위한 실험을 통해 우리의 결합 시스템이 SOTA 성능을 발휘한다는 것을 입증했습니다.
단일 및 이중 팔 조작 작업을 위한 기성 다중 로봇 제어를 위한 SOTA 성능과 Octo는 새로운 관찰 및 행동 공간을 갖춘 보이지 않는 설정으로 파인튜닝하는 데 효과적인 초기화로 사용할 수 있습니다.
이 과정에서 우리는 GRP를 사전 학습할 때 다양한 설계 결정의 영향을 신중하게 연구하고, 데이터 분포, 모델 아키텍처 및 policy 수립 선택이 사전 학습된 GRP의 품질에 어떤 영향을 미치는지 평가합니다.
우리의 평가는 규모와 유연성의 유용성을 강조합니다: 우리의 최고의 모델은 가장 넓은 데이터 혼합물에서 학습된 모델로, 가장 제한적인 귀납적 편향이 적고 사전 학습 데이터의 다양한 행동에 맞출 수 있는 policy objective를 가지고 있습니다.
이 논문과 함께, 우리는 Octo 모델을 학습, 사용, 재현 및 파인튜닝하는 데 필요한 모든 자원을 공개합니다.
사전 학습된 Octo 모델 체크포인트는 27M 및 93M 매개변수를 제공하며, 이는 여러 RGB 카메라 입력과 언어 및 목표 이미지 작업 사양을 모두 지원합니다.
또한 새로운 도메인에서 이러한 모델을 파인튜닝하기 위한 스크립트와 최적화된 데이터 로더, 멀티모달 입력을 위한 트랜스포머 구현, 학습 진행 상황을 모니터링하는 도구를 포함한 완전한 사전 학습 파이프라인도 제공합니다.
Ⅱ. Related Work
많은 작품들이 로봇으로부터 수집된 대규모 궤적 데이터셋을 사용하여 policy를 학습합니다, [71, 48, 41, 19, 27, 30]을 확장하기 위한 자율 데이터셋을 사용한 초기 노력부터 최신 트랜스포머 기반 policy와 대규모 데모 데이터셋의 결합을 탐구한 최신 노력까지 다양합니다 [10, 40, 98, 28, 83, 86].
이러한 작업은 주로 단일 embodiment에 초점을 맞추고 있으며, Octo는 멀티 embodiments에 걸쳐 조립된 로봇 데이터셋에 대한 policy를 학습하여 학습 데이터셋의 유효 크기를 늘리고 다양한 로봇 설정에 대한 파인튜닝을 가능하게 합니다.
최근에는 로봇 policy의 일반화 능력을 확장하는 데 초점을 맞춘 논문들이 발표되고 있습니다.
여러 작품에서 다양한 비로봇 데이터 또는 사전 학습된 비전-언어 파운데이션 모델을 활용하여 새로운 장면과 작업에 대한 policy 일반화를 강화합니다 [86, 103, 96, 16, 38, 11, 84, 36, 4, 37, 7, 3, 46, 15, 23].
Octo와 더 밀접하게 관련된 최근 연구들은 여러 로봇 embodiments 데이터를 통해 로봇 policy를 학습하는 것입니다: GNM 모델 [81, 80]은 로봇 내비게이션 설정 전반에 걸쳐 일반화되며, RoboCat [9]과 RT-X [67]은 여러 개의 단일 팔 조작 로봇을 제어합니다.
이러한 모델은 인상적인 policy 학습 결과를 제공하지만, 주요 문제는 유연성의 부족입니다: 일반적으로 사용자는 사전 학습 시 사용하는 센서 입력과 action 공간을 고수해야 하며, 새로운 관찰 및 action 공간에 대한 적응을 지원하지 않습니다.
게다가, 가장 큰 모델들은 공개적으로 접근할 수 없습니다.
Octo는 여러 측면에서 이 작품들과 다릅니다: 더 크고 다양한 로봇 데이터 믹스에 대해 학습되었으며, 새로운 로봇 설정에 대한 효율적인 파인튜닝을 통해 더 넓은 범위의 다운스트림 애플리케이션을 지원합니다, 또한 완전 오픈 소스이며 재현 가능합니다.
Octo의 디자인은 최근 로봇 모방 학습과 확장 가능한 트랜스포머 학습의 여러 발전에서 영감을 받았습니다, 여기에는 action 디코딩을 위한 denoising diffusion objective [34] 사용 [17, 31, 85], "action chunks" 예측, 즉 미래 action 시퀀스 [98, 17, 28], 확장 가능한 비전 트랜스포머 학습에 관한 문헌에서 영감을 받은 모델 레이아웃 및 학습률 스케줄 [22, 97] 등이 포함됩니다.
우리의 연구는 cross-embodied 일반주의 policy를 학습하는 맥락에서 이러한 접근 방식을 처음으로 활용한 것이며, 이러한 접근 방식이 상당한 성능 향상으로 이어질 수 있음을 발견했습니다.
평가에서는 이러한 구성 요소의 중요성을 평가하기 위해 부록 E에서 중요하지 않은 것으로 밝혀진 것에 대한 보다 포괄적인 목록과 함께 이러한 구성 요소의 중요성을 평가하는 ablation을 제시합니다; 우리의 발견이 향후 일반주의 policy 학습 연구에 유용하기를 바랍니다.
일반 로봇 policy 학습의 핵심 요소는 로봇 학습 데이터입니다.
웹에서 스크래핑할 수 있는 시각 및 언어 데이터와 달리 로봇 데이터를 대규모로 확보하는 것은 어렵고 하드웨어와 인력에 대한 상당한 투자가 필요한 경우가 많습니다.
여러 대규모 로봇 내비게이션 및 자율 주행 데이터셋 [29, 95, 13, 87, 80, 43, 89]이 있습니다.
최근 몇 년 동안 스크립트 및 autonomous policy [19, 41, 42, 12, 71, 30] 또는 인간 원격 조작 [59, 60, 25, 90, 39, 10, 26, 6, 77, 63, 79]을 통해 수집된 규모와 다양성이 증가하는 로봇 조작 데이터셋을 구축하기 위한 여러 노력도 있었습니다.
Octo는 앞서 언급한 많은 로봇 데이터셋을 통합한 최근의 노력인 Open X-Embodiment 데이터셋 [67]을 기반으로 학습되었습니다.
Open-X 데이터셋에는 약 1.5M 개의 로봇 에피소드가 포함되어 있으며, 이 중 800k 개를 Octo 학습용으로 큐레이션합니다.
RT-X 모델 [67]은 350K 에피소드의 제한된 하위 집합을 사용했기 때문에, 우리가 아는 한, Octo는 지금까지 가장 큰 로봇 조작 시연 데이터셋으로 학습되었습니다.
Ⅲ. The Octo Model
이 섹션에서는 파인튜닝을 통해 새로운 로봇과 작업 — 새로운 센서 입력 및 action 공간 포함 — 에 적응할 수 있는 오픈 소스 일반주의 로봇 policy인 Octo 모델에 대해 설명합니다.
우리는 주요 설계 결정, 학습 objectives, 학습 데이터셋 및 인프라에 대해 논의합니다.
Octo 모델의 디자인은 유연성과 확장성을 강조합니다: 다양한 일반적으로 사용되는 로봇, 센서 구성 및 액션을 지원하면서 대량의 데이터에 대해 학습할 수 있는 일반적이고 확장 가능한 레시피를 제공합니다.
또한 자연어 지침, 목표 이미지, 관찰 기록 및 디퓨전 디코딩을 통한 멀티모달, 청크된 action 예측을 지원합니다[17].
또한, 우리는 다양한 action 공간과 카메라 및 고유 수용 정보의 조합이 다른 로봇을 포함한 새로운 로봇 설정에 효율적으로 파인튜닝할 수 있도록 Octo를 특별히 설계했습니다.
이 디자인은 Octo를 다양한 다운스트림 로봇 응용 및 연구 프로젝트에 활용할 수 있는 유연하고 광범위하게 적용 가능한 제너럴리스트 로봇 policy로 만들기 위해 선택되었습니다.
A. Architecture
Octo는 그 핵심에 있는 트랜스포머 기반 policy π입니다.
세 가지 주요 부분으로 구성되어 있습니다:
언어 명령어 ℓ, 목표 g, 관찰 시퀀스 o_1, ... , o_H를 토큰으로 변환하는 input tokenizers [T_l, T_g, T_o] (그림 2, 왼쪽); 토큰을 처리하고 임베딩 e_l, e_g, e_o = T(T_l, T_g, T_o)를 생성하는 transformer backbone (그림 2, 상단); 원하는 출력을 생성하는 readout heads R(e), 즉 action a.

Task and observation tokenizers:
작업 정의 (예: 언어 지침 ℓ 및 목표 이미지 g)와 관찰 o (예: 손목 및 3인칭 카메라 스트림)을 모달리티별 토크나이저를 사용하여 공통 "tokenized" 형식으로 변환합니다 (그림 2, 왼쪽 참조):
• 언어 입력은 토큰화된 후, 일련의 언어 임베딩 토큰을 생성하는 사전 학습된 트랜스포머를 통과합니다. 우리는 t5-base (111M) 모델을 사용합니다 [74].
• 이미지 관찰과 목표는 얕은 컨볼루션 스택을 통과한 다음 일련의 평평한 패치로 분할됩니다 [22].
작업 및 관찰 토큰에 학습 가능한 위치 임베딩 p를 추가한 다음 순차적으로 배열하여 트랜스포머의 입력 시퀀스를 조립합니다 [T_T, T_(o,1), T_(o,2), . . .].
Transformer backbone and readout heads:
입력이 통합 토큰 시퀀스에 캐스팅되면 트랜스포머에 의해 처리됩니다 (그림 2, 상단 참조).
이는 관찰과 action의 연속성에 대해 트랜스포머 기반 policy를 학습한 이전 연구들과 유사합니다 [92, 73].
Octo 트랜스포머의 어텐션 패턴은 블록 단위로 마스킹됩니다: 관찰 토큰은 동일하거나 이전 시간 단계 T_(o,0:t)의 토큰과 작업 토큰 T_T (녹색)에만 인과적으로 참석할 수 있습니다.
존재하지 않는 관찰에 해당하는 토큰은 완전히 가려집니다 (예: 언어 지침이 없는 데이터셋).
이 모듈식 설계를 통해 파인튜닝 중에 관찰이나 작업을 추가하거나 제거할 수 있습니다 (아래 참조).
이러한 입력 토큰 블록 외에도 학습된 readout tokens T_(R,t) (보라색)을 삽입합니다.
T_(R,t)의 readout tokens은 시퀀스 전에 관찰 및 작업 토큰에 attend하지만 관찰 또는 작업 토큰에는 attend하지 않습니다 — 따라서 내부 임베딩에 영향을 주지 않고 수동적으로만 읽고 처리할 수 있습니다.
readout tokens은 BERT의 [CLS] 토큰과 유사하게 작용하며, 지금까지 관찰 시퀀스의 콤팩트 벡터 임베딩 역할을 합니다.
디퓨전 과정을 구현하는 가벼운 "action head"가 readout tokens의 임베딩에 적용됩니다.
이 action 헤드는 이전 연구 [98, 17]와 유사하게 여러 연속적인 action의 "chunk"를 예측합니다.
우리의 설계를 통해 다운스트림 파인튜닝 중에 모델에 새로운 작업 및 관찰 입력 또는 작업 출력 헤드를 유연하게 추가할 수 있습니다.
새로운 작업, 관찰 또는 loss 함수를 다운스트림에 추가할 때, 우리는 트랜스포머의 사전 학습된 가중치를 완전히 유지할 수 있으며, 사양 변경에 따라 필요한 경우 새로운 위치 임베딩, 새로운 경량 인코더 또는 새로운 헤드의 매개변수만 추가할 수 있습니다 (그림 2, 하단 참조).
이는 이미지 입력을 추가하거나 제거하거나 작업 사양을 변경하려면 사전 학습된 모델의 대규모 구성 요소를 재초기화하거나 재학습해야 하는 이전 아키텍처 [10, 81]와는 대조적입니다.
이러한 유연성은 Octo를 진정한 'generalist' 모델로 만들기 위해 매우 중요합니다: 사전 학습 중에 가능한 모든 로봇 센서와 action 구성을 다룰 수 없기 때문에, 파인튜닝 중에 Octo의 입력과 출력을 조정할 수 있어 로봇 커뮤니티에 다용도로 사용할 수 있는 도구입니다.
표준 트랜스포머 백본을 사용하거나 MLP 출력 헤드와 시각적 인코더를 융합하는 이전 모델 설계는 모델이 예상하는 입력의 유형과 순서에 따라 고정됩니다.
반면에, 관찰이나 작업을 Octo로 전환하는 것은 대부분의 모델을 다시 초기화할 필요가 없습니다.

B. Training data
우리는 다양한 로봇 학습 데이터셋 모음인 Open X-Embodiment Dataset [67]의 25개 데이터셋을 혼합하여 Octo를 학습시킵니다.
우리의 학습 혼합물에는 여러 로봇 embodiments 및 장면에서 얻은 다양한 작업의 시연 데이터가 포함되어 있습니다.
이러한 데이터셋은 로봇 유형뿐만 아니라 센서 (예: 손목 카메라 포함 여부)와 라벨 (예: 언어 지침 포함 여부)에서도 이질적입니다.
자세한 혼합은 그림 3과 부록 C를 참조하세요.
학습 혼합물 D를 만들기 위해 먼저 이미지 스트림이 포함되지 않은 모든 Open-X 데이터 세트와 델타 엔드 이펙터 제어를 사용하지 않는 데이터 세트를 제거하여 데이터를 큐레이션합니다.
또한 너무 반복적이거나 이미지 해상도가 낮거나 과도하게 틈새 작업으로 구성된 데이터셋도 제거합니다.
나머지 데이터셋의 경우, 작업과 환경에 따라 대략적으로 "more diverse" 데이터셋과 "less diverse" 데이터셋으로 분류한 다음, 학습 중에 더 다양한 데이터셋의 가중치를 두 배로 늘립니다.
또한 혼합물이 지배적이지 않도록 반복적인 에피소드가 많은 몇 가지 데이터셋의 가중치를 낮췄습니다.
마지막으로, 누락된 카메라 채널을 제로패드로 설정하고 데이터셋 간에 그리퍼 액션 스페이스를 정렬하여 그리퍼 명령이 +1이면 "the gripper is open", 0이면 "the gripper is closed"를 의미하도록 합니다
결과적으로 도출된 학습 혼합물이 잘 작동한다는 것을 발견했지만, 향후 연구에서는 일반적인 로봇 policy를 사전 학습하기 위해 데이터 혼합물 품질에 대한 보다 철저한 분석을 수행해야 합니다.
C. Training objective
조건부 디퓨전 디코딩 헤드를 사용하여 연속적이고 멀티모달 액션 분포를 예측합니다 [34, 17].
중요하게도, 트랜스포머 백본의 순방향 패스는 액션 예측당 하나만 수행되며, 그 후 다단계 디노이징 과정은 전적으로 작은 디퓨전 헤드 내에서 수행됩니다.
우리는 이 policy 매개변수화가 제로샷 및 파인튜닝 평가 모두에서 MSE 액션 헤드 또는 이산화 액션 분포로 학습된 policy를 능가한다는 것을 발견했습니다 [10].
액션을 생성하기 위해, 우리는 가우시안 노이즈 벡터 x^K ~ N (0, I)을 샘플링하고 이전 디노이징 단계의 출력 x^k, 스텝 인덱스 k, 그리고 트랜스포머 액션 readout의 출력 임베딩 e를 조건으로 하는 학습된 디노이징 네트워크 ϵ_θ (x^k, e, k)를 사용하여 디노이징의 K 단계를 적용합니다: (1)
하이퍼파라미터 α, γ, σ는 노이즈 스케줄에 해당합니다: 우리는 [66]의 표준 코사인 스케줄을 사용합니다.
우리는 [34]에서 처음 제안된 표준 DDPM objective를 사용하여 디퓨전 헤드를 학습합니다, 여기서 데이터셋 액션에 가우시안 노이즈를 추가하고, 디노이징 네트워크 ϵ_θ(x^k, e, k)를 학습시켜 원래 액션을 재구성합니다.
디퓨전 policy 학습에 대한 자세한 설명은 Chi et al. [17]을 참조하세요.
부록 D에 모든 하이퍼파라미터를 나열합니다.
파인튜닝 중에 동일한 디퓨전 학습 objective를 사용하고 전체 모델을 업데이트하는데, 이는 사전 학습된 매개변수의 하위 집합을 고정하는 것보다 뛰어난 성능을 발휘하는 레시피입니다.
모든 파인튜닝 실험에서 우리는 동일한 레시피를 사용합니다: 약 100개의 궤적을 가진 작은 타겟 도메인 데이터셋이 주어졌을 때, 선형 워밍업과 함께 코사인 감쇠 학습률 감쇠를 사용하여 50,000단계의 파인튜닝을 수행합니다.
D. Training Details
우리는 우리 모델의 두 가지 변형을 학습시켰습니다: ViT-S 크기를 반영하는 트랜스포머 백본을 가진 Octo-Small과 ViT-B 크기를 반영하는 트랜스포머 백본을 가진 Octo-Base [22].
우리는 AdamW 옵티마이저 [51]를 사용하며, 역제곱근 감쇠 학습률 스케줄 [97]을 사용합니다, 가중치 감쇠는 0.1이고 그래디언트 클리핑은 1.0입니다.
ViT-B는 14시간이 소요된 TPU v4-128 포드를 사용하여 배치 크기 2048의 300k 단계로 학습되었습니다.
24GB VRAM이 탑재된 단일 NVIDIA A5000 GPU에서 동일한 모델을 파인튜닝하는 데 약 5시간이 걸리며 멀티 GPU 학습을 통해 속도를 높일 수 있습니다.
우리는 2 프레임의 관찰 기록을 사용하여 학습합니다; 예비 실험에서 첫 번째 추가 프레임을 넘어서면 상당히 감소하는 이득을 발견했습니다.
우리는 이전 연구 [54, 90, 81, 77, 63]와 유사하게 궤적에서 미래의 상태를 균일하게 선택하여 목표 이미지로 할당하는 후행 목표 재라벨링 [2]을 사용합니다.
학습 중에 일반적인 이미지 데이터 증강을 적용하고, 학습 예제마다 언어 지시나 목표 이미지를 랜덤으로 제로화하여 Octo가 언어 지시나 목표 이미지에 의해 조건화될 수 있도록 합니다.
언어 주석이 없는 데이터셋의 경우, 우리는 항상 목표 이미지 조건화를 사용합니다.
이를 통해 우리 모델은 주로 self-supervised 시각적 관찰을 통해 제어를 학습할 수 있으며, 멀티 컨텍스트 모방 학습에 대한 이전 연구 [54, 62, 61, 63]와 유사하게 언어 주석에 대한 부담을 줄여줍니다.
하이퍼파라미터 선택에 대한 자세한 내용은 부록 D를 참조하세요.
E. Model Checkpoints & Code
우리는 모델을 학습, 파인튜닝 및 실행하는 데 필요한 모든 리소스를 오픈 소스로 제공합니다:
• Octo-Small (27M params) 및 Octo-Base (93M params)를 위한 사전 학습된 Octo 체크포인트.
• JAX에서 Octo 모델을 위한 파인튜닝 스크립트.
• JAX의 Open X-Embodiment 데이터셋에서 Octo 사전 학습을 위한 모델 사전 학습 파이프라인.
• JAX 및 PyTorch와 호환되는 Open X-Embodiment 데이터를 위한 독립형 데이터 로더.
부록 B에서 사전 학습된 Octo 모델을 로드하고 실행하는 간단한 예를 제공합니다.
Ⅳ. Experiments
우리의 실험은 여러 축에 걸쳐 일반적인 로봇 파운데이션 모델로서 Octo의 능력을 평가하는 실증적 분석을 제공합니다:
1) Octo가 여러 로봇 embodiments를 제어하고 언어와 목표 작업을 즉시 해결할 수 있습니까?
2) Octo 가중치는 새로운 작업과 로봇에 대한 데이터 효율적인 파인튜닝을 위한 좋은 초기화 역할을 하며, 처음부터 학습하고 일반적으로 사용되는 사전 학습된 표현보다 향상됩니까?
3) Octo에 일반 로봇 policy를 구축하는 데 가장 중요한 디자인 결정은 무엇입니까?

Evaluation setups:
우리는 4개 기관에서 9개의 대표적인 로봇 학습 설정 스펙트럼에서 Octo의 역량을 평가했습니다 (그림 4 참조).
우리는 모든 로봇이 델타 엔드 이펙터 제어 액션으로 제어되고 관찰 공간이 RGB 이미지인 사전 학습 데이터와 일치하는 로봇 설정을 사용하여 언어 및 목표 이미지 작업을 위해 다양한 로봇을 즉시 제어할 수 있는 Octo의 능력 ("zero-shot")을 테스트합니다.
우리는 또한 새로운 환경과 작업에 대한 데이터 효율적인 파인튜닝을 위해 Octo를 평가합니다, 여기에는 새로운 관찰 ("Berkeley Insertion"의 힘 토크 입력), 새로운 액션 스페이스 ("Berkeley Pick-Up"의 공동 위치 제어), 그리고 새로운 로봇 embodiments ("Berkeley Coke" 및 "Berkeley Bimanual")이 포함됩니다.
각 파인튜닝 설정은 NVIDIA A5000 GPU에서 약 100개의 도메인 내 데모와 5시간 미만의 파인튜닝을 사용하며, 모든 설정에서 동일한 하이퍼파라미터를 사용합니다 (부록 D 참조).
우리의 평가 과제는 Octo가 다양한 객체 (예: "WidowX BridgeV2")와 상호작용하고, 장기 과제 (예: "Stanford Coffee")를 해결하며, 정밀한 조작 (예: "Berkeley Insertion")을 수행하는 능력을 테스트합니다.
각 평가 설정에 대한 자세한 내용은 부록 F를 참조하세요.
Comparisons:
우리는 공개된 체크포인트를 사용하여 여러 로봇을 즉시 제어할 수 있는 Octo의 능력을 공개적으로 이용 가능한 최고의 일반 로봇 policy인 RT-1-X [67]와 비교합니다.
Octo와 마찬가지로 RT-1-X는 Open X-Embodiment 로봇 데이터셋에서 사전 학습되었으며, 여러 로봇을 제로샷으로 제어하는 것을 목표로 하여 자연스러운 비교 지점을 제공합니다.
또한 Octo의 제로샷 기능을 Open X-Embodiment 데이터셋에서 로봇 action을 생성하기 위해 파인튜닝된 550억 개의 파라미터 비전-언어 모델인 RT-2-X와 비교합니다.
RT-1-X 및 RT-2-X 모델 [67]은 Octo의 800k 에피소드에 비해 더 제한된 350k 에피소드 하위 집합으로 학습되었습니다.
또한 데이터 효율적인 파인튜닝을 위한 policy 초기화로서 Octo의 성능을 두 가지 일반적인 접근 방식과 비교합니다: (1) 타겟 도메인 데모에 대한 학습을 처음부터 시작하고 (2) 사전 학습련된 시각적 표현을 사용합니다.
많은 이전 연구들이 모방 파인튜닝을 위한 다른 사전 학습 방식을 제안했지만 [25, 24, 26], 우리가 아는 한, 새로운 관찰 및 액션 스페이스에 성공적으로 파인튜닝하는 것으로 입증된 사전 학습된 policy를 제공하는 이전 방법은 없습니다.
그러나 VC-1 [56]과 같은 사전 학습된 시각적 표현이 이러한 방식으로 사용되어 왔으며, 따라서 이러한 방법들을 또 다른 비교 지점으로 사용합니다.
파인튜닝을 위해, 우리는 대규모 트랜스포머 아키텍처를 처음부터 학습시키는 것이 소규모 데이터셋에서 빠르게 과적합된다는 것을 발견했습니다.
대신, 많은 이전 연구들이 사용한 표준 policy 아키텍처를 사용하여 처음부터 더 나은 결과를 얻었습니다:
FiLM [70] 언어 조건을 갖춘 ResNet 비주얼 인코더와 디퓨전 objective로 학습된 소형 트랜스포머 액션 디코더가 결합되어 [10, 98, 17, 55]와 유사합니다.
이 아키텍처의 인스턴스화에는 RT-1 [10]과 유사한 28M개의 매개변수가 있습니다.
우리는 이를 처음부터 시작하는 베이스라인 ("ResNet+Transformer Scratch")으로 채택합니다.
또한 Majumdar et al. [57]의 절차에 따라 사전 학습된 시각적 표현과 비교합니다.
ViT-B 비주얼 인코더는 4,000시간 분량의 자아 중심 비디오와 ImageNet으로 사전 학습된 SOTA 비주얼 표현인 VC-1 가중치 [57]로 초기화되며, MLP 액션 디코더와 결합됩니다.
전체 모델은 MSE loss ("VC-1")을 사용하여 전문가의 action을 예측하도록 학습됩니다.

A. Octo Controls Multiple Robots Out-of-the-Box
우리는 그림 5에서 Octo, RT-1-X, 그리고 RT-2-X의 제로샷 조작 능력을 비교합니다.
우리는 사전 학습 데이터셋에서 선택한 여러 작업들에 대해 평가했습니다, 여기에는 picking and placing, wiping a table with a cloth, opening and closing drawers 등이 포함됩니다.
각 로봇에 대해 해당 OXE 데이터셋에서 두 개의 언어 작업을 선택하고, 초기 조건이 다양한 작업당 10번의 시도를 수행했습니다 (자세한 내용은 부록 F에 나와 있습니다).
선택된 작업은 사전 학습 데이터에서 "in-distribution"이지만, 평가를 위해서는 새로운 객체 위치, 조명 조건, 배경 및 주의 분산 객체에 일반화할 수 있는 방법이 필요합니다.
모든 방법이 사전 학습 환경에서 작업 전반에 걸쳐 합리적으로 작동했지만, 평균적으로 Octo가 RT-1-X (35M 매개변수)보다 29% 더 높은 성공률을 보였습니다.
WidowX 및 RT-1 로봇 평가의 경우, RT-2-X (550억 개의 매개변수) [103]과 비교한 결과, Octo도 유사한 성능을 보였습니다.
또한 RT-1-X와 RT-2-X는 언어 명령어에 대한 조건화만 지원하는 반면, Octo는 목표 이미지에 대한 조건화도 지원합니다.
우리는 목표 이미지 컨디셔닝을 사용하여 WidowX 작업에서 모델을 평가한 결과, 언어 컨디셔닝을 사용했을 때보다 25% 더 높은 성공률을 달성한 것으로 나타났습니다.
이는 목표 이미지가 과제를 달성하는 방법에 대한 더 많은 정보를 제공하기 때문일 가능성이 높습니다.
BridgeV2 도메인에서는 표 VII의 제로샷 기능에 대한 세밀한 분석을 수행하여 데이터셋에서 볼 수 있는 설정과 새로운 환경, 장면 및 기술에 대한 성능을 측정했습니다.
Octo 모델은 새로운 객체에서 높은 성공을 거두지만, 새로운 장면에서는 제로샷 성능이 약간 저하되고 뒤집기나 정밀 삽입과 같은 새로운 동작에서는 높은 성능 저하가 발생합니다.


B. Octo Enables Data-Efficient Learning in New Domains
우리는 표 I의 새로운 도메인에 데이터 효율적인 파인튜닝 결과를 보고합니다.
Octo를 파인튜닝하는 것이 처음부터 시작하거나 미리 학습된 VC-1 가중치를 사용하는 것보다 더 나은 policy로 이어진다는 것을 발견했습니다.
여섯 가지 평가 설정 (부록 F에 자세히 설명되어 있음)에서 평균적으로 Octo는 차선책 베이스라인을 52% 초과 달성했습니다.
중요한 것은 모든 평가 작업에서 Octo를 파인튜닝하기 위해 동일한 레시피와 하이퍼파라미터를 사용한다는 점입니다 (섹션 III-C 참조), 이는 좋은 기본 구성입니다.
결과는 또한 Octo가 새로운 관측 ("Berkeley Insertion"에 대한 힘 토크 입력), 액션 공간 ("Berkeley Pick-Up"에 대한 공동 위치 제어) 및 새로운 로봇 embodiments ("Berkeley Coke" 및 "Berkeley Bimanual")을 수용하는 능력을 강조합니다.
이를 통해 Octo는 단일 카메라 입력 및 엔드 이펙터 위치 제어를 넘어 다양한 단일 및 이중 팔 로봇 조작 문제에 적용할 수 있습니다.
C. Design Decisions for Generalist Robot Policy Training
우리는 제로샷 멀티 로봇 컨트롤러로서 Octo의 효과와 policy 파인튜닝을 위한 초기화를 입증했습니다.
다음으로 다양한 디자인 결정이 Octo policy의 성과에 미치는 영향을 분석합니다.
구체적으로, 우리는 다음과 같은 측면에 중점을 둡니다: (1) 모델 아키텍처, (2) 학습 데이터, (3) 학습 objective, (4) 모델 규모.
달리 명시되지 않는 한, 우리는 계산 예산 때문에 Octo-Small 모델에서 모든 Ablation을 수행합니다.
Model architecture:
이전의 트랜스포머 기반 policy 설계는 일반적으로 큰 ResNet 스타일의 [32] 인코더로 입력 이미지를 인코딩하고, 결과 이미지 피쳐를 비교적 작은 트랜스포머와 융합합니다 [10, 67, 81, 17, 98, 61, 83].
대신, 우리는 표준 비전 트랜스포머 아키텍처와 유사하게 매우 얕은 CNN 패치 인코더를 사용하고 대부분의 매개변수와 FLOPS를 트랜스포머 백본에 집중시키는 "ransformer-first" 아키텍처를 선택합니다 [22].
표 II에서 우리는 이 확장 가능한 아키텍처가 전체 Open X-Embodiment 데이터 믹스에서 학습할 때 성능을 크게 향상시킨다는 것을 보여줍니다.
중요하게도, 우리는 작은 데이터셋에서 학습할 때 ResNet 기반 아키텍처가 ViT보다 더 나은 성능을 보인다는 것을 발견했습니다. 예를 들어, "from scratch" 비교를 통해, 대형 트랜스포머 policy가 다양한 데이터셋에서 확장 가능한 학습에 고유하게 적합하다는 점을 강조했습니다.

Training data:
Octo는 지금까지 가장 다양한 cross-embodied 로봇 데이터셋에서 학습되었으며, Open X-Embodiment 데이터셋 [67]에서 수작업으로 큐레이션한 25개의 데이터셋을 혼합한 것입니다 (섹션 III-B 참조).
우리는 RT-X 모델 [67]을 학습하는 데 사용된 11개의 데이터 세트와 타겟 로봇 도메인의 데이터만으로 학습된 베이스라인을 비교하여 이 학습 믹스의 영향을 완화합니다.
표 II에서 우리는 학습 데이터셋의 수가 증가함에 따라 Octo의 성능이 향상된다는 것을 보여줍니다.
이는 데이터 믹스를 더 많은 데이터 세트로 확장하는 것이 policy 성과를 더욱 향상시킬 수 있음을 시사합니다.
우리는 이를 향후 작업과 함께 데이터 큐레이션을 위한 모범 사례에 대한 보다 철저한 조사에 맡길 것입니다.
Training objective:
Octo의 디퓨전 디코딩 학습 objective (섹션 III-C 참조)를 이전 연구의 일반적인 대안과 비교합니다:
단순 MSE loss [8, 47] 및 이산화된 action에서의 크로스-엔트로피 loss [10, 103].
표 II에서 우리는 Octo의 디퓨전 학습 objective가 성능을 크게 향상시킨다는 것을 발견했습니다.
이 개선은 디퓨전 헤드가 MSE 헤드와 달리 연속적인 액션의 정밀도를 유지하면서 멀티모달 액션 분포를 모델링할 수 있기 때문일 가능성이 높습니다 (불연속 헤드와 달리).
질적으로 policy는 MSE로 학습된 policy보다 더 결정적으로 작용하며, 이산화된 액션으로 학습된 policy보다 더 정확하게 작용합니다.

Model scale:
우리는 일반적인 비전 트랜스포머 모델의 사다리를 따라 세 가지 크기의 Octo 모델을 비교합니다 [97]: Octo-Tiny (10M), Octo-Small (27M), Octo-Base (93M).
그림 6에서 우리는 policy의 제로샷 성능이 모델 크기가 증가함에 따라 확장된다는 것을 보여줍니다.
우리는 base 모델이 small 모델보다 초기 장면 구성에 더 강건하며, 조기 파악 시도의 가능성이 낮다는 것을 발견했습니다, 이는 더 큰 모델이 시각적 장면 인식이 더 우수하다는 것을 나타냅니다.
Ⅴ. Discussion and Future Work
저희는 지금까지 가장 큰 로봇 조작 데이터셋인 800k 개의 로봇 궤적을 사전 학습한 대규모 트랜스포머 기반 policy인 Octo를 소개했습니다.
우리는 Octo가 다양한 작업을 즉시 해결할 수 있음을 입증하고, Octo의 구성 설계가 새로운 입력 및 action 공간에 대한 파인튜닝을 가능하게 하여 Octo를 다양한 로봇 제어 문제에 대해 다재다능한 초기화로 만들 수 있음을 보여주었습니다.
모델 자체 외에도 대규모 로봇 데이터셋에서 더 쉽게 학습할 수 있는 도구와 함께 전체 학습 및 파인튜닝 코드를 공개했습니다.
Octo는 제로샷 평가와 파인튜닝 평가 모두에서 강력한 성능을 달성했지만, 현재 모델에는 여전히 여러 단점이 있다는 것을 발견했습니다, 이는 대부분 학습 데이터의 특성에 기인합니다.
먼저, 현재의 Octo 모델이 손목 카메라 정보를 적절히 처리하는 데 어려움을 겪고 있다는 것을 발견했습니다.
종종 3인칭 카메라와 손목 카메라를 결합하는 대신 3인칭 카메라만 사용할 때 파인튜닝 결과가 더 강했습니다.
또한, 우리는 언어 조건 policy 성과와 목표 조건 policy 성과 사이에 큰 차이가 있음을 발견했습니다.
두 경우 모두 학습 데이터에 각각의 모달리티가 부족한 것이 그 이유일 가능성이 높습니다:
데이터의 27%만이 손목 카메라 정보를 포함하고 있으며, 사전 학습 데이터의 56%만이 언어 주석을 포함하고 있습니다.
Octo를 학습하는 데 사용되는 데이터를 확장하는 것은 자연스러운 개선 방법입니다.
Open X-Embodiment 데이터셋은 최적의 로봇 시연으로 구성되어 있기 때문에, 현재 모델은 모방을 통해 학습합니다; 향후 연구에서는 대체 objective가 필요한 최적이 아닌 온라인 상호작용 데이터에서 학습하는 것을 고려할 수 있습니다.
또한, 우리는 단일 및 이중 팔 조작기만을 사용하여 Octo를 학습하고 평가했지만, 내비게이션이나 모바일 조작을 수행하는 더 넓은 로봇 세트로 확장하는 것은 높은 기회의 방향이 될 것입니다.
Octo는 다양한 로봇 설정에서 즉시 작동하는 일반적인 로봇 policy를 구축하기 위한 한 걸음을 내딛는 것이지만, 더 나은 언어 조정, 손목 카메라 지원 개선, 최적의 데모 이상의 데이터 통합 등 모델을 개선하기 위한 작업이 남아 있습니다.
Octo가 연구자와 실무자들이 더 큰 로봇 데이터셋에 액세스하고 사전 학습된 로봇 모델을 활용하여 새로운 작업을 효율적으로 학습하고 광범위한 일반화를 할 수 있는 간단한 런치패드를 제공하기를 바랍니다.
'Robotics' 카테고리의 다른 글
| Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success (1) | 2025.08.12 |
|---|---|
| Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments (1) | 2025.07.24 |
| OpenVLA: An Open-Source Vision-Language-Action Model (0) | 2025.06.30 |
| Navigation World Models (0) | 2025.06.25 |
| 3D-VLA: A 3D Vision-Language-Action Generative World Model (0) | 2025.06.09 |