2025. 6. 30. 11:20ㆍRobotics
OpenVLA: An Open-Source Vision-Language-Action Model
Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn
Abstract
인터넷 규모의 비전-언어 데이터와 다양한 로봇 데모를 결합하여 사전 학습된 대규모 policy는 로봇에게 새로운 기술을 가르치는 방식을 변화시킬 잠재력이 있습니다: 새로운 행동을 처음부터 학습하는 대신, 우리는 시각 운동 제어를 위한 강력하고 일반화 가능한 policy를 얻기 위해 이러한 vision-language-action (VLA) 모델을 파인튜닝할 수 있습니다.
그러나 로보틱스를 위한 VLA의 광범위한 채택은 1) 기존 VLA가 대부분 폐쇄되어 대중에게 접근할 수 없으며, 2) 이전 연구에서는 채택의 핵심 구성 요소인 새로운 작업을 위한 VLA를 효율적으로 파인튜닝하는 방법을 탐구하지 못했기 때문에 어려운 과제였습니다.
이러한 문제를 해결하기 위해, 우리는 다양한 970k개의 실제 로봇 데모 컬렉션으로 학습된 7B 매개변수 오픈 소스 VLA인 OpenVLA를 소개합니다.
OpenVLA는 사전 학습된 DINOv2와 SigLIP의 피쳐를 융합하는 시각 인코더와 결합된 Llama 2 언어 모델을 기반으로 합니다.
추가된 데이터 다양성과 새로운 모델 구성 요소의 산물인 OpenVLA는 29개의 작업과 여러 로봇 embodiments에서 절대 작업 성공률에서 RT-2-X (55B)와 같은 폐쇄형 모델을 16.5% 능가하는 강력한 결과를 보여주며, 매개변수는 7배 적습니다.
우리는 또한 OpenVLA를 새로운 설정에 맞게 효과적으로 파인튜닝할 수 있음을 보여줍니다, 특히 다중 객체가 포함된 멀티태스크 환경에서 강력한 일반화 결과와 강력한 언어 기반 능력을 제공하며, Diffusion Policy와 같은 표현적인 처음부터 모방 학습 방법을 20.4% 능가합니다
또한 컴퓨팅 효율성에 대해서도 탐구합니다; 별도의 기여로, OpenVLA가 현대의 low-rank adaptation 방법을 통해 소비자 GPU에서 파인튜닝될 수 있으며, 양자화를 통해 다운스트림 성공률에 영향을 미치지 않고 효율적으로 서비스될 수 있음을 보여줍니다.
마지막으로, 모델 체크포인트, 파인튜닝 노트북, 그리고 대규모로 VLA를 학습할 수 있도록 지원하는 PyTorch 코드베이스를 Open X-Embodiment 데이터셋에 내장하여 출시합니다.
1 Introduction
로봇 조작을 위한 학습된 policy의 주요 약점은 학습 데이터를 넘어 일반화할 수 없다는 점입니다: 개인의 기술이나 언어 지시를 위해 학습된 기존 policy들은 객체 위치나 조명과 같은 새로운 초기 조건으로 행동을 추정할 수 있는 능력을 가지고 있지만, 장면 방해 요소나 새로운 객체 [4, 5]에 대한 견고성이 부족하고 보이지 않는 작업 지시를 실행하는 데 어려움을 겪습니다 [6, 7].
그러나 로봇공학 외에도 CLIP [8], SigLIP [9], Llama 2 [10]와 같은 기존의 시각 및 언어 기반 모델들은 인터넷 규모의 사전 학습 데이터셋에 의해 포착된 priors 정보를 바탕으로 이러한 유형의 일반화 등을 수행할 수 있습니다.
이러한 사전 학습 규모를 로봇공학에 재현하는 것은 여전히 미해결 과제이지만 — 가장 큰 로봇 조작 데이터셋 [1, 11]조차도 100K개에서 1M개의 예제만 있습니다 – 이 불균형은 기회를 시사합니다: 기존의 시각 및 언어 기반 모델을 사용하여 로봇 policy를 학습하는 핵심 구성 요소로서 학습 데이터를 넘어 객체, 장면 및 작업에 일반화할 수 있습니다.
이 목표를 향해 기존 연구는 로봇 표현 학습을 위해 사전 학습된 언어 및 비전-언어 모델을 통합하고 [12–14] 작업 계획 및 실행을 위한 모듈형 시스템의 구성 요소로 탐구해 왔습니다 [15, 16].
최근에는 vision-language-action 모델 [VLA; 1, 7, 17, 18]을 직접 학습하여 제어하는 데 사용되고 있습니다.
VLA는 로봇 공학을 위해 사전 학습된 비전 및 언어 기반 모델을 직접적으로 구현하여 PaLI와 같은 visually-conditioned language models (VLM)을 직접 파인튜닝하여 로봇 제어 action을 생성하는 방법을 제공합니다 [19, 20].
인터넷 규모의 데이터로 학습된 강력한 파운데이션 모델을 기반으로 RT-2 [7]과 같은 VLA는 인상적인 견고성 결과를 보여줄 뿐만 아니라 새로운 객체와 작업에 일반화할 수 있는 능력을 갖추고 있어 일반주의 로봇 policy의 새로운 표준을 마련했습니다.
그러나 기존 VLA의 광범위한 사용을 막는 두 가지 주요 이유가 있습니다: 1) 현재 모델 [1, 7, 17, 18]은 폐쇄되어 모델 아키텍처, 학습 절차 및 데이터 혼합에 대한 가시성이 제한적이며, 2) 기존 작업은 새로운 로봇, 환경 및 작업에 VLA를 배포하고 적응시키는 모범 사례를 제공하지 않습니다 — 특히 상용 하드웨어 (예: 소비자용 GPU)에서.
우리는 미래 연구 개발을 위한 풍부한 기반을 개발하기 위해 로봇 공학이 오픈 소스 언어 모델 [21–24]을 중심으로 한 기존 생태계와 유사하게 효과적인 파인튜닝 및 adaptation을 지원하는 오픈 소스 일반 VLA가 필요하다고 주장합니다.
이를 위해, 우리는 일반론적 로봇 조작 policy를 위한 새로운 SOTA 기술을 확립하는 7B 매개변수 오픈 소스 VLA인 OpenVLA를 소개합니다.
OpenVLA는 여러 세분화된 시각적 조건을 갖춘 언어 모델 백본으로 구성되어 있으며, Open-X Embodiment [1] 데이터셋에서 970k 개의 로봇 조작 궤적으로 구성된 대규모의 다양한 데이터셋에서 파인튜닝되었습니다 — 다양한 로봇 embodiments, 작업 및 장면을 포괄하는 데이터 세트입니다.
데이터 다양성 증가와 새로운 모델 구성 요소의 산물인 OpenVLA는 이전 SOTA VLA인 55B 매개변수 RT-2-X 모델 [1, 7]을 29개의 WidowX 및 Google Robot embodiments 평가 작업에서 16.5%의 절대 성공률로 능가합니다.
우리는 또한 객체 픽앤플레이스부터 테이블 청소에 이르기까지 행동에 이르는 7가지 다양한 조작 작업에 걸쳐 이전 연구에서 다루지 않았던 새로운 기여인 VLA에 대한 효율적인 파인튜닝 전략을 조사합니다.
우리는 파인튜닝된 OpenVLA policy가 Octo [5]와 같은 파인튜닝된 사전 학습된 policy보다 분명히 우수하다는 것을 발견했습니다.
diffusion policy를 사용하는 처음부터 모방 학습 [3]과 비교했을 때, 파인튜닝된 OpenVLA는 여러 객체가 있는 멀티태스크 환경에서 언어를 행동으로 전환하는 작업에서 상당한 개선을 보여줍니다.
이 결과에 따라, 우리는 성능 저하 없이 소비자급 GPU에서 OpenVLA 모델을 적응시키기 위해 low-rank adaptation [LoRA; 26]과 모델 양자화 [27]을 활용한 계산 효율적인 파인튜닝 방법의 효과를 처음으로 입증했습니다.
마지막 기여로, 우리는 모든 모델, 배포 및 파인튜닝 노트북, 그리고 대규모 VLA 학습을 위한 OpenVLA 코드베이스를 오픈 소스로 제공하며, 이러한 리소스가 향후 로봇 공학을 위한 VLA 탐색 및 적응 작업에 도움이 되기를 희망합니다.
2 Related Work
Visually-Conditioned Language Models
Visually-conditioned language models (VLM)은 입력 이미지와 언어 프롬프트로부터 자연어를 생성하기 위해 인터넷 규모의 데이터로 학습되며, 시각적 질문 응답 [28–31]부터 객체 위치화 [32, 33]에 이르기까지 다양한 응용 분야에 채택되었습니다.
최근 VLM을 촉진하는 주요 발전 중 하나는 사전 학습된 비전 인코더 [8, 9, 25]와 사전 학습된 언어 모델 [10, 23, 34–36]의 피쳐를 연결하는 모델 아키텍처로, 컴퓨터 비전과 자연어 모델링의 발전을 직접 기반으로 강력한 멀티모달 모델을 만드는 것입니다.
초기 연구는 비전과 언어 피쳐 간의 크로스-어텐션을 위한 다양한 아키텍처를 탐구했지만 [37–41], 새로운 오픈 소스 VLM [20, 42–44]은 사전 학습된 시각적 트랜스포머의 패치 피쳐를 토큰으로 취급한 후 언어 모델의 입력 공간에 투영하는 더 간단한 "patch-as-token" 접근 방식으로 수렴했습니다.
이 단순함 덕분에 VLM 학습을 위해 대규모 언어 모델 학습을 위한 기존 도구를 쉽게 재사용할 수 있습니다.
우리는 이러한 도구를 사용하여 VLA 학습을 확장하고, 특히 Karamcheti et al. [44]의 VLM을 사전 학습된 백본으로 사용합니다, 이들은 멀티 해상도 시각적 피쳐로부터 학습되며, DINOv2 [25]의 저수준 공간 정보와 SigLIP [9]의 고수준 시맨틱을 융합하여 시각적 일반화를 돕습니다.
Generallist Robot Policies
최근 로봇 공학의 트렌드는 다양한 로봇 embodiments [1, 2, 6, 45–49]에 걸쳐 대규모 다양한 로봇 데이터셋 [1, 2, 6, 11, 45, 49–56]에서 멀티태스크 "generalist" 로봇 policy를 학습하는 방향으로 나아가고 있습니다 [1, 5, 53, 57–66].
특히, Octo [5]는 여러 로봇을 즉시 제어할 수 있고 새로운 로봇 설정에 유연하게 파인튜닝할 수 있는 일반 policy를 학습합니다.
이러한 접근 방식과 OpenVLA의 주요 차이점은 모델 아키텍처입니다.
Octo와 같은 이전 연구들은 일반적으로 언어 임베딩이나 시각 인코더와 같은 사전 학습된 구성 요소를 구성하고, 추가적인 모델 구성 요소를 처음부터 초기화하여 [2, 5, 6] policy 학습 과정에서 이들을 "stitch" 방법을 배웁니다.
이러한 작업과 달리 OpenVLA는 보다 종단 간 접근 방식을 채택하여 VLM을 언어 모델 어휘에서 토큰으로 취급하여 로봇 action을 생성하기 위해 직접 파인튜닝합니다.
우리의 실험 평가에 따르면, 이 간단하면서도 확장 가능한 파이프라인은 이전의 일반 policy들보다 성능과 일반화 능력을 크게 향상시킵니다.
Vision-Language-Action Models
많은 연구들이 로봇 공학을 위해 VLM의 사용을 탐구해 왔습니다, 예를 들어, 시각적 상태 표현 [12, 13], 객체 감지 [67], 고수준 계획 [16], 그리고 피드백 신호 제공 [68–71] 등이 있습니다.
다른 것들은 VLM을 종단 간 시각 운동 조작 policy에 직접 통합하지만 [14, 15], policy 아키텍처에 중요한 구조를 통합하거나 보정된 카메라가 필요하여 적용 가능성이 제한됩니다.
최근 많은 연구들이 우리와 유사한 레시피를 탐구하고 로봇 action을 예측하기 위해 대규모 사전 학습된 VLM을 직접 파인튜닝했습니다 [1, 7, 17, 18, 72–74].
이러한 모델은 로봇 제어 action을 VLM 백본에 직접 융합하기 때문에 vision-language-action models (VLA)이라고도 합니다.
이것은 세 가지 주요 이점이 있습니다: (1) 대규모 인터넷 규모의 비전-언어 데이터셋에서 사전 학습된 비전 및 언어 구성 요소의 정렬을 수행합니다. (2) 로봇 제어를 위해 맞춤 제작된 것이 아닌 일반 아키텍처를 사용하여 최신 VLM 학습의 기반이 되는 확장 가능한 인프라를 활용하고 [75–77], 최소한의 코드 수정으로 수십억 개의 매개변수 policy를 학습할 수 있도록 확장할 수 있으며, (3) 로봇 공학이 VLM의 빠른 개선을 통해 혜택을 누릴 수 있는 직접적인 경로를 제공합니다.
기존의 VLA 연구는 단일 로봇 또는 시뮬레이션 설정에서 학습 및 평가에 중점을 두었기 때문에 일반성이 부족하거나 폐쇄적이어서 새로운 로봇 설정에 대한 효율적인 파인튜닝을 지원하지 않습니다 [1, 7, 17, 18].
가장 밀접하게 관련된 RT-2-X [1]은 Open X-Embodiment 데이터셋에서 55B 매개변수 VLA policy를 학습하고 SOTA 일반주의 조작 policy 성능을 입증합니다.
그러나 우리의 작업은 여러 중요한 측면에서 RT-2-X와 다릅니다: (1) 강력한 오픈 VLM 백본과 더 풍부한 로봇 사전 학습 데이터셋을 결합함으로써 OpenVLA는 실험에서 RT-2-X보다 성능이 뛰어나면서도 크기는 몇 배 작습니다; (2) 새로운 목표 설정에 대한 OpenVLA 모델의 파인튜닝을 철저히 조사하는 반면, RT-2-X는 파인튜닝 설정을 조사하지 않습니다; (3) 최신 파라미터 효율적인 파인튜닝 및 양자화 접근법의 효과를 최초로 입증한 사람입니다; (4) OpenVLA는 오픈 소스로서 VLA 학습, 데이터 혼합, 목표 및 추론에 대한 향후 연구를 지원하는 최초의 generalist VLA입니다.
3 The OpenVLA Model
Open X-Embodiment 데이터셋 [1]에서 970k 로봇 시연으로 학습된 7B 매개변수 vision-language-action model (VLA)인 OpenVLA 모델을 소개합니다.
VLA 모델을 개발하기 위한 모범 사례에 관한 많은, 대부분 탐구되지 않은 질문들이 있습니다, 예를 들어, 학습에 사용할 최적의 모델 백본, 데이터셋, 하이퍼파라미터는 무엇인가요.
아래에서는 OpenVLA 개발을 위한 접근 방식을 자세히 설명하고 주요 학습 내용을 요약합니다.
구체적으로, 먼저 OpenVLA의 근간을 이루는 최신 VLM에 대한 간략한 개요를 제공합니다 (섹션 3.1); 그런 다음 기본 학습 레시피와 데이터 세트 (섹션 3.2 및 섹션 3.3)를 설명하고, 주요 설계 결정에 대해 논의합니다 (섹션 3.4); 그리고 학습 및 추론에 사용되는 인프라에 대한 세부 정보를 제공합니다 (섹션 3.5).

3.1 Preliminaries: Vision-Language Models
최신 VLM [20, 42–44]의 아키텍처는 세 가지 주요 부분으로 구성되어 있습니다 (그림 2 참조): (1) 이미지 입력을 여러 "image patch embeddings"에 매핑하는 시각 인코더, (2) 시각 인코더의 출력 임베딩을 가져와 언어 모델의 입력 공간에 매핑하는 프로젝터, (3) large language model (LLM) 백본.
VLM 학습 중에 모델은 다양한 인터넷 소스에서 큐레이팅된 시각 또는 인터리브된 시각 및 언어 데이터에 대한 다음 텍스트 토큰 예측 objective를 가지고 엔드투엔드로 학습됩니다.
이 작업에서는 Prismatic-7B VLM [44]을 기반으로 합니다.
Prismatic은 위에서 설명한 것과 동일한 표준 아키텍처를 따르며, 600M 매개변수 시각 인코더, 소형 2-레이어 MLP 프로젝터, 그리고 7B 매개변수 Llama 2 언어 모델 백본 [10]을 사용합니다.
특히, Prismatic은 사전 학습된 SigLIP [79] 및 DinoV2 [25] 모델로 구성된 두 부분으로 구성된 시각 인코더를 사용합니다.
입력 이미지 패치는 두 인코더를 개별적으로 통과하며, 결과적으로 생성된 피쳐 벡터는 채널 단위로 연결됩니다.
CLIP- [80] 또는 SigLIP 전용 인코더와 같이 더 일반적으로 사용되는 비전 인코더와 달리, DinoV2 피쳐의 추가는 공간 추론 개선에 도움이 되며 [44], 특히 로봇 제어에 도움이 될 수 있는 것으로 나타났습니다.
SigLIP, DinoV2, Llama 2는 각각 수조 개의 인터넷 소스 이미지 텍스트, 이미지 전용, 텍스트 전용 데이터 토큰으로 구성된 학습 데이터에 대한 세부 정보를 공개하지 않습니다.
Prismatic VLM은 오픈 소스 데이터셋 [29, 42, 81–83]에서 약 1M개의 이미지-텍스트 및 텍스트 전용 데이터 샘플을 포함하는 LLaVA 1.5 데이터 혼합물 [43]을 사용하여 이러한 구성 요소 위에 파인튜닝됩니다.
3.2 OpenVLA Training Procedure
OpenVLA를 학습하기 위해 로봇 action 예측을 위해 사전 학습된 Prismatic-7B VLM 백본을 파인튜닝합니다 (그림 2 참조).
우리는 action 예측 문제를 "vision-language" 작업으로 공식화합니다, 여기서 입력된 관찰 이미지와 자연어 작업 지시가 일련의 예측된 로봇 action에 매핑됩니다 [7].
VLM의 언어 모델 백본이 로봇 action을 예측할 수 있도록, 우리는 연속적인 로봇 action을 언어 모델의 토크나이저가 사용하는 이산 토큰에 매핑하여 LLM의 출력 공간에서 action을 표현합니다.
Brohan et al. [7]에 따라 로봇 action의 각 차원을 256개의 빈 중 하나로 개별적으로 구분합니다.
각 action 차원에 대해, 우리는 학습 데이터에서 action의 1st와 99th 분위수 사이의 간격을 균일하게 나누도록 빈 너비를 설정했습니다.
Brohan et al. [7]이 사용한 최소 최대 경계 대신 분위수를 사용하면 데이터의 이상값 action을 무시할 수 있으며, 그렇지 않으면 이산화 간격을 크게 확장하고 action 이산화의 효과적인 세분성을 줄일 수 있습니다.
이 이산화를 사용하여 N차원 로봇 action에 대해 N개의 이산 정수 ∈ [0 . . . . 255]를 얻습니다.
안타깝게도 OpenVLA의 언어 백본인 Llama 토큰라이저 [10]에서 사용하는 토큰라이저는 파인튜닝 중 새로 도입된 토큰에 대해 100개의 'special tokens'만 예약하는데, 이는 우리의 action 이산화의 256개 토큰에 비해 너무 적은 수치입니다.
대신, 우리는 다시 단순성을 선택하고 Llama 토큰라이저의 어휘에서 가장 적게 사용된 256개의 토큰 (마지막 256개의 토큰에 해당)을 action 토큰으로 덮어쓰기만 하면 Brohan et al. [7]의 접근 방식을 따릅니다.
작업이 일련의 토큰으로 처리되면 OpenVLA는 예측된 작업 토큰에 대해서만 크로스-엔트로피 loss를 평가하는 표준 다음 토큰 예측 objective로 학습됩니다.
섹션 3.4에서 이 학습 절차를 구현하기 위한 주요 설계 결정에 대해 논의합니다.
다음으로, OpenVLA 학습에 사용하는 로봇 데이터셋에 대해 설명합니다.
3.3 Training Data
OpenVLA 학습 데이터셋을 구축하는 목표는 다양한 로봇 embodiments, 장면 및 작업을 캡처하는 것입니다.
이를 통해 최종 모델은 다양한 로봇을 즉시 제어할 수 있으며, 새로운 로봇 설정에 대한 효율적인 파인튜닝을 가능하게 합니다.
우리는 Open X-Embodiment 데이터셋 [1] (OpenX)을 기반으로 학습 데이터셋을 큐레이션합니다.
이 글을 쓰는 시점의 전체 OpenX 데이터셋은 70개 이상의 개별 로봇 데이터셋으로 구성되어 있으며, 200만 개 이상의 로봇 궤적을 포함하고 있습니다, 이 데이터셋은 커뮤니티의 대규모 노력으로 일관되고 사용하기 쉬운 데이터 형식으로 통합되었습니다.
이 데이터에 대한 학습을 실용적으로 만들기 위해 raw 데이터셋에 여러 단계의 데이터 큐레이션을 적용합니다.
이 큐레이션의 목표는 (1) 모든 학습 데이터셋에서 일관된 입력 및 출력 공간을 확보하고, (2) 최종 학습 혼합물에서 embodiments, 작업 및 장면의 균형 잡힌 혼합을 보장하는 것입니다.
(1)을 해결하기 위해, 우리는 [1, 5]를 따르고 학습 데이터셋에 최소한 하나의 3인칭 카메라가 있는 조작 데이터셋만 포함하도록 제한하며, 싱글-암 엔드-이펙터 제어를 사용합니다.
(2)의 경우, 첫 번째 필터링 라운드를 통과하는 모든 데이터 세트에 대해 Octo [5]의 데이터 혼합 가중치를 활용합니다.
Octo 휴리스틱으로 덜 다양한 데이터셋을 축소하거나 제거하고 작업 및 장면 다양성이 더 큰 데이터셋을 상향 조정합니다; 자세한 내용은 Octo Model Team et al. [5]을 참조하세요.
우리는 또한 Octo 출시 이후 OpenX 데이터셋에 추가된 몇 가지 추가 데이터셋을 학습 혼합물에 통합하는 실험을 했습니다, 여기에는 DROID 데이터셋 [11]이 포함되지만, 보수적인 혼합물 가중치는 10%였습니다.
실제로 DROID의 action 토큰 정확도는 학습 내내 낮게 유지되어 향후 다양성을 맞추기 위해 더 큰 혼합 가중치나 모델이 필요할 수 있음을 시사합니다.
최종 모델의 품질을 위협하지 않기 위해, 우리는 학습의 마지막 3분의 1을 위해 데이터 혼합물에서 DROID를 제거했습니다.
부록 A에서 사용된 데이터셋과 혼합 가중치에 대한 전체 개요를 제공합니다.
3.4 OpenVLA Design Decisions
OpenVLA 모델을 개발할 때, 최종 모델 학습 실행을 시작하기 전에 소규모 실험에서 다양한 설계 결정을 탐구했습니다.
구체적으로, 우리는 반복 속도를 높이고 계산 비용을 줄이기 위해 전체 OpenX 혼합물에 대한 학습 대신 BridgeData V2 [6]에서 OpenVLA 모델을 학습하고 평가했습니다.
다음은 이러한 탐구에서 얻은 주요 학습을 요약한 것입니다.
VLM Backbone.
처음에는 여러 개의 VLM 백본을 실험했습니다.
Prismatic [44] 외에도 로봇 action 예측을 위해 IDEFICS-1 [84]과 LLaVA [85]를 파인튜닝하여 테스트했습니다.
LLaVA와 IDEFICS-1이 장면에서 하나의 객체만 있는 작업에서도 비슷한 성능을 보였지만, LLaVA는 장면에서 여러 객체가 포함된 작업에서 더 강력한 언어 기반을 보여주었고 policy가 올바른 객체, 즉 언어 지침에 명시된 객체를 조작해야 한다는 것을 발견했습니다.
구체적으로, LLaVA는 BridgeData V2 싱크 환경에서 5개의 언어 그라운딩 작업에서 평균 35%의 절대 성공률로 IDEFICS-1보다 향상되었습니다.
파인튜닝된 Prismatic VLM policy는 추가적인 개선을 이루었으며, 간단한 단일 객체 작업과 다중 객체 언어 그라운딩 작업 모두에서 절대 성공률에서 LLaVA policy를 약 10% 능가했습니다.
우리는 이 성능 델타를 융합된 SigLIP-DinoV2 백본이 제공하는 향상된 공간 추론 능력 덕분이라고 생각합니다 (섹션 3.1 참조).
성능 향상 외에도 Prismatic은 모듈식이고 사용하기 쉬운 코드베이스를 제공하므로 궁극적으로 OpenVLA 모델의 백본이 되도록 선택했습니다.
Image Resolution.
입력 이미지의 해상도는 VLA 학습의 계산 요구 사항에 큰 영향을 미칩니다, 고해상도 이미지는 더 많은 이미지 패치 토큰을 생성하고, 따라서 컨텍스트 길이가 길어져 학습 계산량이 2차적으로 증가하기 때문입니다.
우리는 VLA를 224 × 224px 및 384 × 384px 입력과 비교했지만, 우리의 평가에서 성능 차이를 발견하지 못했습니다, 반면, 후자는 학습하는 데 3배 더 오래 걸립니다.
따라서 최종 OpenVLA 모델의 해상도는 224 × 224px입니다.
많은 VLM 벤치마크에서 해상도를 높이면 성능이 향상되지만 [44, 86, 87], VLA에서는 이러한 추세를 아직 보지 못했습니다 (아직).
Fine-Tuning Vision Encoder.
VLM에 대한 이전 연구에 따르면 VLM 학습 중 비전 인코더를 freezing하면 일반적으로 성능이 향상되는 것으로 나타났습니다 [44].
직관적으로, frozen 비전 인코더는 인터넷 규모의 사전 학습에서 배운 견고한 기능을 더 잘 보존할 수 있습니다.
그러나 VLA 학습 중 비전 인코더를 파인튜닝하는 것이 좋은 VLA 성능을 위해 매우 중요하다는 것을 발견했습니다.
우리는 사전 학습된 비전 백본이 장면의 중요한 부분에 대한 충분한 세밀한 공간적 세부 사항을 포착하지 못해 정밀한 로봇 제어를 가능하게 할 수 없다고 가정합니다.
Training Epochs.
일반적인 LLM 또는 VLM 학습은 학습 데이터셋을 통해 최대 한두 번의 에포크를 완료합니다.
반면, 우리는 VLA 학습이 학습 데이터셋을 통해 훨씬 더 많은 시간을 반복하는 것이 중요하다는 것을 발견했습니다, 실제 로봇 성능은 학습 action 토큰 정확도가 95%를 초과할 때까지 지속적으로 증가합니다.
우리의 마지막 학습은 학습 데이터셋을 통해 27개의 에포크를 완료합니다.
Learning Rate.
우리는 VLA 학습을 위해 여러 단계에 걸쳐 학습률을 조사했으며, 고정된 학습률 2e^-5를 사용하여 최고의 결과를 얻었습니다 (VLM 사전 학습 [44]에서 사용된 동일한 학습률).
학습률 워밍업을 통해 혜택을 제공하지 못했습니다.
3.5 Infrastructure for Training and Inference
최종 OpenVLA 모델은 배치 크기 2048을 사용하여 64개의 A100 GPU 클러스터에서 14일 동안 또는 총 21,500개의 A100 시간 동안 학습됩니다.
추론 중에 OpenVLA는 bfloat16 정밀도로 로드될 때 15GB의 GPU 메모리가 필요하며 (즉, 양자화 없이), 하나의 NVIDIA RTX 4090 GPU에서 약 6Hz로 실행됩니다 (컴파일, 추측 디코딩 또는 기타 추론 속도 향상 트릭 없이).
섹션 5.4에 나타난 바와 같이, 실제 로봇 작업의 성능을 저하시키지 않으면서 양자화를 통한 추론 중 OpenVLA의 메모리 사용량을 더욱 줄일 수 있습니다.
우리는 그림 6에서 다양한 소비자 및 서버급 GPU에서 추론 속도를 보고합니다.
편의를 위해 원격 VLA 추론 서버를 구현하여 로봇에 실시간 원격으로 action 예측을 스트리밍할 수 있도록 했습니다 – 로봇을 제어하기 위해 강력한 로컬 컴퓨팅 장치에 접근할 필요가 없습니다.
저희는 오픈 소스 코드 릴리스 (섹션 4)의 일환으로 이 원격 추론 솔루션을 출시합니다.

4 The OpenVLA Codebase
저희 모델과 함께, 저희는 VLA 모델을 학습시키기 위한 모듈식 PyTorch 코드베이스인 OpenVLA 코드베이스를 출시합니다.
개별 GPU에서 VLA를 파인튜닝하는 것부터 멀티 노드 GPU 클러스터에서 수십억 매개변수 VLA를 학습하는 것까지 확장할 수 있으며, automatic mixed precision (AMP, PyTorch [75]), FlashAttention [76], fully sharded data parallelism (FSDP, Zhao et al. [77])와 같은 대형 트랜스포머 모델 학습을 위한 최신 기술을 지원합니다.
기본적으로 OpenVLA 코드베이스는 OpenX 데이터셋에 대한 학습을 완벽하게 지원하며, HuggingFace의 [21] AutoModel 클래스와 통합되며, LoRA 파인튜닝 [26]과 양자화된 모델 추론 [27, 88]을 지원합니다.
5 Experiments
우리의 실험 평가의 목표는 OpenVLA가 강력한 멀티 로봇 제어 policy 역할을 할 수 있는 능력을 처음부터 테스트하고, 새로운 로봇 작업에 대한 파인튜닝을 위한 좋은 초기화가 되는 것입니다.
구체적으로, 우리는 다음 질문들에 답하는 것을 목표로 합니다:
1. OpenVLA는 여러 로봇과 다양한 유형의 일반화를 평가할 때 이전의 일반 로봇 policy와 어떻게 비교됩니까?
2. OpenVLA를 새로운 로봇 설정 및 작업에 효과적으로 파인튜닝할 수 있으며, SOTA 데이터 효율적인 모방 학습 접근 방식과 어떻게 비교할 수 있습니까?
3. 매개변수 효율적인 파인튜닝 및 양자화를 사용하여 OpenVLA 모델의 학습 및 추론에 필요한 계산 요구 사항을 줄이고 더 쉽게 접근할 수 있도록 할 수 있습니까?
성능과 컴퓨팅 간의 상충 관계는 무엇입니까?

5.1 Direct Evaluations on Multiple Robot Platforms
Robot Setups and Tasks.
우리는 두 가지 로봇 embodiments에서 OpenVLA의 성능을 "out-of-the-box" 평가합니다: BridgeData V2 평가의 WidowX 로봇 [6] (그림 1, 왼쪽 참조)과 RT-1 및 RT-2 평가의 모바일 조작 로봇 [2, 7] ("Google 로봇"; 그림 1, 가운데 참조).
두 플랫폼 모두 이전 연구에서 일반주의 로봇 policy를 평가하는 데 광범위하게 사용되었습니다 [1, 2, 5, 7].
우리는 시각적 (보이지 않는 배경, 방해 요소 객체, 색상/외관 객체), 움직임 (보이지 않는 객체 위치/방향), 물리적 (보이지 않는 객체 크기/형태), 시맨틱 (인터넷에서 본 보이지 않는 대상 객체, 지침 및 개념) 일반화와 같은 다양한 일반화 축을 포괄하는 포괄적인 평가 작업 세트를 정의합니다.
또한 여러 객체가 있는 장면에서 언어 조건화 능력을 평가하여 사용자의 프롬프트에 명시된 대로 policy가 올바른 타겟 객체를 조작할 수 있는지 테스트합니다.
BridgeData V2와 Google 로봇 평가의 작업 이미지는 각각 그림 3과 그림 4의 하단 행을 참조하세요.
전체적으로, 우리는 BridgeData V2 실험을 위해 170개의 롤아웃 (17개의 과제와 10개의 시도)과 Google 로봇 실험을 위해 60개의 롤아웃 (12개의 과제와 5개의 시도)에서 각 방법을 평가했습니다.
모든 작업에 대한 자세한 분석과 학습 데이터와 어떻게 다른지는 부록 B에 나와 있습니다.
이 섹션과 다음 섹션의 모든 평가는 공정한 비교를 위해 동일한 초기 로봇 및 객체 상태 세트와 동일한 작업을 사용하여 A/B 평가로 수행됩니다.
비교. OpenVLA의 성능을 이전의 세 가지 일반적 조작 policy와 비교합니다: RT-1-X [1], RT-2-X [1], 및 Octo [5].
RT-1-X (35M 매개변수)와 Octo (93M 매개변수)는 OpenX 데이터셋의 하위 집합에서 처음부터 학습된 트랜스포머 policy입니다. Octo는 오픈 소스 조작 policy 중 SOTA 모델입니다.
RT-2-X (55B 매개변수)는 인터넷 사전 학습된 비전과 언어 백본을 활용하는 SOTA 폐쇄 소스 VLA입니다.


결과는 BridgeData V2 평가의 경우 그림 3에 요약되어 있으며, Google 로봇 평가의 경우 그림 4에 요약되어 있습니다 (부록, 표 4 및 표 6의 작업별 분석).
RT-1-X와 Octo 모두 테스트된 작업에서 어려움을 겪으며, 특히 방해 요소가 있을 때 올바른 물체를 조작하지 못하는 경우가 많고, 경우에 따라 로봇이 팔을 목적 없이 흔들리게 하는 경우가 많다는 것을 발견했습니다.
우리의 평가는 인터넷 사전 학습된 VLA 모델에 도전하기 위해 수행된 이전 연구들보다 훨씬 더 큰 일반화 정도를 테스트한다는 점에 유의하세요.
따라서 인터넷 사전 학습이 없는 모델의 성능이 낮아질 것으로 예상됩니다.
RT-2-X는 RT-1-X와 Octo를 모두 능가하며, 로봇 공학을 위한 대규모 사전 학습된 VLM의 이점을 입증합니다.
특히 OpenVLA는 Google 로봇 평가에서 RT-2-X와 비슷한 성능을 보이며, BridgeData V2 평가에서 RT-2-X보다 훨씬 우수합니다(7B vs. 55B 매개변수).
질적으로, RT-2-X와 OpenVLA 모두 다른 테스트된 모델들보다 현저히 더 강력한 동작을 보인다는 것을 발견했습니다, 예를 들어, 방해 요소가 있는 물체가 있을 때 올바른 물체에 접근하고, 로봇의 엔드 이펙터를 목표 물체의 방향과 일치하도록 적절히 배치하며, 심지어 물체를 불안정하게 잡는 등의 실수로부터 회복하는 것도 포함됩니다.
RT-2-X는 그림 3과 같이 시맨틱 일반화 작업에서 더 높은 성능을 달성하며, 대규모 인터넷 사전 학습 데이터를 사용하고 로봇 action 데이터 및 인터넷 사전 학습 데이터와 함께 공동 파인튜닝되어 사전 학습 지식을 더 잘 보존할 수 있다는 점에서 기대됩니다, 예를 들어 OpenVLA와 같이 로봇 데이터에만 파인튜닝되는 것이 아니라 말이죠.
그러나 OpenVLA는 BridgeData V2와 Google 로봇 평가 모두에서 다른 모든 작업 범주에서 비슷하거나 더 나은 성능을 보입니다.
성능 차이는 여러 가지 요인의 조합에 기인할 수 있습니다: 우리는 97만 개의 궤적 (RT-2-X의 경우 35만 개)을 가진 훨씬 더 큰 OpenVLA 학습 데이터셋을 큐레이팅했습니다; 학습 데이터셋을 더 신중하게 청소하고 Bridge 데이터셋에서 모든 제로-action을 필터링했습니다 (자세한 설명은 부록 C 참조); OpenVLA는 사전 학습된 시맨틱 및 공간적 피쳐를 결합한 융합 비전 인코더를 사용합니다.
이 구성 요소들의 ablation 분석은 부록 D를 참조하십시오.
5.2 Data-Efficient Adaptation to New Robot Setups
이전 연구들은 주로 VLA를 "out-of-the-box" 직접 평가하는 데 중점을 두었지만 [1, 7, 16], 새로운 작업과 로봇 설정에 대한 효과적인 VLA 모델의 파인튜닝은 대부분 탐구되지 않았지만, 이 모델들이 널리 채택되기 위해서는 중요한 요소입니다.
이 섹션에서는 OpenVLA가 새로운 실제 로봇 설정에 빠르게 적응할 수 있는 능력을 조사합니다. (시뮬레이션에서 파인튜닝 실험은 부록 E를 참조하십시오.)

Robot setups and tasks.
OpenVLA 모델을 위한 간단한 파인튜닝 레시피를 테스트합니다: 모든 모델 매개변수의 완전한 파인튜닝은 타겟 작업의 10-150개 시연이 포함된 소규모 데이터셋을 사용합니다 (그림 5 참조; 섹션 5.3에서 매개변수 효율적인 파인튜닝 접근 방식을 살펴봅니다).
우리는 OpenVLA를 두 가지 설정으로 테스트합니다: 고정된 테이블 장착형 Franka Emika Panda 7-DoF 로봇 팔인 Franka-Tabletop과 최근 출시된 DROID 데이터셋 [11]의 Franka 로봇 팔인 Franka-DROID가 이동식 스탠딩 데스크에 장착되어 있습니다.
이 설정들은 각각 5Hz와 15Hz 논블로킹 컨트롤러를 사용합니다.
우리는 로봇 팔이 로봇 학습 커뮤니티에서 널리 사용되기 때문에 OpenVLA 파인튜닝의 "target"이 될 가능성이 높기 때문에 우리의 파인튜닝 실험의 타겟 embodiment로 Franka 로봇 팔을 선택했습니다.
다양한 제어 주파수를 가진 설정에서 OpenVLA의 다양한 사용 사례에 대한 적용 가능성을 테스트합니다.
Comparisons.
우리는 처음부터 학습된 SOTA 데이터 효율적인 모방 학습 접근 방식인 Diffusion Policy [3]와 비교합니다.
우리는 또한 OpenVLA의 입력 및 출력 사양과 일치하는 Diffusion Policy의 버전인 Diffusion Policy (matched)와 비교합니다.
또한, 우리는 Octo [5]를 타겟 데이터셋에서 파인튜닝된 것을 평가합니다, 이는 현재 파인튜닝을 지원하는 최고의 일반 policy이기 때문입니다 (RT-2-X의 파인튜닝은 추론 API를 통해 지원되지 않습니다).
우리는 또한 동일한 타겟 데이터셋에서 OpenVLA를 파인튜닝하며, 그 결과 policy는 OpenVLA로 표시됩니다.
마지막으로, ablation 실험으로서 우리는 대규모 로봇 사전 학습의 이점을 평가하기 위해 타겟 로봇 설정 – OpenX 사전 학습된 OpenVLA 모델을 파인튜닝하는 대신 - 에서 기본 베이스 Prismatic VLM을 직접 파인튜닝하는 OpenVLA (scratch)와 비교합니다.
우리는 결과를 그림 5에 제시합니다 (부록, 표 7의 작업별 분석).
우리는 두 버전의 Diffusion Policy가 "Put Carrot in Bowl" 및 "Pour Corn in Pot"과 같은 좁은 단일 명령어 작업에서 Octo 및 OpenVLA와 경쟁하거나 그 성능이 뛰어나다는 것을 발견했습니다, 그러나 사전 학습된 일반 policy는 장면에서 여러 객체를 포함하고 언어 조건이 필요한 더 다양한 파인튜닝 작업에서 더 나은 성능을 발휘합니다.
Octo와 OpenVLA를 위한 OpenX 사전 학습을 통해 모델들은 언어 기반이 중요한 이러한 다양한 작업에 더 잘 적응할 수 있습니다. 우리는 OpenVLA (scratch)의 성능이 낮다는 증거를 발견했습니다.
전반적으로 OpenVLA가 가장 높은 평균 성능을 달성하는 것으로 나타났습니다.
특히, 대부분의 이전 작업들은 좁은 단일 명령어 작업이나 다양한 다중 명령어 작업에서만 강력한 성능을 발휘하여 성공률이 크게 달라집니다.
OpenVLA는 모든 테스트된 작업에서 최소 50%의 성공률을 달성하는 유일한 접근 방식으로, 특히 다양한 언어 지침을 포함하는 모방 학습 작업에 강력한 기본 옵션이 될 수 있음을 시사합니다.
좁지만 손재주가 뛰어난 작업의 경우, Diffusion Policy는 여전히 더 부드럽고 정확한 궤적을 보여줍니다; Diffusion Policy에 구현된 action 청킹과 시간 평활화를 통합하면 OpenVLA가 동일한 수준의 손재주를 달성하는 데 도움이 될 수 있으며 향후 작업에 유망한 방향이 될 수 있습니다 (현재의 한계에 대한 자세한 설명은 섹션 6 참조).
5.3 Parameter-Efficient Fine-Tuning
이전 섹션에서 OpenVLA의 전체 파인튜닝 실행은 데이터셋 크기에 따라 작업당 5-15시간 동안 8개의 A100 GPU를 사용하여 높은 성능을 달성했습니다.
이는 VLA 사전 학습에 필요한 것보다 훨씬 적은 계산량이지만, 이 섹션에서는 더 계산적이고 매개변수 효율적인 파인튜닝 접근 방식을 탐구하고 그 효과를 조사합니다.
구체적으로 다음과 같은 파인튜닝 접근 방식을 비교합니다: 전체 파인튜닝은 섹션 5.2에 설명된 대로 파인튜닝 중에 모든 가중치를 업데이트합니다; 마지막 레이어는 OpenVLA의 트랜스포머 백본과 토큰 임베딩 행렬의 마지막 레이어만 파인튜닝합니다; frozen 비전은 비전 인코더를 freeze하지만 다른 모든 가중치를 파인튜닝합니다; 샌드위치 파인튜닝은 비전 인코더, 토큰 임베딩 행렬, 그리고 마지막 레이어를 unfreeze합니다; 그리고 LoRA는 모델의 모든 선형 레이어에 적용된 여러 랭크 값 r을 가진 Hu et al. [26]의 인기 있는 low-rank adaptation 기법을 사용합니다.

표 1에서는 여러 Franka-Tabletop 작업에서 파인튜닝 성공률과 학습 매개변수 수 및 GPU 메모리 요구 사항을 보고합니다.
네트워크의 마지막 레이어를 파인튜닝하거나 비전 인코더를 freezing하는 것만이 성능 저하를 초래한다는 사실을 발견했으며, 이는 시각적 피쳐를 타겟 장면에 추가로 적응시키는 것이 중요하다는 것을 시사합니다.
반면에, "sandwich fine-tuning"은 비전 인코더를 파인튜닝하기 때문에 더 나은 성능을 제공하며, 전체 LLM 백본을 파인튜닝하지 않기 때문에 GPU 메모리를 덜 소비합니다.
마지막으로, LoRA는 성능과 학습 메모리 소비 사이에서 최고의 절충안을 달성하여 "sandwich fine-tuning"을 능가하고 전체 파인튜닝 성능을 일치시키면서도 매개변수의 1.4%만 파인튜닝합니다.
우리는 LoRA 순위가 policy 성과에 미치는 영향이 미미하다는 것을 발견했으며, 따라서 기본 순위 r = 32를 사용하는 것을 권장합니다.
LoRA를 사용하면 단일 A100 GPU에서 10~15시간 이내에 새로운 작업에서 OpenVLA를 파인튜닝할 수 있습니다 – 전체 파인튜닝에 비해 컴퓨팅 성능이 8배 감소했습니다.
5.4 Memory-Efficient Inference via Quantization
7B 매개변수 모델인 OpenVLA는 1억 개 미만의 매개변수를 가진 Octo와 같은 이전 오픈 소스 일반 policy보다 추론 시간에 더 많은 메모리를 소비합니다.
우리는 추론 (기본 접근 방식)을 위해 OpenVLA를 bfloat16 정밀도로 저장하고 로드함으로써 LLM 서비스의 모범 사례를 따릅니다. 이를 통해 메모리 사용량을 절반으로 줄여 16GB의 GPU 메모리만으로 OpenVLA를 GPU에서 서비스할 수 있습니다.
이 섹션에서는 LLM 서비스를 위해 개발된 최신 양자화 기법을 사용하여 policy 추론에 필요한 메모리를 더욱 줄이고 VLA policy의 접근성을 넓힐 수 있는지 테스트합니다 [27, 88].
이러한 접근 방식은 네트워크의 가중치를 더 낮은 정밀도로 로드하여 메모리 요구 사항을 줄여 추론 속도와 정확도를 낮출 수 있습니다.

구체적으로, 우리는 8개의 대표적인 BridgeData V2 작업에서 8비트 및 4비트 정밀도로 OpenVLA 모델을 제공하는 것을 조사합니다.
우리는 표 2에 메모리 사용량과 출시 성능을 보고합니다.
우리는 또한 그림 6에서 다양한 소비자 및 서버급 GPU에서 달성 가능한 제어 주파수를 보고합니다.
8비트 양자화는 추가된 양자화 작업의 오버헤드로 인해 대부분의 GPU에서 추론 속도가 느려지는 것을 관찰했습니다.
4비트 추론은 GPU 메모리 전송 감소가 양자화 오버헤드를 보상하기 때문에 더 높은 처리량을 달성합니다.
추론 속도가 감소함에 따라 8비트 양자화를 통해 성능이 크게 저하되는 것을 관찰했습니다: 우리가 평가에 사용하는 A5000 GPU에서는 모델을 1.2Hz에서만 실행할 수 있으며, 이는 BridgeData V2 작업에 사용되는 5Hz 비차단 컨트롤러의 학습 데이터셋과 비교했을 때 시스템 동역학을 크게 변화시킵니다.
특히, 4비트 양자화는 GPU 메모리의 절반 이하를 필요로 함에도 불구하고 bfloat16 반정밀 추론과 유사한 성능을 보입니다.
4비트 양자화 모델은 A5000에서 3Hz로 실행될 수 있으므로 데이터 수집 중 시스템 동역학과 더 밀접하게 일치합니다.
6 Discussion and Limitations
이 연구에서는 cross-embodiment 로봇 제어에 강력한 성능을 발휘하는 최신 오픈 소스 vision-language-action 모델인 OpenVLA를 소개했습니다.
또한 매개변수 효율적인 파인튜닝 기술을 통해 OpenVLA를 새로운 로봇 설정에 쉽게 적용할 수 있음을 입증했습니다.
현재 OpenVLA 모델에는 몇 가지 제한 사항이 있습니다.
첫째, 현재 단일 이미지 관측만 지원합니다.
실제로 실제 로봇 설정은 이질적이며 다양한 감각 입력이 가능합니다 [5].
OpenVLA를 확장하여 여러 이미지 및 고유 수용 입력과 관찰 기록을 지원하는 것은 향후 연구를 위한 중요한 방법입니다.
인터리브된 이미지와 텍스트 데이터에 대해 사전 학습된 VLM의 사용을 탐구하는 것은 이러한 유연한 입력 VLA 파인튜닝을 용이하게 할 수 있습니다.
둘째, 50Hz에서 작동하는 ALOHA [90]와 같은 고주파 제어 설정에서 VLA 제어를 가능하게 하려면 OpenVLA의 추론 처리량을 향상시키는 것이 중요합니다.
이것은 또한 우리가 이 연구에서 조사한 것보다 더 능숙하고 수동적인 조작 작업에서 VLA를 테스트할 수 있게 해줄 것입니다.
action 청킹 또는 추측 디코딩과 같은 대체 추론 시간 최적화 기법의 사용을 탐구하는 것은 잠재적인 해결책을 제공합니다 [91].
또한, 추가적인 성능 개선의 여지가 있습니다.
OpenVLA는 이전의 일반 policy를 능가하지만, 테스트된 작업에서 높은 신뢰성을 제공하지 못하며 일반적으로 90% 미만의 성공률을 달성합니다.
마지막으로, 계산 한계로 인해 많은 VLA 설계 질문들이 여전히 탐구되지 않고 있습니다:
기본 VLM의 크기가 VLA 성능에 어떤 영향을 미칩니까?
로봇 action 예측 데이터와 인터넷 규모의 비전-언어 데이터에 대한 공동 학습이 VLA 성능을 크게 향상시키나요?
VLA 모델에 가장 적합한 시각적 피쳐는 무엇입니까?
OpenVLA 모델과 코드베이스의 출시를 통해 커뮤니티가 이러한 질문들을 공동으로 조사할 수 있기를 바랍니다.
'Robotics' 카테고리의 다른 글
| Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments (1) | 2025.07.24 |
|---|---|
| Octo: An Open-Source Generalist Robot Policy (0) | 2025.07.03 |
| Navigation World Models (0) | 2025.06.25 |
| 3D-VLA: A 3D Vision-Language-Action Generative World Model (0) | 2025.06.09 |
| NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration (ICRA 2024 Best Paper) (0) | 2025.04.14 |