2026. 1. 8. 16:40ㆍRobotics
SmolVLA: A vision-language-action model for affordable and efficient robotics
Hugging Face
Abstract
대규모 멀티모달 데이터셋에서 사전 학습된 Vision-language models (VLM)은 풍부한 시각적 및 언어적 지식을 인코딩하므로 로봇 공학의 강력한 기반이 됩니다.
최근의 접근 방식은 로봇 policy를 처음부터 학습시키는 대신, VLM을 자연어 기반의 인식과 제어를 가능하게 하는 vision-language-action (VLA) 모델에 적용합니다.
그러나 기존의 VLA는 일반적으로 수십억 개의 매개변수를 가진 대규모로 이루어져 있어 높은 학습 비용과 제한된 실제 배포 가능성을 초래합니다.
또한, 이들은 학술 및 산업 데이터 세트에 의존하여 저렴한 로봇 플랫폼에서 커뮤니티에서 수집한 데이터의 가용성이 증가하는 것을 간과하고 있습니다.
이 연구에서는 경쟁력 있는 성능을 유지하면서 학습 비용과 추론 비용을 획기적으로 절감하는 작고 효율적이며 커뮤니티 중심의 VLA인 SmolVLA를 소개합니다.
SmolVLA는 단일 GPU에서 학습하고 소비자용 GPU 또는 CPU에 배포하도록 설계되었습니다.
응답성을 더욱 향상시키기 위해, 우리는 인식과 액션 예측을 액션 실행에서 분리하는 비동기 추론 스택을 도입하여, 더 높은 제어율과 청크된 액션 생성을 가능하게 합니다.
SmolVLA는 컴팩트한 크기에도 불구하고 10배 더 큰 VLA와 비슷한 성능을 달성합니다.
우리는 시뮬레이션 벤치마크와 실제 로봇 벤치마크를 모두 사용하여 SmolVLA를 평가하고 모든 코드, 사전 학습된 모델 및 학습 데이터를 공개합니다.

1 Introduction
최근 몇 년 동안 이 분야는 다양한 작업을 수행할 수 있는 범용 모델인 파운데이션 모델의 개발로 전환되었습니다.
이러한 경향의 두드러진 예로는 large language models (LLM)이 있으며, 이 모델들은 자연어를 이해하고 생성하며, 복잡한 주제에 대한 추론과 지식의 앵커링에서 평균적인 인간과 비슷한 성능을 보였습니다 (Brown et al., 2020; Achiam et al., 2023; Dubey et al., 2024; Team et al., 2023; Jiang et al., 2023).
따라서 텍스트 기반 모델의 성공은 다른 모달리티로 확장되어 멀티 모달 vision-language (VLM) (Alayrac et al., 2022; Chen et al., 2023; Huang et al., 2023; Liu et al., 2023b; Chen et al., 2024; Shukor et al., 2023b) 및 audio-language models (ALMs) (Défossez et al., 2024; Das et al., 2024; Borsos et al., 2023)에 대한 관심을 불러일으켰습니다.
모달리티 측면에서는 보완적이지만, 멀티 모달 기반 모델 개발의 이러한 발전은 (i) Transformer (Vaswani, 2017) 및 (ii) 인터넷 규모의 학습 데이터셋과 같은 확장 가능한 아키텍처의 채택에서 비롯됩니다.
디지털 세계에서의 놀라운 성과에도 불구하고, 파운데이션 모델–특히 로봇 공학–의 실제 적용은 여전히 제한적입니다.
특히 로봇 policy (Zhao et al., 2023; Chi et al., 2024; Lee et al., 2024; Hansen et al., 2022)은 객체 유형, 위치, 환경 및 작업 전반에 걸쳐 일반화하는 데 여전히 어려움을 겪고 있습니다 (Xie et al., 2024; Ebert et al., 2021).
로봇은 새로운 환경과 새로운 물체에 적응할 수 있어야 하며, 이를 위해서는 탄탄한 기술과 세상에 대한 상식적인 이해가 필요합니다.
그러나 이러한 방향으로의 진전은 종종 고품질의 다양한 데이터의 가용성에 의해 제한되는 것으로 보입니다.
이러한 한계를 해결하기 위해 점점 더 많은 연구가 vision-language-action (VLA) 모델 형태의 로봇 파운데이션 모델을 탐구하기 시작했습니다 (Team et al., 2024; O'Neill et al., 2024; Brohan et al., 2023; Kim et al., 2024; Black et al., 2024; Bjorck et al., 2025; Li et al., 2024; Huang et al., 2024).
VLA는 사전 학습된 대규모 언어 및 비전-언어 모델에 추상적인 추론, 세계 지식, 의사 결정 기술을 통합하도록 설계되었습니다.
이 모델들은 멀티 모달 입력–예: 시각적 관찰 및 자연어 지침–을 받아 해당 로봇 액션을 예측합니다.
초기 결과에 따르면 일반화 기능에서 유망한 이득을 얻을 수 있습니다 (Black et al., 2024; Brohan et al., 2023).
VLA 모델은 초기 개발 단계에 머물러 있으며 아직 LLM 및 VLM만큼 성숙하거나 널리 채택되지 않았습니다.
영향력 있는 VLA 진행 상황의 대부분은 여전히 독점적인 것으로 남아 있으며, 많은 모델이 전체 학습 세부 사항과 필수적인 방법론적 구성 요소는 보류한 채 가중치만 공유하고 있습니다.
학문적 벤치마크를 다루는 데 효과적이지만, 우리는 로봇 공학 분야에서 인간 수준의 역량을 달성하려면 오픈 소스 노력에 대한 더 강력한 헌신이 필요하다고 주장합니다.
특히, 투명하고 재현 가능한 오픈 소스 모델과 학습 레시피는 진보를 가속화하고 로봇 연구 커뮤니티 내에서 더 넓은 참여를 촉진하는 데 매우 중요합니다.
우리는 더 넓은 커뮤니티가 접근할 수 있는 저렴하고 효율적인 모델 개발을 지지합니다.
OpenVLA (Kim et al., 2024)와 RT-2-X (O'Neill et al., 2024)와 같은 노력은 개방형 VLA 시스템의 실현 가능성을 보여주지만, 여전히 대규모이고 자원 집약적이며 비용이 많이 드는 로봇 플랫폼에 의존하여 접근성을 저해하고 있습니다.
이 연구에서는 재현 가능하고 효율적인 학습 및 추론 레시피와 함께 출시된 작고 유능한 VLA 모델을 특징으로 하는 오픈 소스 이니셔티브인 SmolVLA를 소개합니다.
우리의 기여는 다음과 같습니다:
• 경량 아키텍처. 소비자용 GPU에서 학습하고 CPU에 배포하는 데 최적화된 작고 효율적인 비전-언어 에이전트인 SmolVLA를 소개합니다. 주요 설계 선택 사항으로는 다음이 있습니다: (i) VLM에서 레이어 건너뛰기, (ii) 최소 수의 시각적 토큰 사용, (iii) 사전 학습된 작은 VLM을 활용한 시각적 토큰 사용, (iv) 더 가벼운 크로스-어텐션 레이어와 셀프-어텐션 레이어를 상호 이동하는 것.
• 커뮤니티 기반 데이터셋에 대한 사전 학습. SmolVLA는 공개적으로 사용 가능한 커뮤니티 기여 데이터셋에서 추출한 30k개 미만의 에피소드를 엔드-투-엔드 학습하여 기존 기술보다 훨씬 적은 데이터를 사용하면서 강력한 성능을 입증합니다.
• 비동기 추론. 우리는 액션 실행을 관찰 처리 및 액션 예측과 분리하여 지연 시간을 줄이고 빠르고 자원 효율적인 추론을 가능하게 하는 최적화된 비동기 추론 스택을 소개합니다.
우리는 여러 작업에서 시뮬레이션 환경과 실제 환경 모두에서 SmolVLA를 평가합니다.
흥미롭게도, 훨씬 작지만 SmolVLA는 훨씬 더 큰 VLA 모델과 일치하거나 성능을 능가합니다.
2 Related work
Vision-language models (VLMs).
VLM은 시각적 및 텍스트 모달리티를 모두 처리하도록 설계되었습니다–가장 일반적으로 이미지와 텍스트를 모두 입력으로 받아 시각적 맥락을 조건으로 텍스트를 생성합니다.
최근 VLM의 발전은 LLM의 성공에 힘입어 이루어졌으며, 많은 접근 방식이 사전 학습된 LLM을 기반으로 하고 유사한 학습 패러다임을 채택하고 있습니다.
일반적으로 VLM (Alayrac et al., 2022; Laurençon et al., 2024; Lin et al., 2023a)은 사전 학습된 비전 인코더 (Radford et al., 2021; Zhai et al., 2023; Fini et al., 2024)와 사전 학습된 LLM (AI@Meta, 2024; Jiang et al., 2023; Wang et al., 2024)을 통합하여 구성됩니다.
그런 다음 이미지 캡션 데이터셋에 대한 대규모 사전 학습 (Schuhmann et al., 2022; Bang et al., 2022)과 인터리브 비전-언어 말뭉치 (Laurençon et al., 2023; Zhu et al., 2023)로 시작하여 여러 멀티모달 단계에서 학습이 진행되며, 이후 명령어 튜닝 데이터셋에 대한 supervised 파인튜닝 단계가 이어집니다 (Liu et al., 2023b; Tong et al., 2024; Laurençon et al., 2024).
다른 연구들 (Bavishi et al., 2023; Shukor et al., 2025; Diao et al., 2025, 2024)은 사전 학습된 비전 인코더에 의존하지 않는 장점을 보여주었으며, 다른 연구들은 이미지와 텍스트를 모두 개별 토큰으로 표현하는 보다 통합된 아키텍처를 개발하여 단일 모델이 멀티 모달 토큰 시퀀스를 처리할 수 있도록 하는 것을 목표로 하고 있습니다 (Wang et al., 2022; Shukor et al., 2023b; Team, 2024; Lin et al., 2024).
효율성은 VLM 연구에서도 중심적인 초점이 되었습니다.
여러 연구에서는 더 작고 다양한 데이터셋 (Liu et al., 2023b; Dai et al., 2023; Bai et al., 2025; Zhu et al., 2024; Tong et al., 2024)을 사용하여 학습 비용을 절감하고, 더 작은 규모의 모델 (Marafioti et al., 2025; Korrapati, 2024; Yao et al., 2024)을 학습하거나, 소수의 매개변수만 조정하여 사전 학습된 단일 모달 모델을 조정하는 것을 목표로 합니다 (Shukor et al., 2023a; Vallaeys et al., 2024; Mañas et al., 2023; Koh et al., 2023; Chimpoukelli et al., 2021; Li et al., 2023).
대부분의 VLM 연구는 이미지 및 텍스트 모달리티에 초점을 맞추고 있지만, 최근 연구에서는 유사한 기술을 확장하여 비디오 및 오디오와 같은 추가 모달리티를 통합할 수 있음을 입증했습니다 (Wang et al., 2025; Liu et al., 2024; Zhang et al., 2025; Kong et al., 2024).
Vision-language-action models (VLAs).
로봇 연구에서 점점 더 많은 관심을 받고 있는 분야는 범용 policy의 개발입니다–다양한 환경과 로봇 embodiments에 걸쳐 다양한 작업을 수행할 수 있는 모델.
이 방향에서 중요한 전략은 VLA를 활용하는 것입니다, VLA는 (i) 자연어로 주어진 작업 지시를 처리할 수 있는 모델, (ii) 시각적 관찰 (예: 카메라 스트림에서 나오는 이미지), 그리고 (iii) 제어 액션을 출력하기 위한 고유 수용 입력을 활용합니다.
초기 연구인 Octo (Team et al., 2024)와 RT-1 (O'Neill et al., 2024)은 대규모 로봇 시연 데이터셋에서 트랜스포머 기반 모델을 처음부터 학습시켰습니다.
성능과 일반화를 모두 개선하기 위해 RT-2 (Brohan et al., 2023)는 사전 학습된 vision-language models (VLM)을 활용하여 로봇 관련 데이터를 추가로 학습시켰습니다.
개방성과 재현성을 높이기 위해 OpenVLA (Kim et al., 2024)는 공개 데이터를 기반으로 학습된 7B 매개변수 VLA를 공개하여 이산 액션 토큰을 생성했습니다.
액션 토큰화는 지속적인 제어에 한계가 있으므로, π0 (Black et al., 2024)과 DexVLA (Wen et al., 2025)는 디퓨전 기반 디코더를 사용하여 지속적인 액션 생성을 제안했습니다.
이 논문에서 Black et al. (2024); Wen et al. (2025)은 로봇 시연에서 직접 학습된 대규모 디퓨전 구성 요소–action expert–를 도입하기 위해 사전 학습된 VLM인 RDT-1B를 적용할 것을 제안합니다.
최근 Pertsch et al. (2025)은 새로운 액션 토큰라이저를 사용한 완전 자기회귀 접근법을 제안하여 기존의 binning 방법보다 개선되었지만 여전히 느린 (자기회귀) 추론에 시달리고 있습니다.
VLA의 효율성을 향상시키기 위한 노력의 일환으로 TinyVLA (Wen et al., 2024)는 멀티 모달 데이터에서 경량 sub-1B 모델을 처음부터 학습시킨 다음 로봇 데이터셋에서 파인튜닝했지만, 로봇 데이터에 대한 대규모 사전 학습이 없기 때문에 더 넓은 일반화 기능을 방해합니다.
SmolVLA는 이러한 노력의 대부분과 유사한 목표를 공유하며, 학습 및 추론 측면에서 성능이 뛰어나고 효율적인 오픈 소스 모델을 개발하고 출시하는 것을 목표로 합니다.
3 SmolVLA: small, efficient and capable
Overview.
SmolVLA는 컴팩트한 사전 학습된 VLM과 플로우 매칭으로 학습된 action expert로 구성된 경량 VLA입니다.
여러 이미지와 작업을 설명하는 언어 지침이 주어지면, 모델은 작업의 chunk를 출력합니다.
먼저 커뮤니티에서 수집한 데이터셋에 대한 모방 학습으로 사전 학습한 다음 실제 환경과 시뮬레이션 환경 모두에서 평가합니다.
사전 학습 데이터는 다양한 작업과 행동에 걸쳐 설계되어 모델이 설정 간에 전이되는 일반화된 피지컬 기술을 학습할 수 있도록 합니다.
추론 시, 우리는 행동 실행과 지각 및 예측을 분리하는 비동기 실행 스택을 도입하여 더 빠르고 반응적인 제어를 가능하게 합니다.
3.1 Model architecture
SmolVLA는 두 가지 주요 구성 요소로 구성됩니다: (i) 인식 임무를 맡은 사전 학습된 VLM과 (ii) 액션 학습을 받은 action expert.
두 구성 요소는 상호 연결되어 있습니다, VLM은 상태 입력을 처리하여 action expert를 조건화하는 피쳐를 생성하고, 이는 다시 VLM에 입력된 상태를 변경하는 액션을 생성합니다.
구체적으로, VLM은 여러 RGB 카메라의 이미지와 작업을 설명하는 언어 명령을 포함한 센서모터 상태를 처리합니다.
그 결과, VLM은 action expert에게 직접 입력된 피쳐를 출력하여 최종 연속 액션을 출력합니다.
Vision-language model (VLM).
우리는 로봇의 환경을 인식하기 위해 사전 학습된 VLM을 주요 백본으로 활용합니다.
다양한 멀티모달 데이터를 기반으로 사전 학습된 VLM은 풍부한 세계 지식을 포착합니다.
효율성과 접근성을 보장하기 위해 멀티 이미지 및 비디오 입력에 최적화된 효율적인 모델인 SmolVLM-2 (Marafioti et al., 2025)를 선택했습니다.
SmolVLM-2는 SigLIP (Zhai et al., 2023)을 사용하여 SmolLM2 (Allal et al., 2025) 언어 디코더의 시각적 피쳐를 인코딩합니다.
SmolVLA에서 VLM 구성 요소는 비전 인코더를 사용하여 이미지 시퀀스를 처리하며, 이는 효율성을 위해 토큰 셔플링 기법을 통해 토큰 수를 줄입니다.
언어 지침은 텍스트 토큰으로 토큰화됩니다.
센서모터 상태는 언어 모델의 토큰 차원에 맞추기 위해 선형 레이어를 통해 단일 토큰으로 투영됩니다.
마지막으로 시각적, 언어 및 상태 토큰이 연결되어 언어 디코더로 전달됩니다.
디코더 레이어를 통해 얻은 결과는 action expert를 조건화하는 데 사용됩니다.
State, action, and feature projectors.
SmolVLA 내부의 다양한 지점에서 선형 투영 레이어를 사용합니다.
특히, 선형 투영 레이어를 사용하여 (i) 상태를 VLM 차원과 일치하도록 투영하고 (iii) 액션을 action expert 차원과 일치하도록 투영하며 (iii) action expert 차원과 일치하도록 VLM 피쳐를 조정합니다.
Visual tokens reduction.
VLM 성능에 중요한 것으로 입증되었지만, 고해상도 이미지는 추론 비용을 증가시킵니다.
효율성을 보장하기 위해 SmolVLM-2는 전역 이미지 외에도 동일한 이미지의 여러 크롭을 처리하는 인기 있는 기법인 image tiling (Lin et al., 2023b)으로 학습되었습니다.
그러나 더 빠른 추론 시간을 얻기 위해 타일링을 사용하지 않습니다.
우리는 픽셀 셔플 작업 외에도 전역 이미지만 사용하며, 시각적 토큰을 프레임당 64개로 제한합니다.
Faster infenece through layer skipping.
더 빠른 추론 시간을 얻기 위해 우리는 VLM에서 계산을 건너뛰었습니다.
이전 연구 (Shukor and Cord, 2024; Tang et al., 2023)에서는 사전 학습된 모델에서 큰 성능 저하 없이 레이어를 건너뛸 수 있는 가능성을 입증했습니다.
최근에 (El-Nouby et al., 2024; Bolya et al., 2025; Rajasegaran et al., 2025)는 다운스트림 작업에 가장 적합한 피쳐가 반드시 VLM의 마지막 레이어에서 얻을 수 있는 것은 아니라는 것을 보여주었습니다.
따라서 마지막 레이어 피쳐를 사용하는 대신, 우리의 action expert는 지정된 레이어 N까지의 모든 피쳐에 접근할 수 있습니다.
실제로 N을 전체 레이어의 절반 (N = L/2)으로 설정하면 속도와 성능 간에 좋은 절충안을 제공하여 LLM과 action expert의 계산 비용을 효과적으로 절반으로 줄일 수 있습니다.
Flow matching action expert
action expert v_θ는 VLM 피쳐에서 액션 청크 A_t = (a_t, . . . , a_(t+n))을 예측하도록 학습됩니다.
이전 연구와 마찬가지로, 우리의 v_θ 구현은 트랜스포머 아키텍처 (Vaswani, 2017)에 의존합니다.
이전의 VLA 아키텍처와는 달리, 우리는 크로스 및 셀프 어텐션 레이어를 혼합하여 conditional Flow Matching Transformer (Esser et al., 2024; Liu, 2022; Lipman et al., 2022)를 v_θ로 사용합니다.
action expert는 (1)에 정의된 objective를 사용하여 학습됩니다, 여기서 o_t는 N번째 VLM 레이어에서의 관측 o_t에서 추출한 VLM 피쳐를 나타내고, A_t^ τ = τAt_+(1-τ )ϵ를 사용하여 ϵ ~ N(0, I)입니다.
특히, v_θ는 VLM 피쳐와 노이즈가 있는 액션 A_t^ τ에서 벡터 필드 u(A_t^ τ ∣ A_t) = ϵ - A_t를 출력하도록 학습됩니다.
Black et al. (2024)에 따라 베타 분포에서 τ을 샘플링합니다.
추론의 효율성을 높이기 위해 v_θ에 대해 0.75 × d의 축소된 숨겨진 크기를 사용합니다, 여기서 d는 VLM의 숨겨진 차원입니다.
Interleaved cross and causal self-attention layers.
action expert v_θ는 VLM 피쳐를 기반으로 액션 청크를 생성하며, 어텐션 메커니즘을 통해 VLM과 SmolVLA의 action expert 간의 상호작용이 촉진됩니다.
이전 연구들이 오직 self-attention (SA) (Black et al., 2024)나 cross-attention (CA) (Bjork et al., 2025)에만 의존하는 것과 달리, 우리는 각 블록이 CA 또는 SA 레이어를 포함하는 인터리빙 접근 방식을 사용합니다.
이 설계 선택은 표준 VLM 아키텍처와도 다릅니다, 각 디코더 블록은 일반적으로 SA 및 CA 레이어를 모두 포함합니다 (Laurençon et al., 2023; Alayrac et al., 2022; Chen et al., 2022).
action expert의 전달 패스 내에서 액션과 VLM 피쳐 간의 상호작용은 어텐션을 통해 이루어지며, 토큰을 쿼리, 키 및 값으로 투영합니다 (Vaswani, 2017).
우리 설정에서는 CA 레이어가 VLM의 키와 값을 교차적으로 할당하는 반면, SA 레이어는 v_θ의 액션 토큰을 서로 할당할 수 있게 합니다.
우리는 SA 레이어에 인과적 어텐션 마스크를 사용하여 각 액션 토큰이 청크 내의 과거 토큰에만 어텐드할 수 있도록 하여 향후 액션 의존성을 방지합니다.
경험적으로, CA와 SA 레이어를 상호 연결하면 더 높은 성공률과 더 빠른 추론 시간을 제공한다는 것을 발견했습니다.
특히, 우리는 셀프 어텐션이 실제 로봇을 평가할 때 특히 더 부드러운 액션 청크 A에 기여한다는 것을 발견했습니다.
3.2 Pretraining data collected by the community
로봇 공학 분야에서 대규모 사전 학습에 사용할 수 있는 데이터는 최근 비전과 언어 분야에서 획기적인 발전을 이끈 데이터보다 훨씬 적은 규모로 남아 있습니다.
예를 들어, 자연어 파운데이션 모델은 고유한 텍스트 기반 인터페이스와 방대한 규모의 인터넷 데이터를 통해 이점을 얻을 수 있지만, 로봇 데이터셋의 통합과 확장은 복잡해 보입니다, 이는 (i) 데이터셋 간의 차이와 (ii) 데이터 수집을 위해 인간 전문가들이 원격 조작에 의존하기 때문입니다.
또한 로봇 형태, 센서, 작동 모드, 제어 주파수 및 데이터 형식의 높은 이질성으로 인해 "data islands" Bjorck et al. (2025)에 흩어져 있는 로봇 데이터셋이 통합에 어려움을 겪고 있습니다.
이러한 맥락에서 저가형 로봇 플랫폼과 표준화된 로봇 라이브러리의 등장은 이러한 데이터 이질성을 직접적으로 완화하여 실무자들에게 로봇 공학의 독특한 진입점을 제공합니다.
또한, 개별 실무자들이 수집한 오픈 소스 데이터 기여는 오픈 소스를 사용하여 로봇 학습을 탈중앙화하고 확장하려는 더 큰 노력의 일환으로 다양한 실제 환경-학술 실험실에서 가정까지-에서 수집된 커뮤니티 데이터셋을 통해 더 큰 로봇 커뮤니티를 가능하게 합니다.
표준화된 프로토콜을 따르는 학술 데이터셋과 달리, 커뮤니티 데이터셋은 다양한 로봇 구현, 제어 방식, 카메라 관점 및 작업에 자연스럽게 걸쳐 있습니다.
또한 커뮤니티 데이터셋은 노이즈가 많은 시연, 이질적인 환경, 다양한 객체 상호작용을 통해 실제 복잡성을 반영하여 사전 학습 데이터로서 가치 있는 데이터를 제공합니다.
이 연구에서는 Hugging Face에서 얻은 481개의 커뮤니티 데이터셋 중 일부를 선택하여 구현 유형, 에피소드 수, 전체 데이터 품질 및 프레임 커버리지에 따라 필터링했습니다 (표 1).

Task annotation with VLM.
커뮤니티 기여 데이터셋에 의존하는 것은 표준화 문제를 수반합니다.
특히, 주어진 데이터셋에 대한 로봇의 의도된 액션에 대한 작업 주석, 즉 자연어 설명에서 상당한 노이즈가 관찰되었습니다.
비판적으로, 다양한 데이터셋에는 작업 설명과 같은 모호한 자리 표시자, 보류 또는 위로와 같은 지나치게 모호한 명령어, 또는 완전히 지침이 부족한 경우가 포함되었습니다.
주석 품질을 향상시키기 위해 기성 VLM (Qwen2.5-VL-3B-Instruct)을 사용하여 간결한 작업 설명을 자동으로 생성했습니다.
각 데이터셋에 대해 대표 프레임을 샘플링하여 원래 지침과 함께 제공했습니다.
모델은 행동을 요약한 짧고 액션 지향적인 문장을 만들도록 요청받았습니다.
전체 프롬프트는 부록 A.1에서 확인할 수 있습니다.
Camera viewpoint normalization.
커뮤니티 데이터셋을 사용할 때 발생하는 또 다른 문제는 사용되는 카메라 명명 규칙의 높은 변동성입니다.
예를 들어, 데이터셋 참조 images.laptop은 특정 항목에 따라 상단, 측면 또는 손목에 장착된 뷰를 참조할 수 있습니다.
우리는 이러한 불일치가 사전 학습 중에 해롭다는 것을 발견했으며, 일관된 카메라 정렬이 이 데이터 시스템에서 학습에 오히려 유익하다는 것을 알게 되었습니다.
이 표준화 문제를 해결하기 위해 각 카메라를 표준화된 뷰 유형—탑, 손목, 측면 원근감 우선—으로 수동으로 매핑하고 각각 OBS_IMAGE_1, OBS_IMAGE_2, OBS_IMAGE_3으로 이름을 변경했습니다.
추가 뷰가 있는 데이터셋의 경우, 순서는 유지되었지만 사용되지 않은 뷰는 학습 중에 삭제되었습니다.
향후 노력은 VLM을 사용하여 이 프로세스를 자동화하거나 표준화된 데이터 수집 지침을 제안하거나 채택할 수 있습니다.
3.3 Asynchronous inference
현대의 시각 운동 policy (Zhao et al., 2023; Chi et al., 2023; Black et al., 2024)은 액션 청크 – 시퀀스 π(o_t) = A_t (a_t, a_(t+1_, . . , a_(t+n))을 출력하며, 이는 환경 관찰, o_t에서 비롯된 액션 큐에 포함된 n (much가 1보다 큰)개의 저수준 명령어 시퀀스입니다.
일반적으로 로봇은 새로운 관측값 o_(t+n)이 policy π에 전달되어 다음 청크를 예측하기 전에 전체 액션 청크 A_t를 실행합니다.
이로 인해 n번의 단계마다 캡처된 관측값 사이의 개방 루프 추론이 이루어집니다.
Zhao et al. (2023); Chi et al. (2023)을 포함한 연구들은 로봇 컨트롤러가 청크 예측 A_t ← π(o_t)와 청크 소비 a_t ← PopFront(A_t)를 인터리브하여 매 시간 단계 t마다 새로운 액션 청크를 계산하고 겹치는 구간에서 예측 청크를 집계하는 다른 전략을 채택합니다.
적응형 접근 방식은 모든 시간 o_t 단계에서 모든 관찰이 처리되지만, 이러한 접근 방식은 추론을 지속적으로 실행하는 것에 의존합니다, 이는 엣지 배포와 같이 자원이 제한된 시나리오에서는 불가능할 수 있습니다.
자원 집약적이지 않은 접근 방식은 새로운 액션 청크를 예측하기 전에 청크 A를 완전히 소진하는 것이며, 이를 동기식 추론이라고 합니다.
또한 동기화 추론은 n번의 시간 단계마다 계산을 효율적으로 할당하여 제어 시간 동안 평균 계산 부담을 줄여줍니다.
반면, 이는 본질적으로 로봇 시스템의 응답성을 저해하여 로봇이 A를 계산하는 동안 유휴 상태로 인해 블라인드 지연을 초래합니다.


우리는 액팅 오픈 루프로 인한 로봇 시스템의 적응력 부족과 런타임 시 지연의 존재를 직접 평가합니다, 이를 위해 액션 청크 예측 A를 액션 실행 a_t ← PopFront(A_t)에서 분리하고, 비동기식 추론 스택 (Algorithm 1)을 개발합니다, 이 스택을 통해 RobotClient는 관찰 o_t를 PolicyServer로 전송하여 추론이 완료되면 액션 청크를 한 번에 수신합니다 (그림 2).
이 경우 제어 루프가 이전에 사용 가능한 대기열을 사용하는 동안 청크 예측을 트리거하여 실행 지연을 방지하고, 가능할 때마다 새로 들어오는 대기열과 집계합니다.
결과적으로, 비동기 추론은 청크 예측을 위해 관찰이 처리되는 빈도를 증가시킴으로써 액션 예측과 액션 실행 사이의 고리를 강화합니다.
결정적으로, 액션 예측과 액션 실행을 분리하면 원격 PolicyServer에서 더 많은 계산 자원을 할당하여 네트워크를 통해 로봇 클라이언트에게 액션을 전송할 수 있으며, 이는 저전력 로봇과 같은 자원 제약 시나리오에서 매우 효과적일 수 있습니다.
Implementation details
비동기 추론은 (i) 관찰을 더 자주 포착하여 제어 루프를 강화하고, 런타임 시 유휴 공백을 직접 제거하며, (ii) 자율 로봇 플랫폼에서 일반적으로 사용할 수 있는 것보다 더 강력한 계산 자원에서 추론을 직접 실행할 수 있게 합니다.
알고리즘적으로, 우리는 쉽게 구할 수 있는 대기열에서 액션을 소비하여 대기열에 남아 있는 액션 수에 대한 임계값 조건(|A_t|/n < g)이 충족될 때까지 RobotClient 측에서 (i)를 달성합니다.
이 조건이 트리거되면 환경에 대한 새로운 관찰이 캡처되어 (아마도 원격일 수도 있는) PolicyServer로 전송됩니다.
중복 서버 호출과 런타임 시 불규칙한 액션을 방지하기 위해 공동 공간에서 관찰을 비교하고 거의 중복되지 않는 데이터를 삭제합니다.
두 관측값이 결합 공간에서의 거리가 미리 정해진 임계값인 ϵ ∈ R+ 이하인 경우 거의 중복된 것으로 간주됩니다.
중요한 것은 로봇 클라이언트가 사용할 수 있는 대기열이 결국 비어 있을 때, 가장 최근의 관찰이 유사성 여부와 상관없이 처리된다는 점입니다.
흥미롭게도 비동기 추론의 동작을 분석적으로 연구할 수 있습니다.
먼저, ℓ가 관찰 o를 보낸 후 액션 청크 A를 받는 데 필요한 시간을 모델링하는 랜덤 변수라고 가정해 보겠습니다, 즉, (i) RobotClient와 PolicyServer 간의 관측 o를 가로지르는 시간 t_(C→S) (ii) PolicyServer, ℓ_S의 추론 지연 시간과 (iii) PolicyServer와 RobotClient 간의 A를 보내는 시간 t_(S→C)의 합입니다.
독립성을 가정할 때, E[ℓ] = E[t_(C→S)] + E[ℓ_S] + E[t_(S→C)]는 E[ℓ] ≃ E[ℓS]로 더 단순화할 수 있습니다, 이는 (i) 통신 시간이 양방향으로 동일하고 (ii) 추론 지연 시간과 관련하여 무시할 수 있다고 가정합니다.
둘째, Δt를 환경의 제어 주기로 설정합니다.
초당 30프레임의 실제 프레임 속도를 제공하는 Δt = 33ms.
따라서, g ≥ (E[ℓ_S]/Δt) / n에 대해 런타임 시 소진된 대기열, 즉 새 청크를 기다리는 유휴 대기열을 피할 수 있습니다.
이 경우 대기열 임계값 g는 RobotClient에 대한 작업의 가용성에 비해 상대적으로 중요한 역할을 합니다.

그림 3(A)은 g의 세 가지 대표 값에 대해 |A_t| 액션 청크 크기가 시간이 지남에 따라 어떻게 변화하는지 보여주며, 다음과 같은 주요 시나리오를 자세히 설명합니다:
• 순차적 한계 (g = 0).
클라이언트는 서버에 새로운 관찰을 전달하기 전에 전체 청크를 제거합니다.
다음 청크를 계산하는 데 필요한 왕복 지연 시간 동안 대기열이 비어 있어 로봇이 작동할 수 없습니다.
이는 완전히 순차적인 배포의 동작을 재현하며 평균 E[ℓ_S] 유휴 초를 초래합니다.
• 비동기 추론 (g = 0.7).
클라이언트가 새로운 작업 대기열에 대한 추론을 시작하기 전에 약 1 - g = 0.3의 대기열 A_(t-1)을 소비할 수 있도록 허용하고, 대기열이 비워지지 않도록 계산을 상각합니다.
연속적인 청크 간의 중첩은 g = 1 체제의 전체 비용 없이 모델링 오류에 대한 완충 역할을 합니다.
업데이트된 대기열 A_t는 A_(t-1)과 들어오는 ˜A_t 사이의 겹치는 시간 단계에서 집계 대기열을 얻습니다.
• 계산 집약적 한계 (g = 1).
극단적인 경우로서 Zhao et al. (2023); Chi et al. (2024)에 따라 매 시간 단계마다 관측값이 전송됩니다.
따라서 대기열은 거의 항상 채워지며, Δt/E[ℓ_s] < 1로 인해 약간의 톱니바퀴만 있습니다.
최대한 반응성이 높지만, 이 설정은 제어 틱당 하나의 전진 패스를 발생시키며 제한된 하드웨어에서는 엄청난 비용이 들 수 있습니다.
중요한 것은 서버가 다음 청크를 계산하는 동안 클라이언트가 작업을 소비하기 때문에 사용 가능한 대기열이 다시 채워지지 않는다는 점입니다.
그림 3(A)은 g에 의해 지배되는 트레이드오프를 강조합니다: 값이 작으면 유휴 기간이 발생하는 반면, g ≈ 1은 매우 정확한 모델을 가정하고 상당한 계산 비용을 지불합니다.
실제로 g ∈ (0, 1)을 선택하면 리소스 예산에 대한 반응성 사이의 균형을 맞출 수 있습니다.
앞서 언급한 유사성 필터가 없다면, RobotClement는 매 (1-g)n⋅Δt 초마다 처리를 위한 관측값을 전송하고, 평균적으로 매 (1-g)n⋅Δt+E[ℓ_S]마다 새로운 작업 청크를 수신할 것입니다.
관찰 유사성 필터의 존재는 이 처리 시간을 단축시키며, 대기열이 들어오는 거의 동일한 액션 청크와 지속적으로 통합되어 로봇이 지연되는 것을 피할 수 있는 범위를 제공합니다.
특히, 그림 3(B)는 처리 파이프라인에서 거의 중복되지 않는 관찰이 필터링되지 않는 한 들어오는 작업으로 채워진 대기열을 생성합니다.
명확하게 하기 위해 그림 3(B)의 빨간색 화살표는 관찰 유사성 메커니즘이 우회되는 시간 단계를 강조하여 대기열 결과가 비어 있을 때 (거의 동일한) 관찰을 처리하도록 합니다.
4 Experiments
4.1 Experimental setup
우리는 시뮬레이션 작업과 실제 로봇 조작 작업 모두에서 모델을 평가합니다.
시뮬레이션에서 SmolVLA를 평가하기 위해, 우리는 50개의 작업 각각에 대해 50개의 데모로 구성된 새로운 Meta-World 데이터셋 (Yu et al., 2020)을 수집했습니다.
실제 평가를 위해 SO-100 로봇 팔 (Knight et al.)과 SO-101 팔 (Knight et al.)을 사용하여 각각 다른 조작 작업에 해당하는 세 가지 데이터 세트를 수집했습니다.
각 데이터셋에는 하나의 작업에 대한 시연이 포함되어 있으며, 5개의 서로 다른 시작 위치 각각에 대해 10개의 궤적이 있어 데이터셋당 총 50개의 시연이 이루어집니다.
데이터셋은 달리 명시되지 않는 한 SmolVLA는 항상 멀티태스크 환경에서 학습됩니다.
Evaluation metrics.
우리는 모든 벤치마크에서 success rate (SR)을 주요 지표로 보고합니다.
시뮬레이션 기반 평가의 경우, SR은 작업이 성공적으로 완료되면 1로 이진 설정되고, 그렇지 않으면 0으로 설정됩니다.
실제 평가를 위해 각 과제를 하위 과제로 분해하여 보다 세밀한 채점 방식을 채택합니다.
예를 들어, Pick-and-Place 작업에서는 큐브를 성공적으로 선택한 경우 0.5점, 목표 컨테이너에 올바르게 배치한 경우 0.5점을 추가로 부여합니다.
Simulated environments.
우리는 두 가지 확립된 멀티태스크 시뮬레이션 벤치마크에서 SmolVLA를 평가합니다: LIBERO (Liu et al., 2023a)와 Meta-World (Yu et al., 2020).
LIBERO는 공간, 객체, 목표, 장기 등 네 가지 범주에 걸쳐 다양한 시각 운동 기술을 평가하며, 각 범주당 10개의 과제 (총 40개)를 수행합니다.
우리는 모든 작업을 다루는 1,693개의 에피소드가 포함된 데이터셋 (Kim et al., 2024; Pertsch et al., 2025)을 사용하여, 이진 완료 기준에 따라 평균 성공률을 보고하며 작업당 10번의 시도로 평가합니다.
Meta-World는 난이도가 다양한 50개 과제에 걸쳐 일반화를 평가합니다: 쉬운, 중간, 어려운, 매우 어려운 (Seo et al., 2023).
우리는 2,500개의 에피소드 (작업당 50개)로 구성된 데이터셋을 사용하며, LIBERO에 사용된 평가 프로토콜을 반영합니다:
과제당 10번의 시험이 있으며, 과제가 완전히 완료된 경우에만 시험 점수가 1점입니다.

Real-world tasks.
우리는 실제 환경에서 4개의 데이터셋을 사용하여 SmolVLA를 평가했으며, 이를 Hugging Face (그림 4)에서 오픈 소스로 제공했습니다.
특히, 우리는 SO100 로봇의 실제 선택 및 배치 기능, 스태킹 기능, 정렬 기능을 SO101 플랫폼 6의 실제 선택 및 배치 기능과 함께 벤치마킹합니다.
중요한 것은 SmolVLA가 SO101에 대해 기록된 어떤 데이터셋에서도 사전 학습되지 않았다는 점입니다.
선택 및 장소 작업에 대해 SmolVLA는 pick up the cube and place it in the box를 지시됩니다.
상자는 크기가 작고 고정된 위치에 있으며 큐브 시작 위치는 5가지 다른 시작 조건 내에서 다양합니다.
우리는 큐브를 성공적으로 잡을 경우 0.5점, 성공적으로 상자에 넣는 경우 0.5점의 세밀한 점수로 과제 완료를 평가합니다.
스태킹 작업을 위해 SmolVLA는 큐브를 다른 큐브 위에 올려놓아야 합니다.
로봇에게 pick up the red cube and put it on top of the blue cube를 지시합니다.
두 큐브의 초기 위치는 에피소드마다 다릅니다.
우리는 과제 완료를 평가하여 상위 큐브를 성공적으로 잡는 경우 0.5점, 하위 큐브 위에 성공적으로 배치하는 경우 0.5점을 얻었습니다.
정렬 작업의 경우, 더 긴 지평선을 가진 경우 SmolVLA는 put the red cube in the right box and the blue cube in the left box의 지시에 따라 색상에 따라 큐브를 정렬해야 합니다.
큐브는 작업 1에서와 같이 5가지 다른 위치에 배치됩니다.
변형을 도입하기 위해 큐브의 색상을 뒤집어서 색상 구성당 5개의 에피소드로 구성하여 위치당 10개의 시연을 제공합니다.
상자 위치는 모든 시연에서 고정된 상태로 유지됩니다.
세부 점수로 작업 완료를 평가한 결과, 큐브 중 하나를 성공적으로 파악한 경우 0.25점, 큐브 박스 매칭 하나를 성공적으로 완료한 경우 0.25점으로 작업 완료 시 0.25 × 4점을 받았습니다.
그림 4(A)는 해당 데이터셋의 허깅 페이스 핸들과 함께 모든 작업에 대한 성공적인 에피소드의 초기 및 최종 프레임을 보여줍니다.
SmolVLA의 일반화를 평가하기 위해, 우리는 픽플레이스와 유사하지만 큐브 대신 작은 블록을 사용하는 다른 로봇 embodiment 및 작업에서 우리의 모델을 평가합니다.
이 작업에서는 로봇이 put the pink lego brick into the transparent box를 지시됩니다.
이 작업은 특히 작은 레고 물체를 잡는 데 있어 더 많은 정밀도와 상자의 투명성을 고려한 고급 비전 기능이 필요합니다.
4.2 Robots
시뮬레이션과 실제 환경 전반에 걸쳐 다양한 로봇 플랫폼을 사용합니다.
• SO100 및 SO101 (Cadene et al., 2024).
스탠다드 오픈 SO-100은 로봇 공학 및 로봇 학습 연구에 대한 접근성을 향상시키기 위해 설계된 저비용 3D 프린팅 로봇 팔입니다.
SO-100과 그 업데이트된 버전인 SO-101은 기본적인 조작 작업을 위한 오픈 소스 플랫폼입니다.
각 팔에는 여섯 가지 자유도가 있으며 위치 명령으로 제어되는 저가형 서보 모터를 사용합니다.
SO101은 더 빠른 조립과 다양한 모터를 위해 더 나은 팔 디자인을 갖추고 있어 더 많은 정밀도가 필요한 작업에서 움직임이 더 부드럽고 좋습니다.
• Panda (Haddadin et al., 2022).
Franka Emika Panda는 안전하고 정밀한 조작을 위해 설계된 단일 7-DOF 토크 제어 로봇 팔입니다.
고해상도 공동 감지와 호환되는 제어 기능 덕분에 시뮬레이션과 실제 환경 모두에서 학습 기반 조작 작업에 적합합니다.
이 로봇은 LIBERO 시뮬레이터에 사용됩니다.
• Swayer (Yu et al., 2020).
조작 작업을 위해 설계된 단일 4-DOF 제어 로봇 팔입니다.
Meta-World 시뮬레이터에서 사용되며, policy는 그리퍼의 위치와 상태를 제어합니다.
4.3 Implementation details.
우리는 실제 로봇 공학을 위한 PyTorch 기반 프레임워크인 LeRobot (Cadene et al., 2024)을 사용하여 실험을 수행합니다.
사전 학습 중에는 모든 커뮤니티 데이터셋에서 전역 배치 크기 256으로 20만 단계를 학습합니다.
100단계 워밍업 후, 우리는 1e-4부터 시작하여 최소 2.5e-6까지 감소하는 코사인 학습률 일정을 사용합니다.
우리는 β_1 = 0.9, β_2 = 0.95와 함께 AdamW 옵티마이저를 사용합니다.
VLM 입력 크기와의 일관성을 위해 이미지 크기를 512×512로 조정한 후 학습을 수행합니다.
우리는 SmolVLM-2 (Marafioti et al., 2025)를 VLM 백본으로 사용합니다.
action expert는 n = 50개의 액션 청크를 출력하기 위해 플로우 매칭을 학습받습니다.
실제 평가를 위해 동기식 추론을 수행합니다:
모델은 전체 작업을 실행한 후에만 새로운 관측치를 샘플링합니다.
시뮬레이션에서는 새로운 관측값을 샘플링하고 각 실행된 액션 후 새로운 액션을 예측하여 추론을 수행합니다.
추론 중에 플로우 매칭은 10단계로 고정됩니다.
우리는 VLM을 frozen 상태로 유지하면서 action expert 모듈만 학습시킵니다.
우리의 주요 모델에는 4억 5천만 개의 매개변수가 포함되어 있으며, 약 1억 개의 매개변수가 action expert에게 헌정되어 있습니다.
우리는 VLM 내에서 대규모 large language model (LLM)의 처음 16개 레이어만 사용합니다.
시뮬레이션 벤치마크를 파인튜닝하기 위해 배치 크기 64로 10만 걸음을 학습하고, 실제 작업에서는 20만 걸음을 파인튜닝합니다.
그러나 실제로 우리는 모델이 상당한 성능 수준을 희생하지 않고도 훨씬 적은 수의 단계에 대해 학습될 수 있음을 관찰합니다.
컴팩트한 모델과 적은 수의 토큰을 유지하는 것 외에도, 우리는 학습 효율성을 높이기 위해 여러 최적화를 사용합니다.
구체적으로, 우리는 JIT가 PyTorch 코드를 최적화된 커널로 컴파일하는 bfloat16 정밀도와 torch.compile() (Paszke, 2019)을 활용합니다.
이러한 최적화와의 호환성을 보장하기 위해, 우리는 고정된 시퀀스 길이와 배치 크기를 유지하며, 에피소드에서 전체 배치에 맞지 않는 여분의 프레임은 폐기합니다.
다중 GPU 및 다중 노드 학습을 위해 Hugging Face의 Accelerate (Gugger et al., 2022) 라이브러리를 혼합 정밀도로 활용하여 확장 가능하고 메모리 효율적인 학습 설정을 제공합니다.
큰 배치 크기를 수용하기 위해 4개의 GPU를 사용하여 사전 학습을 수행했지만, 모델의 크기가 작아 단일 GPU에서 쉽게 학습할 수 있습니다.
전체적으로 이 프로젝트는 약 30k GPU 시간을 소비했습니다.
4.4 Baselines
우리는 LeRobot 라이브러리(Cadene et al., 2024)에서 사용할 수 있는 두 가지 인기 있고 강력한 베이스라인과 우리의 모델을 비교합니다.
π0 (Black et al., 2024).
π0는 액션 청크 예측을 위해 플로우 매칭과 결합된 VLM을 활용하는 VLA입니다.
총 모델 크기는 33억 개의 매개변수를 가지며, 10,000시간의 cross-embodiment 로봇 데이터를 사전 학습합니다.
모델 아키텍처는 Paligemma (Beyer et al., 2024)를 기반으로 하며, 세 개의 RGB 이미지, 센서 모터 상태 및 언어 명령어를 입력으로 받습니다.
ACT (Zhao et al., 2023).
ACT는 약 8천만 개의 매개변수를 포함하는 인코더-디코더 트랜스포머 아키텍처를 갖춘 Conditional Variational Autoencoder (CVAE) (Sohn et al., 2015) 정책 모델입니다.
ACT는 ImageNet에서 사전 학습된 ResNet 비전 인코더를 사용하며, CVAE는 처음부터 학습됩니다.
이 모델은 액션 청크를 생성하고 회귀 objective를 사용하여 최적화되어 연속적인 액션을 직접 예측합니다.
이 모델은 RGB 이미지와 센서모터 상태의 시퀀스를 받아들입니다.
4.5 Main results
이 섹션에서는 실제 환경과 시뮬레이션 환경 모두에서 SmolVLA의 주요 결과를 제시합니다.
실제 평가를 위해 SmolVLA는 커뮤니티에서 수집한 데이터셋에 대해 사전 학습됩니다.
π0는 각 타겟 데이터셋에서 파인튜닝되며, ACT는 각 데이터셋에서 처음부터 학습됩니다.

Simulation Evaluation.
표 2에서는 멀티태스크 학습 설정을 사용하여 두 가지 주요 시뮬레이션 벤치마크인 LIBERO와 Meta-World에서 SmolVLA를 추가로 평가합니다.
SmolVLA는 Octo (Team et al., 2024) 및 OpenVLA (Kim et al., 2024)와 같은 다른 VLA 기반 접근 방식과 LIBERO 및 Meta-World 전반의 디퓨전 policy 베이스라인을 능가합니다.
우리는 또한 π0의 두 가지 변형과 비교합니다: 하나는 비전-언어 모델 (Paligemma-3B)에서 초기화된 것이고, 다른 하나는 로봇 데이터셋에서 추가로 사전 학습된 것입니다 (저자가 발표한 가중치에서 초기화된 것).
로봇 데이터에 대해 사전 학습되지 않았음에도 불구하고 SmolVLA는 VLM으로 초기화된 π0을 지속적으로 능가하며 로봇 사전 학습된 버전과 경쟁력 있는 성능을 발휘합니다.
π0에 비해 SmolVLA는 학습 속도가 약 40% 빠르며 메모리 사용량이 6배 적다는 점에 유의하세요.

Real-World Evaluation.
표 3에서는 네 가지 실제 작업에 대해 SmolVLA를 평가합니다.
SO101 벤치마크의 경우, 모델은 세 개의 데이터셋을 조합하여 학습되며, 작업별 성공률뿐만 아니라 평균적으로도 보고됩니다.
SmolVLA는 각 작업에 대해 개별적으로 학습된 ACT (Zhao et al., 2023)와 매개변수 수 측면에서 훨씬 더 큰 모델인 π0 (~ 7배)을 모두 능가합니다.
마찬가지로, SO101 (표 4 참조)에서 SmolVLA는 in-distribution 및 out-of-distribution (OOD) 설정 모두에서 ACT를 능가합니다.
OOD 평가를 위해 레고 객체는 학습 중에 이전에 접하지 못한 새로운 위치에 배치됩니다.


Effect of pretraining and multitask learning.
표 5에서 우리는 SmolVLA 사전 학습이 커뮤니티 데이터셋에 미치는 영향을 실제 성능의 차이로 평가하고, 멀티태스크 파인튜닝이 SmolVLA에 추가적인 이점을 제공하는지 조사합니다.
결과에 따르면 커뮤니티 데이터셋에 대한 사전 학습이 성능을 크게 향상시키는 것으로 나타났습니다 (51.7에서 78.3으로).
또한, 멀티태스크 파인튜닝은 추가적인 이점을 제공하며, 이는 작업 간 지식 전달의 중요성을 강조합니다.
4.6 Asynchronous inference
우리는 두 가지 추론 모드에서 SmolVLA를 평가했습니다: 동기화 및 비동기화.
동기화 모드는 로봇 공학의 표준 평가 설정을 반영하며, policy는 다음 예측 주기가 시작되기 전에 완전히 실행되는 작업의 일부를 예측합니다.
반면, 비동기 모드는 액션 실행과 policy 추론을 분리하여 예측과 제어를 병렬로 실행할 수 있게 합니다.

Results.
두 추론 모드 모두에서 성공률과 policy 속도를 보고합니다 (그림 5).
속도를 평가하기 위해, 우리는 Pick-Place 작업을 사용하여 두 가지 실험을 설계합니다.
첫 번째 실험에서는 10번의 시도와 5번의 다른 큐브 위치에서 작업을 완료하는 데 걸리는 시간을 측정합니다.
두 번째 단계에서는 시간 제한 (예: 60초)을 고정하고, 서로 다른 위치에서 성공적으로 선택하여 상자에 넣는 큐브의 수를 세어봅니다.
로봇이 움직이기 시작하면 타이밍이 시작됩니다.
그림 5a에서 볼 수 있듯이, 두 추론 모드는 세 가지 실제 작업에서 비슷한 성공률을 달성합니다.
그러나 비동기 추론은 상당한 속도 이점을 보여줍니다 (그림 5b).
평균적으로 동기화 설정에서 13.75초 (~30% 더 빠름)에 비해 9.7초 만에 작업을 완료합니다.
또한 고정 시간 평가에서 비동기 모드는 로봇이 19번의 성공적인 픽-앤-플레이스 사이클을 완료할 수 있게 해주며, 동기화된 경우에는 9번만 완료할 수 있습니다 (그림 5c).
질적으로 비동기 추론이 환경 변화에 대한 더 빠른 반응과 더 나은 적응력을 가능하게 한다는 것을 관찰했습니다.
로봇은 물체 위치의 변화와 외부 교란에 대해 더 큰 견고성을 보이며, 예측 지연을 피하기 때문에 전체적으로 동일한 작업을 훨씬 더 많은 횟수로 해결할 수 있습니다 (그림 5).
4.7 Ablation Study
최종 SmolVLA 모델의 주요 설계 선택 사항을 평가하기 위해 포괄적인 ablation 연구를 수행합니다.
모든 ablation은 LIBERO 벤치마크에서 수행됩니다.
달리 명시되지 않는 한, 모델은 로봇 데이터에 대한 사전 학습 없이 처음부터 학습됩니다.
VLM 백본은 고정되어 있으며, 오직 action expert만 처음부터 학습됩니다.
Cross-attention (CA) vs. self-attention (SA) between VLM and v_θ.
우리는 VLM 피쳐가 action expert와 어떻게 상호 작용하는지 비교하며, causal self-attention (SA), cross-attention (CA) 또는 제안된 인터리브 SA+CA 설정을 비교합니다.
SA 설정에서는 액션 토큰이 인과 마스크를 사용하여 서로를 주의 깊게 관찰하는 반면, CA 설정에서는 VLM 피쳐가 v_θ에서 어텐션을 위한 키와 값으로 작용합니다.
표 6에서 볼 수 있듯이 크로스-어텐션은 셀프-어텐션을 크게 능가합니다.
두 가지를 함께 사용하면 상호 보완적인 강점을 강조하면서 최상의 결과를 얻을 수 있습니다.

Causal vs bidirectional attention on action tokens within v_θ.
다음으로, action expert인 v_θ 내에서 액션 토큰이 서로에게 어떻게 어텐드 하는지 조사합니다.
비교해 보겠습니다: (i) 액션 토큰 (순수 CA), (ii) 인과적 셀프 어텐션, (iii) 양방향 셀프 어텐션 간의 상호 작용 없음.
표 7은 인과적 셀프 어텐션이 가장 잘 수행되는 반면, 양방향 상호작용은 성과에 해를 끼친다는 것을 보여줍니다.
놀랍게도, 무상호작용 (CA 전용) 설정은 경쟁적으로 성능이 뛰어나며, 이는 VLM 피쳐만으로 조건화하는 것이 강력할 수 있음을 시사합니다.

Using early LLM layers in the VLM.
VLM 백본은 비전 인코더와 LLM으로 구성됩니다.
SmolVLA의 효율성을 향상시키기 위해, 우리는 사용 가능한 모든 LLM 레이어나 피쳐 대신 첫 번째 N < L 레이어의 피쳐만을 사용하여 조사합니다 (Black et al., 2024).
학습을 시작하기 전에, 우리는 VLM의 상위 L - N 레이어를 버립니다.
표 8에 나타난 바와 같이, VLM 레이어의 전반부만을 사용하면 성능과 계산 사이에 좋은 균형을 맞출 수 있습니다.
또한, 우리는 모든 모델 용량을 유지하면서 depth를 절반으로 줄이는 두 번째 VLM 레이어마다 변형 샘플링 (Skip % 2, (Shukor and Cord, 2024))을 테스트합니다.
표 8은 매 두 번째 레이어를 건너뛰는 것이 더 작은 VLM을 학습하는 것보다 더 나은 성능을 발휘하지만, 첫 번째 N < L 레이어를 직접 사용하는 것보다 더 나쁜 성능을 보인다는 것을 나타냅니다.

Action Expert Capacity.
효율성 논쟁에 영감을 받아, 우리는 모델 용량이 성능에 미치는 영향을 탐구하기 위해 action expert의 숨겨진 차원을 변화시키는 것을 조사합니다.
VLM 차원 d가 주어졌을 때, 표 9는 expert의 숨겨진 크기를 0.75 × d로 줄이는 것이 성능과 효율성 사이에서 좋은 균형을 이룬다는 것을 보여줍니다.

Regression vs. Flow Matching training objectives.
우리는 action expert v_θ를 학습시키기 위한 두 가지 학습 objective를 비교합니다: 플로우 매칭 (기본값) 및 예측된 실제 액션 청크와 실제 액션 청크에 대한 표준 회귀 L1 loss.
Black et al. (2024); Chi et al. (2024)에 따르면, 표 10은 플로우 매칭이 회귀를 현저히 능가한다는 것을 보여주며, 이는 플로우 매칭이 복잡하고 멀티모달 액션 분포를 모델링하는 데 더 나은 귀납적 편향을 제공함을 시사합니다.

States to the VLM or Action Expert?
두 가지 변형을 비교합니다: (i) 센서모터 상태를 VLM에 공급하고 (토큰 공간에 투영하여), (ii) 이를 action expert에게 직접 전달합니다.
표 11은 VLM에 상태 정보를 포함하면 CA 및 SA 변형 모두에서 훨씬 더 나은 성능을 얻을 수 있음을 나타냅니다.

Action chunk size, n.
우리 모델은 각 청크가 n개의 시간 단계로 구성된 액션 청크를 예측합니다.
우리는 n을 변화시키는 것이 전체 성능에 미치는 영향을 연구합니다.
n이 클수록 로봇은 새로운 관측값을 처리하고 다음 청크를 예측하기 전에 추론 시간에 더 많은 작업을 수행할 수 있습니다.
그러나 표 12는 매우 작은 값과 매우 큰 값의 n이 모두 성능을 저하시킨다는 것을 보여줍니다.
우리는 10에서 50 사이의 청크 크기가 로봇의 반응성과 효율성 사이에 좋은 균형을 제공한다는 것을 발견했습니다.

Number of executed actions before updating observations.
실제 배포에서 추론 속도를 향상시키기 위해 로봇은 새로운 관찰을 처리하기 전에 예측된 청크에서 여러 작업을 실행하여 현재 청크가 소진되기 전에 덮어쓸 수 있습니다.
그럼에도 불구하고 전체 청크를 작동시키면 추론 속도가 빨라지지만, 환경 변화에 대한 로봇의 반응성도 감소합니다.
표 13은 관찰 업데이트가 성공률을 더 자주 크게 향상시키는 것을 보여주며, 추론 속도와 제어 정확도 사이의 균형을 강조합니다.

5 Discussion
소비자용 하드웨어에서 실행되고 저비용 로봇을 제어하며 훨씬 더 큰 VLA에 필적하는 작고 효율적이며 가벼운 VLA 모델인 SmolVLA를 소개합니다.
SmolVLA의 아키텍처는 성공률을 저하시키지 않으면서 효율적인 학습과 추론을 위해 설계되었습니다.
또한, 우리는 실제 조작 작업에서 더 빠른 적응과 응답성을 가능하게 하는 비동기 추론 스택을 제안합니다.
이 추론 전략은 모델에 구애받지 않으며, 액션 청크를 출력하는 모든 policy와 통합될 수 있습니다.
우리의 작업은 제안된 아키텍처에 대한 철저한 ablation과 분석을 통해 뒷받침되며, 이는 실무자와 연구자들이 모델 아키텍처를 더욱 개선할 수 있도록 안내할 수 있습니다.
마지막으로, 우리는 모델, 코드베이스, 학습 데이터셋, 로봇 하드웨어를 오픈 소스화하고 완전한 재현성을 촉진하기 위한 상세한 지침을 제공합니다.
5.1 Limitations
우리는 기여에 남아 있는 몇 가지 한계를 확인합니다.
특히:
• 데이터셋 다양성 및 cross-embodiment 학습.
현재 우리의 사전 학습은 단일 로봇 유형 (SO100)에서 수집된 데이터 세트를 사용합니다.
우리는 모델이 다양한 로봇에 맞게 파인튜닝될 수 있으며 (표 4) 기존 베이스라인을 능가한다는 것을 입증했지만, 여러 로봇 embodiments에서 얻은 학습 데이터를 통합하는 것이 모델의 새로운 로봇 플랫폼에 일반화하는 능력을 향상시키는 데 중요할 것이라고 주장합니다.
• 데이터셋 크기 및 확장성.
학습에 사용되는 데이터셋은 약 23,000개의 궤적을 포함하고 있으며, 일반적인 VLA 학습 체제에서 사용되는 것보다 훨씬 작습니다, 예를 들어 OpenVLA는 약 100만 개의 궤적을 사용합니다.
데이터셋 크기를 확장하면 모델의 성능과 더 넓은 작업 및 환경 전반에 걸친 일반화를 크게 향상시킬 수 있습니다.
• 모델 크기와 하드웨어 효율성.
SmolVLA는 0.5억 개 미만의 매개변수를 가지고 있어 소비자 수준의 하드웨어에서 빠른 추론이 가능합니다.
이 효율성은 유익하지만, 속도나 접근성을 희생하지 않고 이러한 아키텍처를 더욱 확장할 수 있는 방법을 모색하는 것은 향후 연구에서 중요한 방향입니다.
• VLM 백본 선택.
우리는 주로 문서 읽기 및 OCR 작업에 대해 사전 학습된 기성 VLM 백본에 의존합니다 (Marafioti et al., 2025).
그러나 이러한 VLM이 실제 로봇 상호작용 시나리오에 최적인지 여부는 아직 명확하지 않습니다.
향후 연구에서는 VLM 백본을 로봇 환경의 고유한 요구 사항에 더 잘 맞추기 위해 대안적이거나 보다 전문화된 사전 학습 전략을 모색할 수 있습니다.
• 멀티모달 및 로봇 데이터 공동 학습.
로봇 공학 관련 데이터와 더 광범위한 멀티모달 데이터셋에 대한 공유 학습을 통합하면 일반화 및 명령어 추종 능력을 향상시킬 수 있는 잠재력을 가지고 있습니다.
이러한 공동 학습은 보다 견고하고 적응력 있는 VLA로 이어질 수 있습니다.
• 작업 복잡성과 긴 지평.
SmolVLA는 비교적 간단하고 짧은 작업에서 효과적으로 경쟁하지만, 더 긴 작업을 해결하기 위해 접근 방식을 확장하는 것은 여전히 중요한 과제입니다.
계층적 policy나 다단계 계획 메커니즘을 통합하면 이러한 복잡성을 해결하는 데 도움이 될 수 있습니다.
• 학습 패러다임: 모방 대 강화 학습.
현재 우리의 접근 방식은 주로 모방 학습에 의존하고 있습니다.
그럼에도 불구하고, VLA (Chen et al., 2025)를 위한 강화 학습 기법을 탐구하는 것은—특히 복잡하고 긴 작업을 처리하는 데—상당한 성과 이점과 더 능숙한 policy 적응을 제공할 수 있습니다.
'Robotics' 카테고리의 다른 글
| Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success (1) | 2025.08.12 |
|---|---|
| Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments (1) | 2025.07.24 |
| Octo: An Open-Source Generalist Robot Policy (0) | 2025.07.03 |
| OpenVLA: An Open-Source Vision-Language-Action Model (0) | 2025.06.30 |
| Navigation World Models (0) | 2025.06.25 |