Robotics(16)
-
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model Institute for AI Industry Research (AIR), Tsinghua University, Shanghai AI Lab, Peking University 성공적인 일반론적 Vision-Language-Action (VLA) 모델은 대규모, cross-embodiment, heterogeneous 데이터셋을 사용하여 다양한 로봇 플랫폼에서 효과적인 학습을 수행합니다.풍부하고 다양한 로봇 데이터 소스의 heterogeneity를 촉진하고 활용하기 위해, 우리는 최소한의 매개변수를 추가한 새로운 소프트 프롬프트 접근 방식을 제안..
2026.01.13 -
SmolVLA: A vision-language-action model for affordable and efficient robotics
SmolVLA: A vision-language-action model for affordable and efficient robotics Hugging Face Abstract대규모 멀티모달 데이터셋에서 사전 학습된 Vision-language models (VLM)은 풍부한 시각적 및 언어적 지식을 인코딩하므로 로봇 공학의 강력한 기반이 됩니다.최근의 접근 방식은 로봇 policy를 처음부터 학습시키는 대신, VLM을 자연어 기반의 인식과 제어를 가능하게 하는 vision-language-action (VLA) 모델에 적용합니다. 그러나 기존의 VLA는 일반적으로 수십억 개의 매개변수를 가진 대규모로 이루어져 있어 높은 학습 비용과 제한된 실제 배포 가능성을 초래합니다.또한, 이들은 학술 및 산업 데..
2026.01.08 -
GR-3
GR-3 ByteDance Seed Abstract우리는 일반론적 로봇 policy를 구축하기 위한 최근의 진전인 GR-3 개발을 보고합니다. GR-3는 대규모 vision-language-action (VLA) 모델입니다.추상적인 개념을 포함하는 새로운 객체, 환경 및 지침으로 일반화하는 데 있어 탁월한 능력을 보여줍니다.또한 최소한의 인간 궤적 데이터로 효율적으로 파인튜닝할 수 있어 새로운 환경에 신속하고 비용 효율적으로 적응할 수 있습니다.GR-3는 또한 이중 수동 조작과 이동이 필요한 작업을 포함하여 장거리 및 손재주 작업을 처리하는 데 탁월하여 견고하고 신뢰할 수 있는 성능을 보여줍니다.이러한 기능은 웹 스케일 비전-언어 데이터와의 공동 학습, VR 장치를 통해 수집된 인간 궤적 데이터의 효율적..
2025.08.27 -
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success Moo Jin Kim, Chelsea Finn, Percy Liang Abstract최근의 vision-language-action 모델 (VLA)은 사전 학습된 비전-언어 모델을 기반으로 하며, 다양한 로봇 데이터셋을 활용하여 강력한 작업 실행, 언어 추종 능력, 시맨틱 일반화를 입증합니다.이러한 성공에도 불구하고 VLA는 새로운 로봇 설정에 어려움을 겪고 있으며, 좋은 성능을 달성하기 위해 파인튜닝이 필요하지만, 많은 가능한 전략을 고려할 때 이를 가장 효과적으로 파인튜닝하는 방법은 불분명합니다. 이 연구에서는 OpenVLA를 대표 base 모델로 사용하여 다양한 acti..
2025.08.12 -
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments Haritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad “Mahi” Shafiullah 로봇 모델, 특히 대량의 데이터로 학습된 모델들은 최근에 다양한 실제 조작 및 내비게이션 기능을 보여주고 있습니다.여러 독립적인 노력에 따르면, 환경에서 충분한 학습 데이터가 주어지면 로봇 policy가 그 환경에서 입증된 변화로 일반화될 수 있습니다.그러나 로봇 모델..
2025.07.24 -
Octo: An Open-Source Generalist Robot Policy
Octo: An Open-Source Generalist Robot Policy Dibya Ghosh, Homer Walke, Karl Pertsch, Kevin Black, Oier Mees, Sudeep Dasari, Joey Hejna, Tobias Kreiman, Ria Doshi, Charles Xu, Jianlan Luo, You Liang Tan, Lawrence Yunliang Chen, Pannag Sanketi, Quan Vuong, Ted Xiao, Dorsa Sadigh, Chelsea Finn, Sergey Levine Abstract다양한 로봇 데이터셋에 대해 사전 학습된 대규모 policy는 로봇 학습을 혁신할 잠재력을 가지고 있습니다: 새로운 policy를 처음부터 학습하는 ..
2025.07.03