Robotics(12)
-
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success Moo Jin Kim, Chelsea Finn, Percy Liang Abstract최근의 vision-language-action 모델 (VLA)은 사전 학습된 비전-언어 모델을 기반으로 하며, 다양한 로봇 데이터셋을 활용하여 강력한 작업 실행, 언어 추종 능력, 시맨틱 일반화를 입증합니다.이러한 성공에도 불구하고 VLA는 새로운 로봇 설정에 어려움을 겪고 있으며, 좋은 성능을 달성하기 위해 파인튜닝이 필요하지만, 많은 가능한 전략을 고려할 때 이를 가장 효과적으로 파인튜닝하는 방법은 불분명합니다. 이 연구에서는 OpenVLA를 대표 base 모델로 사용하여 다양한 acti..
2025.08.12 -
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments Haritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad “Mahi” Shafiullah 로봇 모델, 특히 대량의 데이터로 학습된 모델들은 최근에 다양한 실제 조작 및 내비게이션 기능을 보여주고 있습니다.여러 독립적인 노력에 따르면, 환경에서 충분한 학습 데이터가 주어지면 로봇 policy가 그 환경에서 입증된 변화로 일반화될 수 있습니다.그러나 로봇 모델..
2025.07.24 -
OpenVLA: An Open-Source Vision-Language-Action Model
OpenVLA: An Open-Source Vision-Language-Action Model Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn Abstract인터넷 규모의 비전-언어 데이터와 다양한 로봇 데모를 결합하여 사전 학습된 대규모 policy는 로봇에게 새로운 기술을 가르치는 ..
2025.06.30 -
Navigation World Models
Navigation World Models Amir Bar, Gaoyue Zhou, Danny Tran, Trevor Darrell, Yann LeCun Abstract내비게이션은 비주얼-모터 능력을 갖춘 에이전트의 기본 기술입니다.우리는 과거의 관찰과 내비게이션 동작을 기반으로 미래의 시각적 관찰을 예측하는 제어 가능한 비디오 생성 모델인 Navigation World Model (NWM)을 소개합니다.복잡한 환경 역학을 포착하기 위해 NWM은 Conditional Diffusion Transformer (CDiT)를 사용하여 인간 및 로봇 에이전트의 다양한 자기 중심적 비디오 컬렉션을 학습하고 최대 10억 개의 매개변수로 확장했습니다.익숙한 환경에서 NWM은 내비게이션 경로를 시뮬레이션하고 원하는 목..
2025.06.25 -
3D-VLA: A 3D Vision-Language-Action Generative World Model
3D-VLA: A 3D Vision-Language-Action Generative World Model Haoyu Zhen, Xiaowen Qiu, Peihao Chen, Jincheng Yang, Xin Yan, Yilun Du, Yining Hong, Chuang Gan Abstract최근의 vision-language-action (VLA) 모델은 2D 입력에 의존하며, 3D 물리 세계의 넓은 영역과의 통합이 부족합니다.또한, 그들은 지각에서 action으로의 직접적인 매핑을 학습하여 action 예측을 수행하며, 세상의 방대한 역학 관계와 action과 역학 간의 관계를 무시합니다.대조적으로, 인간은 미래 시나리오에 대한 상상력을 묘사하여 그에 따라 action을 계획하는 월드 모델을 가지고 있..
2025.06.09 -
NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration (ICRA 2024 Best Paper)
NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration Ajay Sridhar, Dhruv Shah, Catherine Glossop, Sergey Levine Abstract낯선 환경에서의 내비게이션을 위한 로봇 학습은 작업 지향적인 내비게이션 (즉, 로봇이 찾은 목표에 도달하는 것)과 작업에 구애받지 않는 탐색 (즉, 새로운 환경에서 목표를 찾는 것) 모두에 대한 policy들을 제공해야 합니다.일반적으로 이러한 역할은 하위 목표 제안, 계획 또는 별도의 탐색 전략을 사용하는 등 별도의 모델에 의해 처리됩니다.이 논문에서는 목표 지향 탐색과 목표 비의존 탐색을 모두 처리하기 위해 단일 통합 디퓨전 policy를 학습하는 방법을 설명합..
2025.04.14