전체 글(256)
-
SmolVLA: A vision-language-action model for affordable and efficient robotics
SmolVLA: A vision-language-action model for affordable and efficient robotics Hugging Face Abstract대규모 멀티모달 데이터셋에서 사전 학습된 Vision-language models (VLM)은 풍부한 시각적 및 언어적 지식을 인코딩하므로 로봇 공학의 강력한 기반이 됩니다.최근의 접근 방식은 로봇 policy를 처음부터 학습시키는 대신, VLM을 자연어 기반의 인식과 제어를 가능하게 하는 vision-language-action (VLA) 모델에 적용합니다. 그러나 기존의 VLA는 일반적으로 수십억 개의 매개변수를 가진 대규모로 이루어져 있어 높은 학습 비용과 제한된 실제 배포 가능성을 초래합니다.또한, 이들은 학술 및 산업 데..
2026.01.08 -
End-to-End Object Detection with Transformers
End-to-End Object Detection with Transformers Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko Abstract.우리는 객체 탐지를 직접 집합 예측 문제로 보는 새로운 방법을 제시합니다.우리의 접근 방식은 탐지 파이프라인을 간소화하여 non-maximum 억제 절차나 작업에 대한 사전 지식을 명시적으로 인코딩하는 앵커 생성과 같은 수작업으로 설계된 많은 구성 요소의 필요성을 효과적으로 제거합니다.새로운 프레임워크의 주요 구성 요소인 DEtection TRamsformer 또는 DETR은 이분 매칭을 통해 고유한 예측을 강제하는 집합 ..
2025.11.06 -
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success Moo Jin Kim, Chelsea Finn, Percy Liang Abstract최근의 vision-language-action 모델 (VLA)은 사전 학습된 비전-언어 모델을 기반으로 하며, 다양한 로봇 데이터셋을 활용하여 강력한 작업 실행, 언어 추종 능력, 시맨틱 일반화를 입증합니다.이러한 성공에도 불구하고 VLA는 새로운 로봇 설정에 어려움을 겪고 있으며, 좋은 성능을 달성하기 위해 파인튜닝이 필요하지만, 많은 가능한 전략을 고려할 때 이를 가장 효과적으로 파인튜닝하는 방법은 불분명합니다. 이 연구에서는 OpenVLA를 대표 base 모델로 사용하여 다양한 acti..
2025.08.12 -
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments Haritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad “Mahi” Shafiullah 로봇 모델, 특히 대량의 데이터로 학습된 모델들은 최근에 다양한 실제 조작 및 내비게이션 기능을 보여주고 있습니다.여러 독립적인 노력에 따르면, 환경에서 충분한 학습 데이터가 주어지면 로봇 policy가 그 환경에서 입증된 변화로 일반화될 수 있습니다.그러나 로봇 모델..
2025.07.24 -
Octo: An Open-Source Generalist Robot Policy
Octo: An Open-Source Generalist Robot Policy Dibya Ghosh, Homer Walke, Karl Pertsch, Kevin Black, Oier Mees, Sudeep Dasari, Joey Hejna, Tobias Kreiman, Ria Doshi, Charles Xu, Jianlan Luo, You Liang Tan, Lawrence Yunliang Chen, Pannag Sanketi, Quan Vuong, Ted Xiao, Dorsa Sadigh, Chelsea Finn, Sergey Levine Abstract다양한 로봇 데이터셋에 대해 사전 학습된 대규모 policy는 로봇 학습을 혁신할 잠재력을 가지고 있습니다: 새로운 policy를 처음부터 학습하는 ..
2025.07.03 -
OpenVLA: An Open-Source Vision-Language-Action Model
OpenVLA: An Open-Source Vision-Language-Action Model Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn Abstract인터넷 규모의 비전-언어 데이터와 다양한 로봇 데모를 결합하여 사전 학습된 대규모 policy는 로봇에게 새로운 기술을 가르치는 ..
2025.06.30