분류 전체보기(259)
-
YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection
YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection Ranjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee Abstract이 연구는 Ultralytics YOLO26의 주요 아키텍처 개선 사항과 실시간 엣지 객체 감지를 위한 성능 벤치마킹을 강조하는 종합적인 분석을 제시합니다.2025년 9월에 출시된 YOLO26은 엣지 및 저전력 장치에서 효율성, 정확성, 배포 준비 상태를 제공하기 위해 특별히 설계된 YOLO 제품군 중 가장 최신의 제품입니다.이 논문은 Distribution Focal Loss (DFL) 제거, 종단..
2026.02.09 -
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model Institute for AI Industry Research (AIR), Tsinghua University, Shanghai AI Lab, Peking University 성공적인 일반론적 Vision-Language-Action (VLA) 모델은 대규모, cross-embodiment, heterogeneous 데이터셋을 사용하여 다양한 로봇 플랫폼에서 효과적인 학습을 수행합니다.풍부하고 다양한 로봇 데이터 소스의 heterogeneity를 촉진하고 활용하기 위해, 우리는 최소한의 매개변수를 추가한 새로운 소프트 프롬프트 접근 방식을 제안..
2026.01.13 -
SmolVLA: A vision-language-action model for affordable and efficient robotics
SmolVLA: A vision-language-action model for affordable and efficient robotics Hugging Face Abstract대규모 멀티모달 데이터셋에서 사전 학습된 Vision-language models (VLM)은 풍부한 시각적 및 언어적 지식을 인코딩하므로 로봇 공학의 강력한 기반이 됩니다.최근의 접근 방식은 로봇 policy를 처음부터 학습시키는 대신, VLM을 자연어 기반의 인식과 제어를 가능하게 하는 vision-language-action (VLA) 모델에 적용합니다. 그러나 기존의 VLA는 일반적으로 수십억 개의 매개변수를 가진 대규모로 이루어져 있어 높은 학습 비용과 제한된 실제 배포 가능성을 초래합니다.또한, 이들은 학술 및 산업 데..
2026.01.08 -
End-to-End Object Detection with Transformers
End-to-End Object Detection with Transformers Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko Abstract.우리는 객체 탐지를 직접 집합 예측 문제로 보는 새로운 방법을 제시합니다.우리의 접근 방식은 탐지 파이프라인을 간소화하여 non-maximum 억제 절차나 작업에 대한 사전 지식을 명시적으로 인코딩하는 앵커 생성과 같은 수작업으로 설계된 많은 구성 요소의 필요성을 효과적으로 제거합니다.새로운 프레임워크의 주요 구성 요소인 DEtection TRamsformer 또는 DETR은 이분 매칭을 통해 고유한 예측을 강제하는 집합 ..
2025.11.06 -
GR-3
GR-3 ByteDance Seed Abstract우리는 일반론적 로봇 policy를 구축하기 위한 최근의 진전인 GR-3 개발을 보고합니다. GR-3는 대규모 vision-language-action (VLA) 모델입니다.추상적인 개념을 포함하는 새로운 객체, 환경 및 지침으로 일반화하는 데 있어 탁월한 능력을 보여줍니다.또한 최소한의 인간 궤적 데이터로 효율적으로 파인튜닝할 수 있어 새로운 환경에 신속하고 비용 효율적으로 적응할 수 있습니다.GR-3는 또한 이중 수동 조작과 이동이 필요한 작업을 포함하여 장거리 및 손재주 작업을 처리하는 데 탁월하여 견고하고 신뢰할 수 있는 성능을 보여줍니다.이러한 기능은 웹 스케일 비전-언어 데이터와의 공동 학습, VR 장치를 통해 수집된 인간 궤적 데이터의 효율적..
2025.08.27 -
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success Moo Jin Kim, Chelsea Finn, Percy Liang Abstract최근의 vision-language-action 모델 (VLA)은 사전 학습된 비전-언어 모델을 기반으로 하며, 다양한 로봇 데이터셋을 활용하여 강력한 작업 실행, 언어 추종 능력, 시맨틱 일반화를 입증합니다.이러한 성공에도 불구하고 VLA는 새로운 로봇 설정에 어려움을 겪고 있으며, 좋은 성능을 달성하기 위해 파인튜닝이 필요하지만, 많은 가능한 전략을 고려할 때 이를 가장 효과적으로 파인튜닝하는 방법은 불분명합니다. 이 연구에서는 OpenVLA를 대표 base 모델로 사용하여 다양한 acti..
2025.08.12