분류 전체보기(262)
-
Visual Instruction Tuning
Visual Instruction Tuning Haotian Liu, Chunyuan Li, QingyangWu, Yong Jae Lee Abstract기계 생성 명령어 추종 데이터를 사용하여 large language models (LLM)을 조정하는 것이 새로운 작업에서 제로샷 기능을 향상시키는 것으로 나타났지만, 멀티모달 분야에서는 이 아이디어가 덜 탐구되고 있습니다.우리는 언어 전용 GPT-4를 사용하여 멀티모달 언어-이미지 명령어 추종 데이터를 생성하려는 첫 번째 시도를 제시합니다.생성된 데이터를 조정하여 범용 시각 및 언어 이해를 위한 비전 인코더와 LLM을 연결하는 엔드투엔드 학습 대형 멀티모달 모델인 LLaVA: Large Language and Vision Assistant를 소개합니다...
2026.04.27 -
SAM 3D Body: Robust Full-Body Human Mesh Recovery
SAM 3D Body: Robust Full-Body Human Mesh Recovery Meta Superintelligence Lab SAM 3D Body(3DB)는 다양한 야생 조건에서 강력한 일반화와 일관된 정확도로 SOTA 성능을 입증하는 단일 이미지 전신 3D human mesh recovery (HMR)를 위한 프롬프트 모델입니다.3DB는 신체, 발, 손의 인간 포를 추정합니다. 이 모델은 골격 구조와 표면 모양을 분리하는 새로운 매개변수 메쉬 표현인 Momentum Human Rig (MHR)를 사용한 최초의 모델입니다.3DB는 인코더-디코더 아키텍처를 사용하며, 2D 키포인트와 마스크를 포함한 보조 프롬프트를 지원하여 SAM 모델 계열과 유사한 사용자 유도 추론을 가능하게 합니다.우리는 ..
2026.03.30 -
Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware Tony Z. Zhao, Vikash Kumar, Sergey Levine, Chelsea Finn Abstract케이블 타이나 배터리 슬롯과 같은 미세한 조작 작업은 정밀도, 접촉력의 세심한 조정, 폐쇄 루프 시각 피드백이 필요하기 때문에 로봇에게 매우 어렵습니다.이러한 작업을 수행하려면 일반적으로 고급 로봇, 정확한 센서 또는 세심한 보정이 필요하며, 이는 비용이 많이 들고 설정하기 어려울 수 있습니다.학습이 저비용 및 부정확한 하드웨어가 이러한 미세한 조작 작업을 수행할 수 있게 할 수 있을까요?우리는 맞춤형 원격 조작 인터페이스로 수집된 실제 시연에서 직접 종단 간 모방 학습을 ..
2026.03.04 -
YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection
YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection Ranjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee Abstract이 연구는 Ultralytics YOLO26의 주요 아키텍처 개선 사항과 실시간 엣지 객체 감지를 위한 성능 벤치마킹을 강조하는 종합적인 분석을 제시합니다.2025년 9월에 출시된 YOLO26은 엣지 및 저전력 장치에서 효율성, 정확성, 배포 준비 상태를 제공하기 위해 특별히 설계된 YOLO 제품군 중 가장 최신의 제품입니다.이 논문은 Distribution Focal Loss (DFL) 제거, 종단..
2026.02.09 -
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model Institute for AI Industry Research (AIR), Tsinghua University, Shanghai AI Lab, Peking University 성공적인 일반론적 Vision-Language-Action (VLA) 모델은 대규모, cross-embodiment, heterogeneous 데이터셋을 사용하여 다양한 로봇 플랫폼에서 효과적인 학습을 수행합니다.풍부하고 다양한 로봇 데이터 소스의 heterogeneity를 촉진하고 활용하기 위해, 우리는 최소한의 매개변수를 추가한 새로운 소프트 프롬프트 접근 방식을 제안..
2026.01.13 -
SmolVLA: A vision-language-action model for affordable and efficient robotics
SmolVLA: A vision-language-action model for affordable and efficient robotics Hugging Face Abstract대규모 멀티모달 데이터셋에서 사전 학습된 Vision-language models (VLM)은 풍부한 시각적 및 언어적 지식을 인코딩하므로 로봇 공학의 강력한 기반이 됩니다.최근의 접근 방식은 로봇 policy를 처음부터 학습시키는 대신, VLM을 자연어 기반의 인식과 제어를 가능하게 하는 vision-language-action (VLA) 모델에 적용합니다. 그러나 기존의 VLA는 일반적으로 수십억 개의 매개변수를 가진 대규모로 이루어져 있어 높은 학습 비용과 제한된 실제 배포 가능성을 초래합니다.또한, 이들은 학술 및 산업 데..
2026.01.08