분류 전체보기(267)
-
GNM: A General Navigation Model to Drive Any Robot
GNM: A General Navigation Model to Drive Any Robot UC Berkeley, Toyota Motor North America Abstract학습은 비전 기반 탐색을 위한 강력한 도구를 제공하지만, 학습 기반 정책의 기능은 제한된 학습 데이터로 인해 제약을 받습니다.다양한 종류의 로봇을 포함하여 모든 이용 가능한 소스의 데이터를 결합할 수 있다면, 더 강력한 내비게이션 모델을 학습시킬 수 있을 것입니다.이 논문에서는 비전 기반 내비게이션을 위한 일반적인 목표 조건 모델이 다양하지만 구조적으로 유사한 로봇에서 얻은 데이터를 바탕으로 어떻게 학습될 수 있는지 연구하고, 환경과 embodiments에 걸쳐 광범위한 일반화를 가능하게 합니다.우리는 로봇 간의 효과적인 데이터 ..
2026.06.05 -
RF-DETR: Neural Architecture Search for Real-Time Detection Transformers
RF-DETR: Neural Architecture Search for Real-Time Detection Transformers Roboflow, Carnegie Mellon University Abstract오픈 어휘 탐지기는 COCO에서 인상적인 성능을 발휘하지만, 일반적으로 사전 학습에서 발견되지 않는 분포 외 클래스를 가진 실제 데이터셋에는 일반화하지 못하는 경우가 많습니다.단순히 새로운 도메인을 위해 무거운 vision-language model (VLM)을 파인튜닝하는 대신, 가중치 공유 neural architecture search (NAS)을 통해 모든 타겟 데이터셋에 대해 accuracy-latency Pareto 곡선을 발견하는 경량 전문 탐지 트랜스포머인 RF-DETR을 소개합니다..
2026.06.01 -
ViNT: A Foundation Model for Visual Navigation
ViNT: A Foundation Model for Visual Navigation Dhruv Shah, Ajay Sridhar, Nitish Dashora, Kyle Stachowicz, Kevin Black, Noriaki Hirose, Sergey Levine Abstract범용 사전 학습 모델 ("foundation models")을 통해 실무자들은 처음부터 학습하는 데 필요한 데이터보다 훨씬 작은 데이터셋으로 개별 머신 러닝 문제에 대한 일반화 가능한 솔루션을 생성할 수 있게 되었습니다.이러한 모델은 일반적으로 감독이 약한 대규모 다양한 데이터셋에서 학습되며, 개별 다운스트림 애플리케이션에서 사용할 수 있는 것보다 훨씬 더 많은 학습 데이터를 소비합니다.이 논문에서는 비전 기반 로봇 내비게이션에..
2026.05.26 -
SmolVLM: Redefining small and efficient multimodal models
SmolVLM: Redefining small and efficient multimodal models Hugging Face, Standford University Abstract대형 Vision-Language Models (VLM)은 뛰어난 성능을 제공하지만 상당한 계산 자원이 필요하여 모바일 및 엣지 디바이스에 배포하는 데 한계가 있습니다.소형 VLM은 일반적으로 광범위한 이미지 토큰화와 같은 대형 모델의 설계 선택을 반영하므로 GPU 메모리 사용량이 비효율적이고 기기 내 애플리케이션의 실용성이 제한됩니다. 리소스 효율적인 추론을 위해 특별히 설계된 소형 멀티모달 모델 시리즈인 SmolVLM을 소개합니다.우리는 낮은 계산 오버헤드에 최적화된 아키텍처 구성, 토큰화 전략, 데이터 큐레이션을 체계적으..
2026.05.08 -
Improved Baselines with Visual Instruction Tuning
Improved Baselines with Visual Instruction Tuning Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee AbstractLarge multimodal models (LMM)은 최근 visual instruction tuning에서 고무적인 진전을 보이고 있습니다.이 논문에서는 LLaVA 프레임워크 하에서 통제된 환경에서 LMM의 설계 선택을 조사하기 위한 최초의 체계적인 연구를 제시합니다.우리는 LLaVA의 완전 연결 비전 언어 커넥터가 놀랍도록 강력하고 데이터 효율적임을 보여줍니다.CLIP-ViT-L-336px를 MLP 프로젝션과 함께 사용하고 응답 형식 프롬프트와 함께 학술 과제 지향 VQA 데이터를 추가하는 등 LLaVA를 간..
2026.04.29 -
Visual Instruction Tuning
Visual Instruction Tuning Haotian Liu, Chunyuan Li, QingyangWu, Yong Jae Lee Abstract기계 생성 명령어 추종 데이터를 사용하여 large language models (LLM)을 조정하는 것이 새로운 작업에서 제로샷 기능을 향상시키는 것으로 나타났지만, 멀티모달 분야에서는 이 아이디어가 덜 탐구되고 있습니다.우리는 언어 전용 GPT-4를 사용하여 멀티모달 언어-이미지 명령어 추종 데이터를 생성하려는 첫 번째 시도를 제시합니다.생성된 데이터를 조정하여 범용 시각 및 언어 이해를 위한 비전 인코더와 LLM을 연결하는 엔드투엔드 학습 대형 멀티모달 모델인 LLaVA: Large Language and Vision Assistant를 소개합니다...
2026.04.27