분류 전체보기(243)
-
RT-1: Robotics Transformer for Real-World Control at Scale
RT-1: Robotics Transformer for Real-World Control at Scale Robotics at Google, Everyday Robots, Google Research, Brain Team Abstract대규모의 다양한 작업에 구애받지 않는 데이터셋에서 지식을 이전함으로써, 최신 머신러닝 모델은 제로샷 또는 소규모 작업별 데이터셋을 사용하여 특정 다운스트림 작업을 높은 수준의 성능으로 해결할 수 있습니다.이 능력은 컴퓨터 비전, 자연어 처리 또는 음성 인식과 같은 다른 분야에서도 입증되었지만, 실제 로봇 데이터를 수집하기 어렵기 때문에 모델의 일반화 능력이 특히 중요한 로보틱스에서는 아직 입증되지 않았습니다.우리는 이러한 일반 로봇 모델의 성공 비결 중 하나가 다양한 로봇..
2025.03.10 -
YOLOv12: Attention-Centric Real-Time Object Detectors
YOLOv12: Attention-Centric Real-Time Object Detectors Yunjie Tian, Qixiang Ye, David Doermann AbstractYOLO 프레임워크의 네트워크 아키텍처를 향상시키는 것은 오랫동안 중요했지만, 모델링 능력에서 어텐션 메커니즘의 우수성이 입증되었음에도 불구하고 CNN 기반 개선에 집중해 왔습니다. 이는 어넽션 기반 모델이 CNN 기반 모델의 속도와 일치할 수 없기 때문입니다. 본 논문에서는 어텐션 메커니즘의 성능 이점을 활용하면서 이전 CNN 기반 모델의 속도와 일치하는 어텐션 중심 YOLO 프레임워크, 즉 YOLOv12를 제안합니다. YOLOv12는 경쟁 속도로 모든 인기 있는 실시간 객체 검출기를 능가합니다. 예를 들어, YOLOv12..
2025.02.24 -
π0: A Vision-Language-Action Flow Model for General Robot Control
π0: A Vision-Language-Action Flow Model for General Robot Control Physical Intelligence Abstract로봇 학습은 유연하고 일반적이며 손재주가 뛰어난 로봇 시스템의 잠재력을 최대한 발휘할 수 있을 뿐만 아니라 인공지능의 가장 깊은 질문들을 해결할 수 있는 엄청난 가능성을 가지고 있습니다. 그러나 효과적인 실제 시스템에 필요한 일반성 수준으로 로봇 학습을 발전시키는 것은 데이터, 일반화 및 견고성 측면에서 큰 장애물에 직면해 있습니다. 이 논문에서는 일반적인 로봇 정책 (즉, 로봇 파운데이션 모델)이 이러한 문제를 어떻게 해결할 수 있는지, 그리고 복잡하고 손재주가 뛰어난 작업을 위한 효과적인 일반적인 로봇 정책을 어떻게 설계할 수 있는..
2025.02.20 -
Depth Anything V2
Depth Anything V2 Lihe Yang, Bingyi Kang, Zilong Huang, Zhen Zhao, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao Abstract이 연구는 Depth Anything V2를 제시합니다. 화려한 기법을 추구하지 않고, 강력한 단안 뎁스 추정 모델을 구축하기 위한 중요한 결과를 밝히는 것을 목표로 합니다. 특히, V1 [89]과 비교했을 때, 이 버전은 세 가지 주요 방법을 통해 훨씬 더 정밀하고 견고한 뎁스 예측을 제공합니다: 1) 모든 라벨링된 실제 이미지를 합성 이미지로 대체하고, 2) teacher 모델의 용량을 확장하고, 3) 대규모 pseudo 라벨링된 실제 이미지를 통해 student 모델을 가르칩니다. Stable..
2025.02.12 -
Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao Abstract이 연구는 강력한 단안 뎁스 추정을 위한 매우 실용적인 솔루션인 Depth Anything을 제시합니다. 새로운 기술 모듈을 추구하지 않고, 우리는 어떤 상황에서도 모든 이미지를 처리하는 간단하면서도 강력한 파운데이션 모델을 구축하는 것을 목표로 합니다. 이를 위해 데이터 엔진을 설계하여 대규모 비라벨 데이터 (~62M)를 수집하고 자동으로 주석을 달게 함으로써 데이터 범위를 크게 확장하고 일반화 오류를 줄일 수 있습니다. 우리는 ..
2025.02.07 -
Compact 3D Gaussian Representation for Radiance Field
Compact 3D Gaussian Representation for Radiance Field Joo Chan Lee, Daniel Rho, Xiangyu Sun, Jong Hwan Ko, Eunbyung Park AbstractNeural Radiance Fields (NeRFs)는 복잡한 3D 장면을 높은 충실도로 캡처하는 데 있어 놀라운 잠재력을 보여주었습니다. 그러나 NeRFs의 광범위한 채택을 방해하는 지속적인 도전 과제 중 하나는 볼륨 렌더링으로 인한 계산 병목 현상입니다. 반면, 3D Gaussian splatting (3DGS)은 최근 3D 가우시안 기반 표현을 활용하고, 볼륨 렌더링 대신 래스터화 파이프라인을 채택하여 이미지를 렌더링하는 대안적인 표현으로 떠오르고 있습니다, 이는 매우 ..
2025.01.13