전체 글(239)
-
CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians
CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians Yang Liu, He Guan, Chuanchen Luo, Lue Fan, Naiyan Wang, Junran Peng, Zhaoxiang Zhang Abstract실시간 3D 장면 재구성과 새로운 뷰 합성의 발전은 3D Gaussian Splatting (3DGS)에 의해 크게 촉진되었습니다.그러나 대규모 3DGS를 효과적으로 학습하고 다양한 규모에서 실시간으로 렌더링하는 것은 여전히 어려운 과제입니다.이 논문은 효율적인 대규모 3DGS 학습 및 렌더링을 위해 새로운 분할 정복 학습 접근 방식과 Level-of-Detail (LoD) 전략을 사용하는 CityG..
2025.03.14 -
Grid-guided Neural Radiance Fields for Large Urban Scenes
Grid-guided Neural Radiance Fields for Large Urban Scenes Linning Xu, Yuanbo Xiangli, Sida Peng, Xingang Pan, Nanxuan Zhao, Christian Theobalt, Bo Dai, Dahua Lin Abstract순수 MLP 기반 뉴럴 래디언스 필드 (NeRF 기반 방법)는 모델 용량이 제한되어 대규모 장면에서 블러한 렌더링으로 인해 종종 과소적합 문제를 겪습니다.최근의 접근 방식은 장면을 지리적으로 나누고 여러 하위 NeRF를 채택하여 각 영역을 개별적으로 모델링할 것을 제안합니다, 이는 장면이 확장됨에 따라 학습 비용과 하위 NeRF의 수가 선형적으로 증가하게 만듭니다.대안적인 해결책은 피쳐 그리드 표현을 사용..
2025.03.11 -
RT-1: Robotics Transformer for Real-World Control at Scale
RT-1: Robotics Transformer for Real-World Control at Scale Robotics at Google, Everyday Robots, Google Research, Brain Team Abstract대규모의 다양한 작업에 구애받지 않는 데이터셋에서 지식을 이전함으로써, 최신 머신러닝 모델은 제로샷 또는 소규모 작업별 데이터셋을 사용하여 특정 다운스트림 작업을 높은 수준의 성능으로 해결할 수 있습니다.이 능력은 컴퓨터 비전, 자연어 처리 또는 음성 인식과 같은 다른 분야에서도 입증되었지만, 실제 로봇 데이터를 수집하기 어렵기 때문에 모델의 일반화 능력이 특히 중요한 로보틱스에서는 아직 입증되지 않았습니다.우리는 이러한 일반 로봇 모델의 성공 비결 중 하나가 다양한 로봇..
2025.03.10 -
YOLOv12: Attention-Centric Real-Time Object Detectors
YOLOv12: Attention-Centric Real-Time Object Detectors Yunjie Tian, Qixiang Ye, David Doermann AbstractYOLO 프레임워크의 네트워크 아키텍처를 향상시키는 것은 오랫동안 중요했지만, 모델링 능력에서 어텐션 메커니즘의 우수성이 입증되었음에도 불구하고 CNN 기반 개선에 집중해 왔습니다. 이는 어넽션 기반 모델이 CNN 기반 모델의 속도와 일치할 수 없기 때문입니다. 본 논문에서는 어텐션 메커니즘의 성능 이점을 활용하면서 이전 CNN 기반 모델의 속도와 일치하는 어텐션 중심 YOLO 프레임워크, 즉 YOLOv12를 제안합니다. YOLOv12는 경쟁 속도로 모든 인기 있는 실시간 객체 검출기를 능가합니다. 예를 들어, YOLOv12..
2025.02.24 -
π0: A Vision-Language-Action Flow Model for General Robot Control
π0: A Vision-Language-Action Flow Model for General Robot Control Physical Intelligence Abstract로봇 학습은 유연하고 일반적이며 손재주가 뛰어난 로봇 시스템의 잠재력을 최대한 발휘할 수 있을 뿐만 아니라 인공지능의 가장 깊은 질문들을 해결할 수 있는 엄청난 가능성을 가지고 있습니다. 그러나 효과적인 실제 시스템에 필요한 일반성 수준으로 로봇 학습을 발전시키는 것은 데이터, 일반화 및 견고성 측면에서 큰 장애물에 직면해 있습니다. 이 논문에서는 일반적인 로봇 정책 (즉, 로봇 파운데이션 모델)이 이러한 문제를 어떻게 해결할 수 있는지, 그리고 복잡하고 손재주가 뛰어난 작업을 위한 효과적인 일반적인 로봇 정책을 어떻게 설계할 수 있는..
2025.02.20 -
Depth Anything V2
Depth Anything V2 Lihe Yang, Bingyi Kang, Zilong Huang, Zhen Zhao, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao Abstract이 연구는 Depth Anything V2를 제시합니다. 화려한 기법을 추구하지 않고, 강력한 단안 뎁스 추정 모델을 구축하기 위한 중요한 결과를 밝히는 것을 목표로 합니다. 특히, V1 [89]과 비교했을 때, 이 버전은 세 가지 주요 방법을 통해 훨씬 더 정밀하고 견고한 뎁스 예측을 제공합니다: 1) 모든 라벨링된 실제 이미지를 합성 이미지로 대체하고, 2) teacher 모델의 용량을 확장하고, 3) 대규모 pseudo 라벨링된 실제 이미지를 통해 student 모델을 가르칩니다. Stable..
2025.02.12