전체 글(236)
-
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes Yang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang Abstract최근 3D Gaussian Splatting (3DGS)은 효율적이고 고충실도의 새로운 뷰 합성을 나타내며 래디언스 필드 재구성에 혁명을 일으켰습니다.그러나 특히 크고 복잡한 시나리오에서 표면을 정확하게 표현하는 것은 3DGS의 비정형적인 특성으로 인해 여전히 중요한 과제로 남아 있습니다.이 논문에서는 기하학적 정확성과 효율성과 관련된 중요한 문제를 해결하는 대규모 장면 재구성을 위한 새로운 접근 방식인 Cit..
2025.03.24 -
PaLM-E: An Embodied Multimodal Language Model
PaLM-E: An Embodied Multimodal Language Model Robotics at Google Abstract대규모 언어 모델이 복잡한 작업을 수행하는 것으로 입증되었습니다.그러나 로봇 문제와 같은 일반적인 추론을 현실 세계에서 가능하게 하는 것은 근거 마련의 어려움을 야기합니다.우리는 실제 연속 센서 모달리티를 언어 모델에 직접 통합하여 단어와 지각 사이의 연관성을 확립하기 위해 구현된 언어 모델을 제안합니다.우리의 구현된 언어 모델에 입력되는 것은 시각적, 연속 상태 추정, 그리고 텍스트 입력 인코딩을 포함하는 멀티모달 문장입니다.우리는 순차적인 로봇 조작 계획, 시각적 질문 응답, 캡셔닝을 포함한 여러 구현 작업을 위해 사전 학습된 대규모 언어 모델과 함께 이러한 인코딩을 종단..
2025.03.20 -
VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction
VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction Jiaqi Lin, Zhihao Li, Xiao Tang, Jianzhuang Liu, Shiyong Liu, Jiayue Liu, Yangdi Lu, Xiaofei Wu, Songcen Xu, Youliang Yan, Wenming Yang Abstract기존의 NeRF 기반 대형 장면 재구성 방법은 종종 시각적 품질과 렌더링 속도에 한계가 있습니다.최근 3D 가우시안 스플랫팅은 소규모 및 객체 중심 장면에서 잘 작동하지만, 이를 큰 장면으로 확장하는 것은 제한된 비디오 메모리, 긴 최적화 시간, 눈에 띄는 외관 변화로 인해 도전 과제가 됩니다.이러한 문제를 해결하기 위해 3D 가우시안 스플..
2025.03.20 -
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control Google DeepMind 우리는 인터넷 규모의 데이터로 학습된 비전-언어 모델을 종단 간 로봇 제어에 직접 통합하여 일반화를 촉진하고 새로운 시맨틱 추론을 가능하게 하는 방법을 연구합니다.우리의 목표는 단일 종단 간 학습 모델이 로봇 관찰을 액션으로 매핑하는 방법을 학습하고 웹에서 언어 및 비전-언어 데이터에 대한 대규모 사전 학습의 이점을 누릴 수 있도록 하는 것입니다.이를 위해 우리는 로봇 궤적 데이터와 시각적 질문 응답과 같은 인터넷 규모의 비전 언어 작업 모두에서 SOTA 비전-언어 모델을 공동 파인튜닝할 것을 제안합니다.다른 접근 방식과 달리, 우리는 이..
2025.03.17 -
CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians
CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians Yang Liu, He Guan, Chuanchen Luo, Lue Fan, Naiyan Wang, Junran Peng, Zhaoxiang Zhang Abstract실시간 3D 장면 재구성과 새로운 뷰 합성의 발전은 3D Gaussian Splatting (3DGS)에 의해 크게 촉진되었습니다.그러나 대규모 3DGS를 효과적으로 학습하고 다양한 규모에서 실시간으로 렌더링하는 것은 여전히 어려운 과제입니다.이 논문은 효율적인 대규모 3DGS 학습 및 렌더링을 위해 새로운 분할 정복 학습 접근 방식과 Level-of-Detail (LoD) 전략을 사용하는 CityG..
2025.03.14 -
Grid-guided Neural Radiance Fields for Large Urban Scenes
Grid-guided Neural Radiance Fields for Large Urban Scenes Linning Xu, Yuanbo Xiangli, Sida Peng, Xingang Pan, Nanxuan Zhao, Christian Theobalt, Bo Dai, Dahua Lin Abstract순수 MLP 기반 뉴럴 래디언스 필드 (NeRF 기반 방법)는 모델 용량이 제한되어 대규모 장면에서 블러한 렌더링으로 인해 종종 과소적합 문제를 겪습니다.최근의 접근 방식은 장면을 지리적으로 나누고 여러 하위 NeRF를 채택하여 각 영역을 개별적으로 모델링할 것을 제안합니다, 이는 장면이 확장됨에 따라 학습 비용과 하위 NeRF의 수가 선형적으로 증가하게 만듭니다.대안적인 해결책은 피쳐 그리드 표현을 사용..
2025.03.11