전체 글(239)
-
Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting
Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting Yunzhi Yan, Haotong Lin, Chenxu Zhou, Weijie Wang, Haiyang Sun, Kun Zhan, Xianpeng Lang, Xiaowei Zhou, Sida Peng Abstract이 논문은 자율 주행 장면을 위한 동적인 도시 스트리트 모델링 문제를 해결하는 것을 목표로 합니다.최근 방법들은 추적된 차량 포즈를 애니메이션 차량에 통합하여 NeRF를 확장하여 역동적인 도시 거리 장면을 사진사실적으로 시각적으로 합성할 수 있게 합니다.그러나 학습 속도와 렌더링 속도가 느리다는 점에서 큰 한계가 있습니다.우리는 이러한 한계를 극복하기 위한 새로운 ..
2025.04.09 -
Open X-Embodiment: Robotic Learning Datasets and RT-X Models
Open X-Embodiment: Robotic Learning Datasets and RT-X Models Open X-Embodiment Collaboration Abstract다양한 데이터셋으로 학습된 대용량 모델은 다운스트림 애플리케이션을 효율적으로 처리하는 데 있어 놀라운 성공을 거두었습니다.NLP에서 Computer Vision에 이르는 도메인에서 이는 사전 학습된 모델의 통합으로 이어졌으며, 일반적인 사전 학습된 백본이 많은 응용 프로그램의 출발점이 되었습니다.로보틱스에서 이러한 통합이 일어날 수 있을까요?전통적으로 로봇 학습 방법은 모든 애플리케이션, 모든 로봇, 심지어 모든 환경에 대해 별도의 모델을 학습시킵니다.대신 새로운 로봇, 작업 및 환경에 효율적으로 적응할 수 있는 "genera..
2025.03.24 -
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes Yang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang Abstract최근 3D Gaussian Splatting (3DGS)은 효율적이고 고충실도의 새로운 뷰 합성을 나타내며 래디언스 필드 재구성에 혁명을 일으켰습니다.그러나 특히 크고 복잡한 시나리오에서 표면을 정확하게 표현하는 것은 3DGS의 비정형적인 특성으로 인해 여전히 중요한 과제로 남아 있습니다.이 논문에서는 기하학적 정확성과 효율성과 관련된 중요한 문제를 해결하는 대규모 장면 재구성을 위한 새로운 접근 방식인 Cit..
2025.03.24 -
PaLM-E: An Embodied Multimodal Language Model
PaLM-E: An Embodied Multimodal Language Model Robotics at Google Abstract대규모 언어 모델이 복잡한 작업을 수행하는 것으로 입증되었습니다.그러나 로봇 문제와 같은 일반적인 추론을 현실 세계에서 가능하게 하는 것은 근거 마련의 어려움을 야기합니다.우리는 실제 연속 센서 모달리티를 언어 모델에 직접 통합하여 단어와 지각 사이의 연관성을 확립하기 위해 구현된 언어 모델을 제안합니다.우리의 구현된 언어 모델에 입력되는 것은 시각적, 연속 상태 추정, 그리고 텍스트 입력 인코딩을 포함하는 멀티모달 문장입니다.우리는 순차적인 로봇 조작 계획, 시각적 질문 응답, 캡셔닝을 포함한 여러 구현 작업을 위해 사전 학습된 대규모 언어 모델과 함께 이러한 인코딩을 종단..
2025.03.20 -
VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction
VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction Jiaqi Lin, Zhihao Li, Xiao Tang, Jianzhuang Liu, Shiyong Liu, Jiayue Liu, Yangdi Lu, Xiaofei Wu, Songcen Xu, Youliang Yan, Wenming Yang Abstract기존의 NeRF 기반 대형 장면 재구성 방법은 종종 시각적 품질과 렌더링 속도에 한계가 있습니다.최근 3D 가우시안 스플랫팅은 소규모 및 객체 중심 장면에서 잘 작동하지만, 이를 큰 장면으로 확장하는 것은 제한된 비디오 메모리, 긴 최적화 시간, 눈에 띄는 외관 변화로 인해 도전 과제가 됩니다.이러한 문제를 해결하기 위해 3D 가우시안 스플..
2025.03.20 -
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control Google DeepMind 우리는 인터넷 규모의 데이터로 학습된 비전-언어 모델을 종단 간 로봇 제어에 직접 통합하여 일반화를 촉진하고 새로운 시맨틱 추론을 가능하게 하는 방법을 연구합니다.우리의 목표는 단일 종단 간 학습 모델이 로봇 관찰을 액션으로 매핑하는 방법을 학습하고 웹에서 언어 및 비전-언어 데이터에 대한 대규모 사전 학습의 이점을 누릴 수 있도록 하는 것입니다.이를 위해 우리는 로봇 궤적 데이터와 시각적 질문 응답과 같은 인터넷 규모의 비전 언어 작업 모두에서 SOTA 비전-언어 모델을 공동 파인튜닝할 것을 제안합니다.다른 접근 방식과 달리, 우리는 이..
2025.03.17