전체 글(239)
-
Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao Abstract이 연구는 강력한 단안 뎁스 추정을 위한 매우 실용적인 솔루션인 Depth Anything을 제시합니다. 새로운 기술 모듈을 추구하지 않고, 우리는 어떤 상황에서도 모든 이미지를 처리하는 간단하면서도 강력한 파운데이션 모델을 구축하는 것을 목표로 합니다. 이를 위해 데이터 엔진을 설계하여 대규모 비라벨 데이터 (~62M)를 수집하고 자동으로 주석을 달게 함으로써 데이터 범위를 크게 확장하고 일반화 오류를 줄일 수 있습니다. 우리는 ..
2025.02.07 -
Compact 3D Gaussian Representation for Radiance Field
Compact 3D Gaussian Representation for Radiance Field Joo Chan Lee, Daniel Rho, Xiangyu Sun, Jong Hwan Ko, Eunbyung Park AbstractNeural Radiance Fields (NeRFs)는 복잡한 3D 장면을 높은 충실도로 캡처하는 데 있어 놀라운 잠재력을 보여주었습니다. 그러나 NeRFs의 광범위한 채택을 방해하는 지속적인 도전 과제 중 하나는 볼륨 렌더링으로 인한 계산 병목 현상입니다. 반면, 3D Gaussian splatting (3DGS)은 최근 3D 가우시안 기반 표현을 활용하고, 볼륨 렌더링 대신 래스터화 파이프라인을 채택하여 이미지를 렌더링하는 대안적인 표현으로 떠오르고 있습니다, 이는 매우 ..
2025.01.13 -
Cosmos World Foundation Model Platform for Physical AI
Cosmos World Foundation Model Platform for Physical AI NVIDIA AbstractPhysical AI는 먼저 디지털로 학습되어야 합니다. 이를 위해서는 그 자체의 디지털 트윈인 policy 모델과 월드의 디지털 트윈인 world 모델이 필요합니다. 본 논문에서는 개발자들이 Physical AI 설정을 위한 맞춤형 월드 모델을 구축할 수 있도록 돕는 Cosmos World Foundation Model 플랫폼을 제시합니다. 우리는 다운스트림 애플리케이션을 위한 맞춤형 월드 모델로 파인튜닝할 수 있는 범용 월드 모델로서 월드 파운데이션 모델을 제안합니다. 우리의 플랫폼은 비디오 큐레이션 파이프라인, 사전 학습된 월드 파운데이션 모델, 사전 학습된 월드 파운데이션 ..
2025.01.10 -
Wild-GS: Real-Time Novel View Synthesis fromUnconstrained Photo Collections
Wild-GS: Real-Time Novel View Synthesis from Unconstrained Photo Collections Jiacong Xu, Yiqun Mei, Vishal M. Patel Abstract비정형 관광 환경에서 촬영된 사진들은 종종 가변적인 외관과 transient occluder를 보이며, 정확한 장면 재구성에 도전하고 새로운 뷰 합성에서 아티팩트를 유도합니다. 이전 접근 방식들은 Neural Radiance Field (NeRF)를 동적인 외관을 처리하고 transient 물체를 제거하기 위해 추가적인 학습 가능 모듈과 통합했지만, 이들의 광범위한 학습 요구와 느린 렌더링 속도는 실제 배포를 제한합니다. 최근에는 3D Gaussian Splatting (3DGS)이 N..
2024.12.30 -
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding IDEA Research Team Abstract이 논문에서는 IDEA Research에서 개발한 통합 객체 중심 비전 모델인 DINO-X를 소개합니다, 이 모델은 현재까지 최고의 오픈 월드 객체 탐지 성능을 자랑합니다. DINO-X는 Grounding DINO 1.5 [47]와 동일한 트랜스포머 기반 인코더-디코더 아키텍처를 사용하여 오픈 월드 객체 이해를 위한 객체 수준 표현을 추구합니다. 긴 꼬리 객체 탐지를 쉽게 하기 위해 DINO-X는 입력 옵션을 확장하여 텍스트 프롬프트, 시각 프롬프트, 맞춤형 프롬프트를 지원합니다. 이러한 유연한 프롬프트 옵션을 통..
2024.12.26 -
WildGaussians: 3D Gaussian Splatting in the Wild
WildGaussians: 3D Gaussian Splatting in the Wild Jonas Kulhanek, Songyou Peng, Zuzana Kukelova, Marc Pollefeys, Torsten Sattler Abstract3D 장면 재구성 분야는 포토리얼리티 품질로 인해 NeRF가 지배적인 반면, 최근에는 3D Gaussian Splatting (3DGS)이 등장하여 실시간 렌더링 속도와 유사한 품질을 제공하고 있습니다. 그러나 두 방법 모두 잘 제어된 3D 장면에서 주로 뛰어난 성능을 발휘하는 반면, 야생 데이터 - 폐쇄, 동적 객체, 다양한 조명으로 특징지어짐 - 는 여전히 도전적입니다. NeRF는 이미지별 임베딩 벡터를 통해 이러한 조건에 쉽게 적응할 수 있지만, 3DGS는..
2024.12.17