분류 전체보기(229)
-
Wild-GS: Real-Time Novel View Synthesis fromUnconstrained Photo Collections
Wild-GS: Real-Time Novel View Synthesis from Unconstrained Photo Collections Jiacong Xu, Yiqun Mei, Vishal M. Patel Abstract비정형 관광 환경에서 촬영된 사진들은 종종 가변적인 외관과 transient occluder를 보이며, 정확한 장면 재구성에 도전하고 새로운 뷰 합성에서 아티팩트를 유도합니다. 이전 접근 방식들은 Neural Radiance Field (NeRF)를 동적인 외관을 처리하고 transient 물체를 제거하기 위해 추가적인 학습 가능 모듈과 통합했지만, 이들의 광범위한 학습 요구와 느린 렌더링 속도는 실제 배포를 제한합니다. 최근에는 3D Gaussian Splatting (3DGS)이 N..
2024.12.30 -
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding IDEA Research Team Abstract이 논문에서는 IDEA Research에서 개발한 통합 객체 중심 비전 모델인 DINO-X를 소개합니다, 이 모델은 현재까지 최고의 오픈 월드 객체 탐지 성능을 자랑합니다. DINO-X는 Grounding DINO 1.5 [47]와 동일한 트랜스포머 기반 인코더-디코더 아키텍처를 사용하여 오픈 월드 객체 이해를 위한 객체 수준 표현을 추구합니다. 긴 꼬리 객체 탐지를 쉽게 하기 위해 DINO-X는 입력 옵션을 확장하여 텍스트 프롬프트, 시각 프롬프트, 맞춤형 프롬프트를 지원합니다. 이러한 유연한 프롬프트 옵션을 통..
2024.12.26 -
WildGaussians: 3D Gaussian Splatting in the Wild
WildGaussians: 3D Gaussian Splatting in the Wild Jonas Kulhanek, Songyou Peng, Zuzana Kukelova, Marc Pollefeys, Torsten Sattler Abstract3D 장면 재구성 분야는 포토리얼리티 품질로 인해 NeRF가 지배적인 반면, 최근에는 3D Gaussian Splatting (3DGS)이 등장하여 실시간 렌더링 속도와 유사한 품질을 제공하고 있습니다. 그러나 두 방법 모두 잘 제어된 3D 장면에서 주로 뛰어난 성능을 발휘하는 반면, 야생 데이터 - 폐쇄, 동적 객체, 다양한 조명으로 특징지어짐 - 는 여전히 도전적입니다. NeRF는 이미지별 임베딩 벡터를 통해 이러한 조건에 쉽게 적응할 수 있지만, 3DGS는..
2024.12.17 -
YOLOv11: An Overview of the Key Architectural Enhancements
YOLOv11: An Overview of the Key Architectural Enhancements Rahima Khanam, Muhammad Hussain Abstract이 연구는 YOLO (You Only Look Once) 객체 감지 모델 시리즈의 최신 버전인 YOLOv11의 아키텍처 분석을 제시합니다. 우리는 향상된 피쳐 추출과 같은 여러 방식으로 모델 성능을 개선하는 데 기여하는 C3k2 (Cross Stage Partial with kernel size 2) 블록, SPPF (Spatial Pyramid Pooling - Fast) 및 C2PSA (Convolutional block with Parallel Spatial Attention) 구성 요소의 도입을 포함한 모델 아키텍처 혁신을..
2024.11.27 -
Fast Segment Anything
Fast Segment Anything Xu Zhao, Wenchao Ding, Yongqi An, Yinglong Du, Tao Yu, Min Li, Ming Tang, Jinqiao Wang Abstract최근 제안된 segment anything model (SAM)은 많은 컴퓨터 비전 작업에서 상당한 영향을 미치고 있습니다. 이미지 세그멘테이션, 이미지 캡션, 이미지 편집과 같은 많은 하이 레벨 작업의 파운데이션 단계가 되고 있습니다. 그러나 막대한 계산 비용으로 인해 업계 시나리오에서 더 넓은 응용을 할 수 없습니다. 계산은 주로 고해상도 입력에서 트랜스포머 아키텍처에서 이루어집니다. 본 논문에서는 비슷한 성능을 가진 이 기본 작업에 대한 속도 향상 대안 방법을 제안합니다. 작업을 세그먼트 생성..
2024.11.07 -
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second Aleksei Bochkovskii, Ama¨el Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun Abstract제로샷 메트릭 단안 뎁스 추정을 위한 파운데이션 모델을 제시합니다. 저희 모델인 Depth Pro는 탁월한 샤프함과 고주파수 디테일로 고해상도 뎁스 맵을 합성합니다. 예측은 카메라 intrinsic과 같은 메타데이터의 가용성에 의존하지 않고 절대 규모의 메트릭입니다. 또한 모델은 표준 GPU에서 0.3초 만에 2.25 메가픽셀 뎁스 맵을 생성하여 빠릅니다. 이러한 특성은 밀도가 ..
2024.11.07