전체 글(220)
-
SpotLessSplats: Ignoring Distractors in 3D Gaussian Splatting
SpotLessSplats: Ignoring Distractors in 3D Gaussian Splatting Sara Sabour, Lily Goli, George Kopanas, Mark Mathews, Dmitry Lagun, Leonidas Guibas, Alec Jacobson, David Fleet, Andrea Tagliasacchi Abstract3D Gaussian Splatting (3DGS)은 효율적인 학습 및 렌더링 속도를 제공하는 3D 재구성을 위한 유망한 기술로, 실시간 애플리케이션에 적합합니다. 그러나 현재 방법은 3DGS의 인터-뷰 일관성 가정을 충족하기 위해 고도로 제어된 환경—움직이는 사람이나 바람이 부는 요소가 없고 일관된 조명이 필요하지 않다—이 필요합니다. 따라서 실..
2024.10.21 -
Recognize Anything: A Strong Image Tagging Model
Recognize Anything: A Strong Image Tagging Model Youcai Zhang, Xinyu Huang, Jinyu Ma, Zhaoyang Li, Zhaochuan Luo, Yanchun Xie, Yuzhuo Qin, Tong Luo, Yaqian Li, Shilong Liu, Yandong Guo, Lei Zhang AbstractRecognize Anything Model (RAM): a strong foundation model for image tagging을 소개합니다:RAM은 컴퓨터 비전 분야의 대규모 모델에 상당한 진전을 이루었으며, 일반적인 카테고리를 높은 정확도로 인식하는 제로 샷 기능을 보여줍니다. RAM은 수동 주석 대신 대규모 이미지-텍스트 쌍을 학습에..
2024.10.18 -
Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks
Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks International Digital Economy Academy (IDEA) & Community AbstractGrounding DINO [38]를 오픈셋 객체 검출기로 사용하여 segment anything model (SAM) [25]과 결합하는 Grounded SAM을 소개합니다. 이러한 통합을 통해 임의의 텍스트 입력을 기반으로 모든 영역을 감지하고 세그멘트할 수 있으며 다양한 비전 모델을 연결할 수 있는 문이 열립니다.그림 1에 표시된 것처럼, 다용도 Grounded SAM 파이프라인을 사용하면 광범위한 비전 작업을 달성할 수 있습니다. 예를 들어, 입력 이미지에만 기반..
2024.10.17 -
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Qing Jiang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang Abstract본 논문에서는 범주 이름이나 참조 표현식과 같은 사람의 입력으로 임의의 객체를 탐지할 수 있는 트랜스포머 기반 탐지기 DINO와 grounded 사전 학습을 결합하여 Grounding DINO라는 오픈셋 객체 탐지기를 개발합니다. 오픈셋 객체 탐지의 핵심 솔루션은 오픈셋 개념 일반화를 위해 폐쇄형..
2024.10.16 -
Faster Segment Anything: Towards Lightweight SAM for Mobile Applications
Faster Segment Anything: Towards Lightweight SAM for Mobile Applications Chaoning Zhang, Dongshen Han, Yu Qiao, Jung Uk Kim, Sung-Ho Bae, Seungkyu Lee, Choong Seon Hong AbstractSegment Anything Model (SAM)은 인상적인 제로 샷 전송 성능과 다양한 비전 애플리케이션(예: 세분화된 제어를 통한 이미지 편집)에 대한 높은 다재다능함으로 인해 상당한 주목을 받고 있습니다. 이러한 애플리케이션의 대부분은 휴대폰과 같은 리소스가 제한된 에지 장치에서 실행되어야 합니다. 본 연구에서는 헤비급 이미지 인코더를 경량 이미지 인코더로 대체하여 SAM을 모바일 친화..
2024.10.15 -
Gaussian in the Wild: 3D Gaussian Splatting for Unconstrained Image Collections
Gaussian in the Wild: 3D Gaussian Splatting for Unconstrained Image Collections Dongbin Zhang, Chuming Wang, Weitao Wang, Peihao Li, Minghan Qin, Haoqian Wang Abstract제약이 없는 야생 이미지에서 새로운 뷰 합성은 의미 있지만 어려운 작업으로 남아 있습니다. 이러한 제약이 없는 이미지의 photometric 변화와 transient occluders로 인해 원래 장면을 정확하게 재구성하는 것이 어렵습니다. 이전 접근 방식은 Neural Radiance Fields (NeRF)에 전역적인 외관 피쳐를 도입하여 문제를 해결합니다. 그러나 실제 세계에서는 장면에서 각 작은 점의 고..
2024.10.11