분류 전체보기(229)
-
Semantic-aware Occlusion Filtering Neural Radiance Fields in the Wild
Semantic-aware Occlusion Filtering Neural Radiance Fields in the Wild Jaewon Lee, Injae Kim, Hwan Heo, Hyunwoo J. Kim Abstract우리는 소수의 제약 없는 관광 사진에서 신경 장면 표현을 재구성하기 위한 학습 프레임워크를 제시합니다. 각 이미지에는 transient occluders가 포함되어 있기 때문에 기존 방법에는 많은 학습 데이터가 필요한 야생 사진으로 래디언스 필드를 구성하려면 정적 및 transient 구성 요소를 분해하는 것이 필요합니다. 우리는 주어진 몇 개의 이미지만으로 두 구성 요소를 분리하는 것을 목표로 하는 SF-NeRF를 소개하며, 이는 supervision 없이 시맨틱 정보를 활용합니다..
2024.10.31 -
Segment Anything in High Quality
Segment Anything in High Quality Lei Ke, Mingqiao Ye, Martin Danelljan, Yifan Liu, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu Abstract최근의 Segment Anything Model (SAM)은 강력한 제로샷 기능과 유연한 프롬프트를 허용하는 세그멘테이션 모델 확장의 큰 도약을 의미합니다. 11억 개의 마스크로 학습되었지만, 특히 복잡한 구조를 가진 물체를 다룰 때 SAM의 마스크 예측 품질은 많은 경우 부족합니다. 우리는 SAM의 원래 프롬프터블 설계, 효율성 및 제로샷 일반화 가능성을 유지하면서 모든 물체를 정확하게 세그멘트할 수 있는 기능을 갖춘 HQ-SAM을 제안한다. 우리의 세심한 설계는 최소한의 ..
2024.10.28 -
NeRF-HuGS: Improved Neural Radiance Fields in Non-static Scenes Using Heuristics-Guided Segmentation
NeRF-HuGS: Improved Neural Radiance Fields in Non-static Scenes Using Heuristics-Guided Segmentation Jiahao Chen, Yipeng Qin, Lingjie Liu, Jiangbo Lu, Guanbin Li AbstractNeural Radiance Field (NeRF)는 새로운 뷰 합성 및 3D 장면 재구성의 우수성으로 널리 인정받고 있습니다. 그러나 그 효과는 본질적으로 정적 장면의 가정과 관련이 있기 때문에 움직이는 물체나 그림자와 같은 transient distractors에 직면할 때 바람직하지 않은 아티팩트에 취약합니다. 본 연구에서는 수작업 휴리스틱과 SOTA 세그멘테이션 모델의 강점을 조화롭게 결합하여 tr..
2024.10.21 -
SpotLessSplats: Ignoring Distractors in 3D Gaussian Splatting
SpotLessSplats: Ignoring Distractors in 3D Gaussian Splatting Sara Sabour, Lily Goli, George Kopanas, Mark Mathews, Dmitry Lagun, Leonidas Guibas, Alec Jacobson, David Fleet, Andrea Tagliasacchi Abstract3D Gaussian Splatting (3DGS)은 효율적인 학습 및 렌더링 속도를 제공하는 3D 재구성을 위한 유망한 기술로, 실시간 애플리케이션에 적합합니다. 그러나 현재 방법은 3DGS의 인터-뷰 일관성 가정을 충족하기 위해 고도로 제어된 환경—움직이는 사람이나 바람이 부는 요소가 없고 일관된 조명이 필요하지 않다—이 필요합니다. 따라서 실..
2024.10.21 -
Recognize Anything: A Strong Image Tagging Model
Recognize Anything: A Strong Image Tagging Model Youcai Zhang, Xinyu Huang, Jinyu Ma, Zhaoyang Li, Zhaochuan Luo, Yanchun Xie, Yuzhuo Qin, Tong Luo, Yaqian Li, Shilong Liu, Yandong Guo, Lei Zhang AbstractRecognize Anything Model (RAM): a strong foundation model for image tagging을 소개합니다:RAM은 컴퓨터 비전 분야의 대규모 모델에 상당한 진전을 이루었으며, 일반적인 카테고리를 높은 정확도로 인식하는 제로 샷 기능을 보여줍니다. RAM은 수동 주석 대신 대규모 이미지-텍스트 쌍을 학습에..
2024.10.18 -
Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks
Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks International Digital Economy Academy (IDEA) & Community AbstractGrounding DINO [38]를 오픈셋 객체 검출기로 사용하여 segment anything model (SAM) [25]과 결합하는 Grounded SAM을 소개합니다. 이러한 통합을 통해 임의의 텍스트 입력을 기반으로 모든 영역을 감지하고 세그멘트할 수 있으며 다양한 비전 모델을 연결할 수 있는 문이 열립니다.그림 1에 표시된 것처럼, 다용도 Grounded SAM 파이프라인을 사용하면 광범위한 비전 작업을 달성할 수 있습니다. 예를 들어, 입력 이미지에만 기반..
2024.10.17