분류 전체보기(221)
-
WildGaussians: 3D Gaussian Splatting in the Wild
WildGaussians: 3D Gaussian Splatting in the Wild Jonas Kulhanek, Songyou Peng, Zuzana Kukelova, Marc Pollefeys, Torsten Sattler Abstract3D 장면 재구성 분야는 포토리얼리티 품질로 인해 NeRF가 지배적인 반면, 최근에는 3D Gaussian Splatting (3DGS)이 등장하여 실시간 렌더링 속도와 유사한 품질을 제공하고 있습니다. 그러나 두 방법 모두 잘 제어된 3D 장면에서 주로 뛰어난 성능을 발휘하는 반면, 야생 데이터 - 폐쇄, 동적 객체, 다양한 조명으로 특징지어짐 - 는 여전히 도전적입니다. NeRF는 이미지별 임베딩 벡터를 통해 이러한 조건에 쉽게 적응할 수 있지만, 3DGS는..
2024.12.17 -
YOLOv11: An Overview of the Key Architectural Enhancements
YOLOv11: An Overview of the Key Architectural Enhancements Rahima Khanam, Muhammad Hussain Abstract이 연구는 YOLO (You Only Look Once) 객체 감지 모델 시리즈의 최신 버전인 YOLOv11의 아키텍처 분석을 제시합니다. 우리는 향상된 피쳐 추출과 같은 여러 방식으로 모델 성능을 개선하는 데 기여하는 C3k2 (Cross Stage Partial with kernel size 2) 블록, SPPF (Spatial Pyramid Pooling - Fast) 및 C2PSA (Convolutional block with Parallel Spatial Attention) 구성 요소의 도입을 포함한 모델 아키텍처 혁신을..
2024.11.27 -
Fast Segment Anything
Fast Segment Anything Xu Zhao, Wenchao Ding, Yongqi An, Yinglong Du, Tao Yu, Min Li, Ming Tang, Jinqiao Wang Abstract최근 제안된 segment anything model (SAM)은 많은 컴퓨터 비전 작업에서 상당한 영향을 미치고 있습니다. 이미지 세그멘테이션, 이미지 캡션, 이미지 편집과 같은 많은 하이 레벨 작업의 파운데이션 단계가 되고 있습니다. 그러나 막대한 계산 비용으로 인해 업계 시나리오에서 더 넓은 응용을 할 수 없습니다. 계산은 주로 고해상도 입력에서 트랜스포머 아키텍처에서 이루어집니다. 본 논문에서는 비슷한 성능을 가진 이 기본 작업에 대한 속도 향상 대안 방법을 제안합니다. 작업을 세그먼트 생성..
2024.11.07 -
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second Aleksei Bochkovskii, Ama¨el Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun Abstract제로샷 메트릭 단안 뎁스 추정을 위한 파운데이션 모델을 제시합니다. 저희 모델인 Depth Pro는 탁월한 샤프함과 고주파수 디테일로 고해상도 뎁스 맵을 합성합니다. 예측은 카메라 intrinsic과 같은 메타데이터의 가용성에 의존하지 않고 절대 규모의 메트릭입니다. 또한 모델은 표준 GPU에서 0.3초 만에 2.25 메가픽셀 뎁스 맵을 생성하여 빠릅니다. 이러한 특성은 밀도가 ..
2024.11.07 -
Semantic-aware Occlusion Filtering Neural Radiance Fields in the Wild
Semantic-aware Occlusion Filtering Neural Radiance Fields in the Wild Jaewon Lee, Injae Kim, Hwan Heo, Hyunwoo J. Kim Abstract우리는 소수의 제약 없는 관광 사진에서 신경 장면 표현을 재구성하기 위한 학습 프레임워크를 제시합니다. 각 이미지에는 transient occluders가 포함되어 있기 때문에 기존 방법에는 많은 학습 데이터가 필요한 야생 사진으로 래디언스 필드를 구성하려면 정적 및 transient 구성 요소를 분해하는 것이 필요합니다. 우리는 주어진 몇 개의 이미지만으로 두 구성 요소를 분리하는 것을 목표로 하는 SF-NeRF를 소개하며, 이는 supervision 없이 시맨틱 정보를 활용합니다..
2024.10.31 -
Segment Anything in High Quality
Segment Anything in High Quality Lei Ke, Mingqiao Ye, Martin Danelljan, Yifan Liu, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu Abstract최근의 Segment Anything Model (SAM)은 강력한 제로샷 기능과 유연한 프롬프트를 허용하는 세그멘테이션 모델 확장의 큰 도약을 의미합니다. 11억 개의 마스크로 학습되었지만, 특히 복잡한 구조를 가진 물체를 다룰 때 SAM의 마스크 예측 품질은 많은 경우 부족합니다. 우리는 SAM의 원래 프롬프터블 설계, 효율성 및 제로샷 일반화 가능성을 유지하면서 모든 물체를 정확하게 세그멘트할 수 있는 기능을 갖춘 HQ-SAM을 제안한다. 우리의 세심한 설계는 최소한의 ..
2024.10.28