Deep Learning(16)
-
YOLOv11: An Overview of the Key Architectural Enhancements
YOLOv11: An Overview of the Key Architectural Enhancements Rahima Khanam, Muhammad Hussain Abstract이 연구는 YOLO (You Only Look Once) 객체 감지 모델 시리즈의 최신 버전인 YOLOv11의 아키텍처 분석을 제시합니다. 우리는 향상된 피쳐 추출과 같은 여러 방식으로 모델 성능을 개선하는 데 기여하는 C3k2 (Cross Stage Partial with kernel size 2) 블록, SPPF (Spatial Pyramid Pooling - Fast) 및 C2PSA (Convolutional block with Parallel Spatial Attention) 구성 요소의 도입을 포함한 모델 아키텍처 혁신을..
2024.11.27 -
Fast Segment Anything
Fast Segment Anything Xu Zhao, Wenchao Ding, Yongqi An, Yinglong Du, Tao Yu, Min Li, Ming Tang, Jinqiao Wang Abstract최근 제안된 segment anything model (SAM)은 많은 컴퓨터 비전 작업에서 상당한 영향을 미치고 있습니다. 이미지 세그멘테이션, 이미지 캡션, 이미지 편집과 같은 많은 하이 레벨 작업의 파운데이션 단계가 되고 있습니다. 그러나 막대한 계산 비용으로 인해 업계 시나리오에서 더 넓은 응용을 할 수 없습니다. 계산은 주로 고해상도 입력에서 트랜스포머 아키텍처에서 이루어집니다. 본 논문에서는 비슷한 성능을 가진 이 기본 작업에 대한 속도 향상 대안 방법을 제안합니다. 작업을 세그먼트 생성..
2024.11.07 -
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second Aleksei Bochkovskii, Ama¨el Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun Abstract제로샷 메트릭 단안 뎁스 추정을 위한 파운데이션 모델을 제시합니다. 저희 모델인 Depth Pro는 탁월한 샤프함과 고주파수 디테일로 고해상도 뎁스 맵을 합성합니다. 예측은 카메라 intrinsic과 같은 메타데이터의 가용성에 의존하지 않고 절대 규모의 메트릭입니다. 또한 모델은 표준 GPU에서 0.3초 만에 2.25 메가픽셀 뎁스 맵을 생성하여 빠릅니다. 이러한 특성은 밀도가 ..
2024.11.07 -
Segment Anything in High Quality
Segment Anything in High Quality Lei Ke, Mingqiao Ye, Martin Danelljan, Yifan Liu, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu Abstract최근의 Segment Anything Model (SAM)은 강력한 제로샷 기능과 유연한 프롬프트를 허용하는 세그멘테이션 모델 확장의 큰 도약을 의미합니다. 11억 개의 마스크로 학습되었지만, 특히 복잡한 구조를 가진 물체를 다룰 때 SAM의 마스크 예측 품질은 많은 경우 부족합니다. 우리는 SAM의 원래 프롬프터블 설계, 효율성 및 제로샷 일반화 가능성을 유지하면서 모든 물체를 정확하게 세그멘트할 수 있는 기능을 갖춘 HQ-SAM을 제안한다. 우리의 세심한 설계는 최소한의 ..
2024.10.28 -
Recognize Anything: A Strong Image Tagging Model
Recognize Anything: A Strong Image Tagging Model Youcai Zhang, Xinyu Huang, Jinyu Ma, Zhaoyang Li, Zhaochuan Luo, Yanchun Xie, Yuzhuo Qin, Tong Luo, Yaqian Li, Shilong Liu, Yandong Guo, Lei Zhang AbstractRecognize Anything Model (RAM): a strong foundation model for image tagging을 소개합니다:RAM은 컴퓨터 비전 분야의 대규모 모델에 상당한 진전을 이루었으며, 일반적인 카테고리를 높은 정확도로 인식하는 제로 샷 기능을 보여줍니다. RAM은 수동 주석 대신 대규모 이미지-텍스트 쌍을 학습에..
2024.10.18 -
Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks
Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks International Digital Economy Academy (IDEA) & Community AbstractGrounding DINO [38]를 오픈셋 객체 검출기로 사용하여 segment anything model (SAM) [25]과 결합하는 Grounded SAM을 소개합니다. 이러한 통합을 통해 임의의 텍스트 입력을 기반으로 모든 영역을 감지하고 세그멘트할 수 있으며 다양한 비전 모델을 연결할 수 있는 문이 열립니다.그림 1에 표시된 것처럼, 다용도 Grounded SAM 파이프라인을 사용하면 광범위한 비전 작업을 달성할 수 있습니다. 예를 들어, 입력 이미지에만 기반..
2024.10.17