Deep Learning(20)
-
YOLOv12: Attention-Centric Real-Time Object Detectors
YOLOv12: Attention-Centric Real-Time Object Detectors Yunjie Tian, Qixiang Ye, David Doermann AbstractYOLO 프레임워크의 네트워크 아키텍처를 향상시키는 것은 오랫동안 중요했지만, 모델링 능력에서 어텐션 메커니즘의 우수성이 입증되었음에도 불구하고 CNN 기반 개선에 집중해 왔습니다. 이는 어넽션 기반 모델이 CNN 기반 모델의 속도와 일치할 수 없기 때문입니다. 본 논문에서는 어텐션 메커니즘의 성능 이점을 활용하면서 이전 CNN 기반 모델의 속도와 일치하는 어텐션 중심 YOLO 프레임워크, 즉 YOLOv12를 제안합니다. YOLOv12는 경쟁 속도로 모든 인기 있는 실시간 객체 검출기를 능가합니다. 예를 들어, YOLOv12..
2025.02.24 -
Depth Anything V2
Depth Anything V2 Lihe Yang, Bingyi Kang, Zilong Huang, Zhen Zhao, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao Abstract이 연구는 Depth Anything V2를 제시합니다. 화려한 기법을 추구하지 않고, 강력한 단안 뎁스 추정 모델을 구축하기 위한 중요한 결과를 밝히는 것을 목표로 합니다. 특히, V1 [89]과 비교했을 때, 이 버전은 세 가지 주요 방법을 통해 훨씬 더 정밀하고 견고한 뎁스 예측을 제공합니다: 1) 모든 라벨링된 실제 이미지를 합성 이미지로 대체하고, 2) teacher 모델의 용량을 확장하고, 3) 대규모 pseudo 라벨링된 실제 이미지를 통해 student 모델을 가르칩니다. Stable..
2025.02.12 -
Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao Abstract이 연구는 강력한 단안 뎁스 추정을 위한 매우 실용적인 솔루션인 Depth Anything을 제시합니다. 새로운 기술 모듈을 추구하지 않고, 우리는 어떤 상황에서도 모든 이미지를 처리하는 간단하면서도 강력한 파운데이션 모델을 구축하는 것을 목표로 합니다. 이를 위해 데이터 엔진을 설계하여 대규모 비라벨 데이터 (~62M)를 수집하고 자동으로 주석을 달게 함으로써 데이터 범위를 크게 확장하고 일반화 오류를 줄일 수 있습니다. 우리는 ..
2025.02.07 -
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding IDEA Research Team Abstract이 논문에서는 IDEA Research에서 개발한 통합 객체 중심 비전 모델인 DINO-X를 소개합니다, 이 모델은 현재까지 최고의 오픈 월드 객체 탐지 성능을 자랑합니다. DINO-X는 Grounding DINO 1.5 [47]와 동일한 트랜스포머 기반 인코더-디코더 아키텍처를 사용하여 오픈 월드 객체 이해를 위한 객체 수준 표현을 추구합니다. 긴 꼬리 객체 탐지를 쉽게 하기 위해 DINO-X는 입력 옵션을 확장하여 텍스트 프롬프트, 시각 프롬프트, 맞춤형 프롬프트를 지원합니다. 이러한 유연한 프롬프트 옵션을 통..
2024.12.26 -
YOLOv11: An Overview of the Key Architectural Enhancements
YOLOv11: An Overview of the Key Architectural Enhancements Rahima Khanam, Muhammad Hussain Abstract이 연구는 YOLO (You Only Look Once) 객체 감지 모델 시리즈의 최신 버전인 YOLOv11의 아키텍처 분석을 제시합니다. 우리는 향상된 피쳐 추출과 같은 여러 방식으로 모델 성능을 개선하는 데 기여하는 C3k2 (Cross Stage Partial with kernel size 2) 블록, SPPF (Spatial Pyramid Pooling - Fast) 및 C2PSA (Convolutional block with Parallel Spatial Attention) 구성 요소의 도입을 포함한 모델 아키텍처 혁신을..
2024.11.27 -
Fast Segment Anything
Fast Segment Anything Xu Zhao, Wenchao Ding, Yongqi An, Yinglong Du, Tao Yu, Min Li, Ming Tang, Jinqiao Wang Abstract최근 제안된 segment anything model (SAM)은 많은 컴퓨터 비전 작업에서 상당한 영향을 미치고 있습니다. 이미지 세그멘테이션, 이미지 캡션, 이미지 편집과 같은 많은 하이 레벨 작업의 파운데이션 단계가 되고 있습니다. 그러나 막대한 계산 비용으로 인해 업계 시나리오에서 더 넓은 응용을 할 수 없습니다. 계산은 주로 고해상도 입력에서 트랜스포머 아키텍처에서 이루어집니다. 본 논문에서는 비슷한 성능을 가진 이 기본 작업에 대한 속도 향상 대안 방법을 제안합니다. 작업을 세그먼트 생성..
2024.11.07