YOLOv12: Attention-Centric Real-Time Object Detectors

2025. 2. 24. 11:44Deep Learning

YOLOv12: Attention-Centric Real-Time Object Detectors

 

Yunjie Tian, Qixiang Ye, David Doermann

 

Abstract

YOLO 프레임워크의 네트워크 아키텍처를 향상시키는 것은 오랫동안 중요했지만, 모델링 능력에서 어텐션 메커니즘의 우수성이 입증되었음에도 불구하고 CNN 기반 개선에 집중해 왔습니다.

이는 어넽션 기반 모델이 CNN 기반 모델의 속도와 일치할 수 없기 때문입니다.

본 논문에서는 어텐션 메커니즘의 성능 이점을 활용하면서 이전 CNN 기반 모델의 속도와 일치하는 어텐션 중심 YOLO 프레임워크, 즉 YOLOv12를 제안합니다.

 

YOLOv12는 경쟁 속도로 모든 인기 있는 실시간 객체 검출기를 능가합니다.

예를 들어, YOLOv12-N은 T4 GPU에서 추론 지연 시간이 1.64ms인 40.6% mAP를 달성하여, 유사한 속도로 고급 YOLOv10-N / YOLOv11-N을 2.1%/1.2% mAP 초과 달성했습니다.

이러한 장점은 다른 모델 규모로도 확장됩니다.

YOLOv12는 RT-DETR / RTDETRv2와 같이 DETR을 개선하는 종단 간 실시간 검출기를 능가합니다: YOLOv12-S는 계산의 36%와 매개변수의 45%만을 사용하여 42% 더 빠르게 실행하면서 RT-DETR-R18 / RT-DETRv2- R18을 능가합니다.

더 많은 비교는 그림 1에 나와 있습니다.

그림 1. 지연 시간-정확도(왼쪽) 및 FLOPs-정확도(오른쪽) 트레이드오프 측면에서 다른 인기 있는 방법들과의 비교.

 

 

1. Introduction

실시간 객체 감지는 상당한 실용성을 제공하는 저지연 특성으로 인해 지속적으로 큰 주목을 받아왔습니다 [4, 17, 24, 28].

그 중에서 YOLO 시리즈 [3, 24, 28, 29, 32, 45–47, 53, 57, 58]는 지연 시간과 정확성 사이의 최적의 균형을 효과적으로 확립하여 이 분야를 지배하고 있습니다.

YOLO의 개선은 loss 함수 [8, 35, 43, 44, 48, 67, 68], 라벨 할당 [22, 23, 34, 59, 69]과 같은 분야에 초점을 맞추고 있지만, 네트워크 아키텍처 설계는 여전히 중요한 연구 우선순위로 남아 있습니다 [24, 28, 32, 57, 58].

어텐션 중심 비전 트랜스포머(ViT) 아키텍처는 소형 모델 [20, 21, 25, 50]에서도 더 강력한 모델링 능력을 가지고 있는 것으로 입증되었지만, 대부분의 아키텍처 설계는 여전히 CNN에 주로 초점을 맞추고 있습니다.

 

이 상황의 주요 원인은 두 가지 주요 요인으로 인해 발생하는 어텐션 메커니즘의 비효율성에 있습니다: 어텐션 메커니즘의 이차 계산 복잡성과 비효율적인 메모리 접근 연산 (후자는 FlashAttention [13, 14]에서 주요 문제로 다루어짐).

그 결과, 유사한 계산 예산 하에서 CNN 기반 아키텍처는 어텐션 기반 아키텍처보다 약 3배 더 우수한 성능을 보이며, 이는 높은 추론 속도가 중요한 YOLO 시스템에서 어텐션 메커니즘의 채택을 크게 제한합니다. 

 

이 논문은 이러한 문제를 해결하고 어텐션 중심의 YOLO 프레임워크인 YOLOv12를 더욱 구축하는 것을 목표로 합니다.

우리는 세 가지 주요 개선 사항을 소개합니다.
먼저, 우리는 간단한 방법으로 어텐션의 계산 복잡성을 줄이면서도 넓은 수용 필드를 유지하여 속도를 향상시키는 간단하면서도 효율적인 영역 어텐션 모듈(A2)을 제안합니다.
둘째, 어텐션 (주로 대규모 모델)으로 인해 발생하는 최적화 문제를 해결하기 위해 residual efficient layer aggregation networks (R-ELAN)를 도입합니다.
R-ELAN은 원래 ELAN [57]을 기반으로 두 가지 개선 사항을 소개합니다: (i) 스케일링 기법을 사용한 블록 수준 잔차 설계 및 (ii) 재설계된 피쳐 집계 방법.
셋째, 우리는 YOLO 시스템에 맞추기 위해 vanilla 어텐션을 넘어서는 몇 가지 아키텍처 개선을 합니다.
우리는 다음과 같은 전통적인 어텐션 중심 아키텍처를 업그레이드합니다: FlashAttention을 도입하여 어텐션의 메모리 접근 문제를 해결하고, 위치 인코딩과 같은 설계를 제거하여 모델을 빠르고 깨끗하게 만들고, 어텐션 네트워크와 피드포워드 네트워크 간의 계산 균형을 맞추기 위해 MLP 비율을 4에서 1.2로 조정하여 성능을 향상시키고, 스택된 블록의 깊이를 줄여 최적화를 용이하게 하며, 컨볼루션 연산자를 최대한 활용하여 계산 효율성을 높입니다.

 

위에서 설명한 설계를 바탕으로 5가지 모델 스케일을 갖춘 새로운 실시간 검출기 제품군을 개발했습니다: YOLOv12-N, S, M, L, 및 X.
우리는 YOLOv11 [28] 이후 표준 객체 탐지 벤치마크에 대해 추가적인 트릭 없이 광범위한 실험을 수행했으며, 그림 1에 나타난 바와 같이 YOLOv12가 이전의 인기 모델들보다 지연 시간-정확도 및 FLOPs-정확도 트레이드오프 측면에서 상당한 개선을 제공한다는 것을 입증했습니다.
예를 들어, YOLOv12-N은 40.6% mAP를 달성하여 더 빠른 추론 속도를 유지하면서 YOLOv10-N [53]을 2.1% mAP 초과하고, YOLOv11-N [28]은 비슷한 속도로 1.2% mAP 초과합니다.
이 장점은 다른 규모의 모델에서도 일관되게 유지됩니다.
RT-DETR-R18 [66] / RT-DETrv2-R18 [40]과 비교했을 때, YOLOv12-S는 1.5%/0.1% mAP 더 나은 성능을 보이며, 지연 속도는 42%/42% 더 빠르다고 보고되었습니다, 이는 계산의 36%/36%와 매개변수의 45%/45%만을 필요로 합니다.

 

요약하자면, YOLOv12의 기여는 두 가지입니다:
1) 이는 방법론적 혁신과 아키텍처 개선을 통해 YOLO 시리즈에서 CNN 모델의 우위를 깨는 어텐션 중심의 간단하면서도 효율적인 YOLO 프레임워크를 구축합니다.
2) YOLOv12는 사전 학습과 같은 추가 기술에 의존하지 않고도 빠른 추론 속도와 높은 탐지 정확도로 SOTA 결과를 달성하여 잠재력을 입증합니다.

 

 

 

2. Related Work

Real-time Object Detectors.

실시간 물체 감지기는 상당한 실용적 가치로 인해 커뮤니티의 주목을 꾸준히 받아왔습니다.
YOLO 시리즈 [3, 9, 24, 28, 29, 32, 45–47, 53, 54, 57, 58]는 실시간 객체 감지를 위한 선도적인 프레임워크로 부상했습니다.
초기 YOLO 시스템 [45–47]은 주로 모델 설계 관점에서 YOLO 시리즈의 프레임워크를 확립합니다.
YOLOv4 [3] 및 YOLOv5 [29]는 프레임워크에 CSPNet [55], 데이터 증강 및 여러 기능 스케일을 추가합니다.
YOLOv6 [32]는 앵커 보조 훈련과 함께 백본과 목을 위한 BiC 및 SimCSPSPPF 모듈을 통해 이러한 기능을 더욱 발전시켰습니다.
YOLOv7 [57]은 향상된 그래디언트 플로우와 다양한 bag-of-freebies을 위해 EELAN [56] (efficient layer aggregation networks)을 도입하고, YOLOv8 [24]은 향상된 피쳐 추출을 위해 효율적인 C2f 블록을 통합합니다.
최근 버전에서는 YOLOv9 [58]이 아키텍처 최적화를 위해 GELAN을 도입하고 학습 개선을 위해 PGI를 도입한 반면, YOLOv10 [53]은 효율성 향상을 위해 이중 할당을 통해 NMS 없는 학습을 적용합니다.

YOLOv11 [28]은 감지 헤드에 C3K2 모듈(GELAN [58]의 사양)과 경량 뎁스별 분리 가능한 컨볼루션을 채택하여 지연 시간을 줄이고 정확도를 높입니다.
최근에는 효율적인 인코더와 불확실성 최소 쿼리 선택 메커니즘을 설계하여 전통적인 종단 간 객체 탐지 방법인 RT-DETR [66]이 실시간 요구 사항을 충족하도록 개선되었습니다 [7, 33, 37, 42, 71].
RT-DETrv2 [40]는 bag-of-freebies로 더욱 향상시킵니다.
이전의 YOLO 시리즈와 달리, 본 연구는 어텐션 메커니즘의 우수성을 활용하기 위해 어텐션을 중심으로 한 YOLO 프레임워크를 구축하는 것을 목표로 합니다.

 

Efficient Vision Transformers.

비전 트랜스포머를 다운스트림 작업에 효과적으로 적용하려면 전역 셀프 어텐션으로 인한 계산 비용을 줄이는 것이 매우 중요합니다.
PVT [61]은 멀티-해상도 단계와 다운샘플링 피쳐를 사용하여 이 문제를 해결합니다.
Swin Transformer [39]는 로컬 윈도우에 대한 셀프 어텐션을 제한하고 겹치지 않는 윈도우를 연결하기 위해 윈도우 분할 스타일을 조정하여 통신 요구 사항과 메모리 및 계산 요구 사항의 균형을 맞춥니다.
axial self-attention [26] 및 criss-cross attention [27]와 같은 다른 방법들은 수평 및 수직 윈도우 내에서 어텐션을 계산합니다.
CSWin transformer [16]는 가로 및 세로 줄무늬를 따라 평행하게 어텐션을 계산하는 십자형 윈도우 셀프 어텐션을 도입하여 이를 기반으로 합니다.
또한, [12, 64]와 같은 작업에서 로컬-전역 관계가 형성되어 전역 셀프 어텐션에 대한 의존도를 줄임으로써 효율성을 향상시킵니다.
Fast-iTPN [50]은 토큰 마이그레이션 및 토큰 수집 메커니즘을 통해 다운스트림 작업 추론 속도를 향상시킵니다.
일부 접근 방식 [31, 49, 60, 62]은 어텐션의 복잡성을 줄이기 위해 선형 어텐션을 사용합니다.
Mamba-based vision models [38, 70]은 선형 복잡성을 목표로 하지만 여전히 실시간 속도에는 미치지 못합니다 [38].
FlashAttention [13, 14]은 비효율적인 어텐션 계산을 초래하는 고대역폭 메모리 병목 현상을 식별하고 I/O 최적화를 통해 이를 해결하여 메모리 접근성을 줄여 계산 효율성을 향상시킵니다.
이 연구에서는 복잡한 디자인을 버리고 어텐션의 복잡성을 줄이기 위한 간단한 영역 어텐션 메커니즘을 제안합니다.
또한, 우리는 어텐션 메커니즘의 고유한 메모리 접근 문제를 극복하기 위해 FlashAttention을 사용합니다 [13, 14].

 

 

 

3. Approach

이 섹션에서는 어텐션 메커니즘을 갖춘 네트워크 아키텍처 관점에서 YOLO 프레임워크의 혁신인 YOLOv12를 소개합니다.

 

3.1. Efficiency Analysis

어텐션 메커니즘은 전역 의존성을 포착하고 자연어 처리 [5, 15] 및 컴퓨터 비전 [19, 39]과 같은 작업을 촉진하는 데 매우 효과적이지만, 본질적으로 convolution neural networks (CNN)보다 느립니다.

이 속도 차이에는 두 가지 주요 요인이 기여합니다.

 

Complexity.

먼저, 셀프 어텐션 연산의 계산 복잡도는 입력 시퀀스 길이 L에 따라 이차적으로 증가합니다.
구체적으로, 길이가 L이고 피쳐 차원이 d인 입력 시퀀스의 경우, 각 토큰이 다른 모든 토큰에 대해 어텐션 행렬을 계산하기 위해 O(L^2 d) 연산이 필요합니다.
대조적으로, CNN에서 컨볼루션 연산의 복잡성은 공간적 또는 시간적 차원, 즉 O(kLd)에 대해 선형적으로 확장됩니다, 여기서 k는 커널 크기이며 일반적으로 L보다 훨씬 작습니다.
그 결과, 특히 고해상도 이미지나 긴 시퀀스와 같은 큰 입력에 대해 셀프 어텐션이 계산적으로 금지됩니다.

 

또한, 또 다른 중요한 요소는 대부분의 어텐션 기반 비전 트랜스포머가 복잡한 설계 (예: Swin transformer [39]에서 윈도우 분할/역변환)와 추가 모듈 (예: 위치 인코딩)의 도입으로 인해 점차 속도 오버헤드가 누적되어 CNN 아키텍처 [38]에 비해 전반적으로 느린 속도를 보인다는 점입니다.
이 논문에서는 설계 모듈이 어텐션을 구현하기 위해 간단하고 깨끗한 작업을 활용하여 효율성을 최대한 보장합니다.

 

Computation.

둘째, 어텐션 계산 과정에서 메모리 접근 패턴은 CNN에 비해 효율성이 떨어집니다 [13, 14].
구체적으로, 셀프 어텐션 중에는 어텐션 맵 (QK^T)과 소프트맥스 맵 (L × L)과 같은 중간 맵을 고속 GPU SRAM (계산의 실제 위치)에서 고대역폭 GPU 메모리 (HBM)로 저장하고 나중에 계산 중에 검색해야 하며, 전자의 읽기 및 쓰기 속도는 후자의 읽기 및 쓰기 속도보다 10배 이상 빨라 메모리가 오버헤드에 크게 접근하고 월-클럭 시간이 증가합니다.
또한, 불규칙한 메모리 접근 패턴은 구조화되고 로컬화된 메모리 접근을 활용하는 CNN에 비해 지연 시간이 더 길어집니다.
CNN은 공간적으로 제한된 커널의 이점을 활용하여 고정된 수신 필드와 슬라이딩 윈도우 연산으로 인해 효율적인 메모리 캐싱과 지연 시간을 줄일 수 있습니다.

 

이 두 가지 요소, 즉 이차 계산 복잡성과 비효율적인 메모리 접근은 특히 실시간 또는 자원 제약 시나리오에서 어텐션 메커니즘을 CNN보다 느리게 만듭니다.
이러한 한계를 해결하는 것은 중요한 연구 분야가 되었으며, 희소 어텐션 메커니즘과 메모리 효율적인 근사치 (예: Linformer [60] 또는 Performer [11])와 같은 접근 방식이 이차 스케일링을 완화하는 것을 목표로 하고 있습니다.

 

3.2. Area Attention

vanilla 어텐션의 계산 비용을 줄이기 위한 간단한 접근 방식은 선형 어텐션 메커니즘을 사용하는 것입니다 [49, 60], 이는 vanilla 어텐션의 복잡성을 이차에서 선형으로 줄이는 것입니다.
차원이 (n, h, d)인 시각적 피쳐 f의 경우, 여기서 n은 토큰의 수, h는 헤드의 수, d는 헤드의 크기입니다, 선형 어텐션은 2n^2hd에서 2nhd^2로 복잡성을 줄여 n > d 이후의 계산 비용을 줄입니다.
그러나 선형 어텐션은 전역 의존성 저하 [30], 불안정성 [11], 분포 민감도 [63]로 인해 어려움을 겪습니다.
또한, 낮은 랭크 병목 현상 [2, 10] 때문에 입력 해상도가 640 × 640인 YOLO에 적용될 때 제한된 속도 이점만 제공합니다.

그림 2. 대표적인 로컬 어텐션 메커니즘과 영역 어텐션의 비교. 영역 어텐션은 피쳐 맵을 수직 또는 수평으로 l개의 영역으로 나누는 가장 간단한 균등 분할 방식을 채택합니다 (기본값은 4). 이렇게 하면 복잡한 작업을 피하면서도 넓은 수용 필드를 보장하여 높은 효율성을 얻을 수 있습니다.

복잡성을 효과적으로 줄이기 위한 대안적인 접근 방식은 그림 2와 같이 로컬 어텐션 메커니즘 (예: Shift window [39], criss-cross attention [27], 및 axial attention [16])입니다, 이 메커니즘은 전역 어텐션을 로컬로 변환하여 계산 비용을 절감합니다.
그러나 피쳐 맵을 윈도우로 분할하면 오버헤드가 발생하거나 수신 필드가 줄어들어 속도와 정확도에 모두 영향을 미칠 수 있습니다.
이 연구에서는 간단하면서도 효율적인 영역 어텐션 모듈을 제안합니다.
그림 2에 나타난 바와 같이, 해상도가 (H,W)인 피쳐 맵은 크기가 (H/l,W) 또는 (H,W/l)인 l개의 세그먼트로 나뉩니다.

이렇게 하면 명시적인 윈도우 분할이 제거되어 간단한 재구성 작업만 필요하므로 더 빠른 속도를 달성할 수 있습니다.
경험적으로 l의 기본값을 4로 설정하여 수신 필드를 원본의 1/4로 줄였지만 여전히 큰 수신 필드를 유지합니다.
이 접근 방식을 사용하면 어텐션 메커니즘의 계산 비용이 2n^2hd에서 1/2n^2hd로 줄어듭니다.
우리는 n^2의 복잡성에도 불구하고, n이 640으로 고정될 때 (입력 해상도가 증가하면 n이 증가함) YOLO 시스템의 실시간 요구 사항을 충족할 만큼 여전히 효율적임을 보여줍니다.
흥미롭게도, 우리는 이 수정이 성능에 약간의 영향만 미치지만 속도를 크게 향상시킨다는 것을 발견했습니다.

그림 3. (a): CSPNet [55], (b) ELAN [56], (c) C3K2 (GELAN 사례) [28, 58], (d) 제안된 R-ELAN (residual efficient layer aggregation networks)을 포함한 인기 모듈과의 아키텍처 비교.

3.3. Residual Efficient Layer Aggregation Networks

Efficient layer aggregation networks (ELAN)[57]는 피쳐 집계를 개선하도록 설계되었습니다.
그림 3 (b)에 나타난 바와 같이, ELAN은 전이 레이어의 출력을 분할하고 (1 × 1 컨볼루션), 여러 모듈을 통해 하나의 분할을 처리한 다음 모든 출력을 concat하고, 다른 전이 레이어 (1 × 1 컨볼루션)를 적용하여 차원을 정렬합니다.
그러나 [57]에 의해 분석된 바와 같이, 이 아키텍처는 불안정성을 초래할 수 있습니다.
우리는 이러한 설계가 그래디언트 차단을 초래하고 입력에서 출력으로의 잔여 연결이 부족하다고 주장합니다.
또한 어텐션 메커니즘을 중심으로 네트워크를 구축하여 추가적인 최적화 과제를 제시합니다.
경험적으로, L- 및 X-스케일 모델은 Adam 또는 AdamW 최적화 도구를 사용하더라도 수렴하지 못하거나 불안정하게 유지됩니다.

 

이 문제를 해결하기 위해, 우리는 residual efficient layer aggregation networks (R-ELAN)인 그림 3 (d)을 제안합니다.
대조적으로, 우리는 블록 전체에 걸쳐 입력에서 출력으로의 잔여 지름길을 도입합니다 (기본값은 0.01입니다).
이 디자인은 딥 비전 트랜스포머를 구축하기 위해 도입된 레이어 스케일링 [52]과 유사합니다.
그러나 각 영역 어텐션에 레이어 스케일링을 적용해도 최적화 문제를 극복하지 못하고 지연 시간이 느려집니다.
이는 어텐션 메커니즘의 도입이 수렴의 유일한 이유가 아니라 우리의 R-ELAN 설계의 근거를 검증하는 ELAN 아키텍처 자체임을 보여줍니다.

 

우리는 또한 그림 3 (d)와 같이 새로운 집계 접근 방식을 설계합니다.
원래 ELAN 레이어는 모듈의 입력을 먼저 전이 레이어를 통과시킨 다음 두 부분으로 나누어 처리합니다.
한 부분은 후속 블록에 의해 추가로 처리되며, 마지막으로 두 부분을 concate하여 출력을 생성합니다.
대조적으로, 우리의 설계는 채널 크기를 조정하기 위해 전이 레이어를 적용하고 단일 피쳐 맵을 생성합니다.
이 피쳐 맵은 이후 블록을 통해 처리된 후 concat되어 병목 구조를 형성합니다.
이 접근 방식은 원래 피쳐 통합 기능을 유지할 뿐만 아니라 계산 비용과 매개변수/메모리 사용량을 모두 줄여줍니다.

 

3.4. Architectural Improvements

이 섹션에서는 전체 아키텍처와 vanilla 어텐션 메커니즘에 비해 몇 가지 개선 사항을 소개합니다.
그들 중 일부는 처음에 우리가 제안한 것이 아닙니다.

 

많은 어텐션 중심 비전 트랜스포머는 일반적인 스타일의 아키텍처 [1, 18, 19, 21, 25, 51]로 설계되었으며, 이전 YOLO 시스템 [3, 24, 28, 29, 32, 45–47, 53, 57, 58]의 계층적 설계를 유지하고 이 필요성을 입증할 것입니다.
우리는 최근 버전 [24, 28, 53, 58]에 있는 백본의 마지막 단계에서 세 블록을 쌓는 디자인을 제거합니다.
대신, 우리는 단일 R-ELAN 블록만 유지하여 전체 블록 수를 줄이고 최적화에 기여합니다.
우리는 YOLOv11 [28]로부터 백본의 처음 두 단계를 상속받았으며, 제안된 R-ELAN을 사용하지 않습니다.

 

또한, 우리는 YOLO 시스템에 더 잘 맞도록 vanilla 어텐션 메커니즘의 여러 기본 구성을 수정합니다.
이러한 수정 사항에는 더 나은 성능을 위해 계산 자원을 더 잘 할당하기 위해 MLP 비율을 4에서 1.2 (또는 N- / S- / M 스케일 모델의 경우 2)로 조정하는 것이 포함됩니다, 이를 위해 nn.Linear+LN 대신 nn.Conv2d+BN을 채택하여 컨볼루션 연산자의 효율성을 최대한 활용하고, 위치 인코딩을 제거하며, 큰 분리 가능한 컨볼루션 (7×7) (즉, 위치 인식기)을 도입하여 지역 어텐션이 위치 정보를 인식하도록 돕는 것이 포함됩니다.
이러한 수정의 효과는 섹션 4.5에서 검증될 것입니다.

 

 

 

4. Experiment

이 섹션은 네 부분으로 나뉩니다: 실험 설정, 인기 있는 방법과의 체계적인 비교, 우리의 접근 방식을 검증하기 위한 ablation 연구, 그리고 YOLOv12를 더 탐구하기 위한 시각화 분석.

 

4.1. Experimental Setup

제안된 방법을 MSCOCO 2017 데이터셋에서 검증했습니다 [36].

YOLOv12 계열에는 5가지 변형이 포함되어 있습니다: YOLOv12-N, YOLOv12-S, YOLOv12-M, YOLOv12-L, 및 YOLOv12-X.
모든 모델은 초기 학습률이 0.01인 SGD 옵티마이저를 사용하여 600 에포크 동안 학습되며, 이는 YOLOv11 [28]과 동일하게 유지됩니다.
우리는 선형 학습 속도 감소 일정을 채택하고 처음 3개의 에포크에 대해 선형 워밍업을 수행합니다.
[53, 66]의 접근 방식에 따라 모든 모델의 지연 시간은 TensorRT FP16이 탑재된 T4 GPU에서 테스트됩니다.

 

Baseline.

우리는 YOLOv11 [28]의 이전 버전을 베이스라인으로 선택합니다.
모델 확장 전략도 이와 일치합니다.

우리는 제안된 여러 C3K2 블록 (GELAN [58]의 특수한 경우)을 사용합니다.
우리는 YOLOv11 [28]을 넘어서는 더 이상의 트릭을 사용하지 않습니다.

표 1. 인기 있는 SOTA 실시간 객체 검출기와의 비교. 모든 결과는 640 × 640 입력을 사용하여 얻었습니다.

4.2. Comparison with State-of-the-arts

표 1에서 YOLOv12와 다른 인기 있는 실시간 검출기 간의 성능 비교를 제시합니다.

 

For N-scale models, YOLOv12-N은 mAP에서 YOLOv6-3.0-N [32], YOLOv8-N [58], YOLOv10-N [53] 및 YOLOv11 [28]을 각각 3.6%, 3.3%, 2.1%, 1.2% 능가하며, 유사하거나 더 적은 계산 및 매개변수를 유지하고 1.64ms/이미지의 빠른 지연 속도를 달성합니다.

 

For S-scale models, YOLOv12-S는 21.4G FLOPs와 930만 개의 파라미터를 사용하여 이미지 지연 시간 2.61ms로 48.0 mAP를 달성합니다.

YOLOv8-S [24], YOLOv9-S [58], YOLOv10-S [53] 및 YOLOv11-S [28]를 각각 3.0%, 1.2%, 1.7%, 1.1% 초과하면서도 유사하거나 적은 계산량을 유지합니다.
종단 간 검출기 RT-DETr-R18 [66] / RT-DETrv2-R18 [41]과 비교했을 때, YOLOv12-S는 훨씬 더 나은 추론 속도와 적은 계산 비용, 그리고 더 적은 매개변수로 뛰어난 성능을 달성합니다.

 

For M-scale models, 67.5G FLOP와 20.2M 매개변수를 갖춘 YOLOv12-M은 52.5mAP 성능과 4.86ms/이미지 속도를 달성합니다.
Gold-YOLO-M [54], YOLOv8-M [24], YOLOv9-M [58], YOLOv10 [53], YOLOv11 [28], 및 RT-DETR-R34 [66] / RT-DETRv2-R34 [40]에 비해 YOLOv12-M가 우수합니다.

 

For L-scale models, YOLOv12-L은 31.4G 적은 FLOP으로 YOLOv10-L [53]을 능가합니다.

YOLOv12-L은 유사한 FLOP 및 매개변수를 사용하여 YOLOv11 [28]을 0.4% mAP 차이로 능가합니다.
YOLOv12-L은 또한 더 빠른 속도, 더 적은 FLOP(34.6%) 및 더 적은 매개변수(37.1%)로 RTDERT-R50 [66] / RT-DERTv2-R50 [41]을 능가합니다.

 

For X-scale models, YOLOv12-X는 YOLOv10-X [53] / YOLOv11-X [28]을 비슷한 속도, FLOP 및 매개변수로 각각 0.8% 및 0.6% 크게 능가합니다.
YOLOv12-X는 더 빠른 속도, 더 적은 FLOP(23.4%) 및 더 적은 매개변수(22.2%)로 RT-DETr-R101 [66] / RT-DETrv2-R101 [40]을 다시 한 번 능가합니다.

 

특히, L-/X- 스케일 모델을 FP32 정밀도 (모델을 FP32 형식으로 별도로 저장해야 함)로 평가하면 YOLOv12는 약 0.2% mAP의 성능 향상을 달성할 것입니다.
이는 YOLOv12-L/X가 33.9%/55.4%의 mAP를 기록한다는 것을 의미합니다.

표 2. 제안된 residual efficient layer aggregation networks (R-ELAN)에서의 ablation. vanilla: 원래의 ELAN 설계를 사용합니다; Re-Aggre.: 제안된 피쳐 통합 방법을 사용합니다; Resi.: 잔여 블록 기법을 사용합니다; 스케일링: 잔여 연결의 스케일링 팩터.

4.3. Ablation Studies

 • R-ELAN.

표 2는 YOLOv12-N/L/X 모델을 사용하여 제안된 residual efficient layer networks (R-ELAN)의 효과를 평가합니다.
결과는 두 가지 주요 결과를 보여줍니다:

 (i) YOLOv12-N과 같은 소형 모델의 경우 잔여 연결은 수렴에 영향을 미치지 않지만 성능을 저하시킵니다.
반면에, 더 큰 모델 (YOLOv12-L/X)의 경우 안정적인 학습을 위해 필수적입니다.
특히 YOLOv12-X는 수렴을 보장하기 위해 최소 스케일링 계수(0.01)가 필요합니다.
 (ii) 제안된 피쳐 통합 방법은 FLOP 및 매개변수 측면에서 모델의 복잡성을 효과적으로 줄이면서도 약간의 감소만으로 비슷한 성능을 유지합니다.

표 3. 제안된 영역 어텐션에 대한 ablation. 영역 어텐션 (√)를 사용하면 YOLOv12-N/S/X 모델이 GPU (CUDA)와 CPU 모두에서 훨씬 더 빠르게 실행됩니다. CUDA 결과는 RTX 3080/A5000에서 측정됩니다. 추론 지연 시간: FP32 및 FP16 정밀도의 경우 milliseconds (ms)입니다. (모든 결과는 FlashAttention [13, 14]를 사용하지 않고도 얻어집니다.)

 • Area Attention.

우리는 영역 어텐션의 효과를 검증하기 위해 ablation 실험을 수행하며, 그 결과는 표 3에 제시되어 있습니다.
평가는 YOLOv12-N/S/X 모델에서 수행되며, GPU (CUDA)와 CPU 모두에서 추론 속도를 측정합니다.
CUDA 결과는 RTX 3080과 A5000을 사용하여 얻었으며, CPU 성능은 Intel Core i7-10700K @ 3.80GHz에서 측정되었습니다.
결과는 영역 주의(√)에 따라 상당한 속도 향상을 보여줍니다.
예를 들어, RTX 3080에서 FP32를 사용하면 YOLOv12-N은 추론 시간을 0.7ms 단축할 수 있습니다.
이러한 성능 향상은 다양한 모델과 하드웨어 구성에서 일관되게 관찰됩니다.
이 실험에서는 속도 차이를 크게 줄일 수 있기 때문에 FlashAttention [13, 14]을 사용하지 않습니다.

표 4. 다양한 GPU (RTX 3080, RTX A5000, RTX A6000) 간의 추론 속도 비교 분석. 추론 지연 시간: FP32 및 FP16 정밀도를 위한 milliseconds (ms).

4.4. Speed Comparison

표 4는 FP32 및 FP16 정밀도를 사용하여 RTX 3080, RTX A5000, RTX A6000에서 YOLOv9 [58], YOLOv10 [53], YOLOv11 [28] 및 YOLOv12를 평가한 다양한 GPU 간의 추론 속도 비교 분석을 제시합니다.
일관성을 보장하기 위해 모든 결과는 동일한 하드웨어에서 얻어지며, YOLOv9 [58]과 YOLOv10 [53]은 통합 초분석학 코드베이스를 사용하여 평가됩니다 [28].
결과에 따르면 YOLOv12는 YOLOv10 [53] 및 YOLOv11 [28]과 동등한 수준을 유지하면서 YOLOv9 [58]보다 훨씬 높은 추론 속도를 달성합니다.
예를 들어, RTX 3080에서 YOLOv9는 2.4ms (FP32)와 1.5ms (FP16)를 보고하는 반면, YOLOv12-N은 1.7ms (FP32)와 1.1ms (FP16)를 달성합니다.

유사한 추세는 다른 구성에서도 지속됩니다.

그림 4. CPU의 정확도 매개변수 (왼쪽)와 정확도-지연 트레이드오프 (오른쪽) 측면에서 인기 있는 방법들과의 비교.

그림 4는 추가 비교를 보여줍니다.
왼쪽 하위 그림은 인기 있는 방법들과의 정확도-매개변수 절충 비교를 보여줍니다, 여기서 YOLOv12는 다른 방법들보다 우세한 경계를 설정하며, 훨씬 적은 매개변수로 특징지어지는 YOLOv10인 YOLOv10을 능가합니다, 이는 YOLOv12의 효능을 보여줍니다.
오른쪽 하위 그림의 CPU에서 YOLOv12의 추론 지연 시간을 이전 YOLO 버전과 비교합니다 (모든 결과는 Intel Core i7-10700K @ 3.80GHz에서 측정되었습니다).
보시다시피 YOLOv12는 더 유리한 경계로 다른 경쟁사를 능가하며 다양한 하드웨어 플랫폼에서 효율성을 강조합니다.

표 5. 진단 연구. 공간을 절약하기 위해 각 하위 테이블에서 진단할 요소만 보여줍니다. 기본 매개변수는 (별도로 명시되지 않는 한)입니다: YOLOv12-N 모델을 사용하여 처음부터 600 에폭 동안 학습합니다.

4.5. Diagnosis & Visualization

우리는 표 5a에서 5h까지 YOLOv12 설계를 진단합니다.
달리 명시되지 않는 한, 우리는 YOLOv12-N에 대해 이러한 진단을 수행하며, 기본적으로 600 에포크의 학습을 처음부터 수행합니다.

 

 • Attention Implementation: Table 5a.

어텐션을 구현하기 위한 두 가지 접근 방식을 살펴봅니다.
컨볼루션 기반 접근 방식은 컨볼루션의 계산 효율성 때문에 선형 기반 접근 방식보다 빠릅니다.
또한, 우리는 두 가지 정규화 방법 (layer normalization (LN)과 batch normalization (BN))을 탐구하고 그 결과를 찾습니다:
레이어 정규화는 어텐션 메커니즘에서 일반적으로 사용되지만, 컨볼루션과 함께 사용하면 배치 정규화보다 성능이 떨어집니다.
특히, 이것은 이미 PSA 모듈 [53]에서 사용되었으며, 우리의 발견은 그 설계와 일치합니다.

 

 • Hierarchical Design: Table 5b. 

일반 비전 트랜스포머의 아키텍처가 강력한 결과를 낼 수 있는 마스크 R-CNN [1, 25]과 같은 다른 탐지 시스템과 달리, YOLOv12는 다른 동작을 보입니다.
일반 비전 트랜스포머 (N/A)를 사용하면 검출기의 성능이 크게 떨어져 38.3% mAP에 그칩니다.

피쳐 차원을 조정하여 유사한 FLOP을 유지하면서 첫 번째 (S1) 또는 네 번째 단계 (S4)를 생략하는 등 더 중간 정도의 조정을 하면 각각 0.5% mAP와 0.8% mAP의 약간의 성능 저하가 발생합니다.
이전 YOLO 모델과 일관되게, 계층적 설계가 여전히 가장 효과적이며 YOLOv12에서 최고의 성능을 발휘합니다.

 

 • Training Epochs: Table 5c.

우리는 학습 에포크의 수를 변화시키는 것이 성과에 어떤 영향을 미치는지 조사합니다 (처음부터 학습하는 것).
일부 기존 YOLO 검출기는 약 500회의 학습 에포크 [24, 53, 58] 후에 최적의 결과를 얻지만, YOLOv12는 최대 성능을 달성하기 위해 더 긴 학습 기간(약 600 에포크)이 필요하며, YOLOv11 [28]에서 사용된 것과 동일한 구성을 유지해야 합니다.

 

 • Position Perceiver: Tables 5d.

어텐션 메커니즘에서는 큰 커널을 가진 분리 가능한 컨볼루션을 어텐션 값 v에 적용하여 출력을 v@attn에 추가합니다.
우리는 이 구성 요소를 위치 인식기라고 부릅니다, 이는 컨볼루션의 스무딩 효과가 이미지 픽셀의 원래 위치를 유지하기 때문에 어텐션 메커니즘이 위치 정보를 인식하는 데 도움이 됩니다 (이것은 이미 PSA 모듈 [53]에서 사용되었지만, 우리는 컨볼루션 커널을 확장하여 속도에 영향을 주지 않으면서 성능을 향상시킵니다).
표에서 볼 수 있듯이 컨볼루션 커널 크기를 늘리면 성능은 향상되지만 속도는 점차 감소합니다.
커널 크기가 9 × 9에 도달하면 속도가 크게 느려집니다.
따라서 7 × 7을 기본 커널 크기로 설정했습니다.

 

 • Position Embedding: Tables 5e.

우리는 대부분의 어텐션 기반 모델 (RPE: relative positional embedding; APE: absolute positional encoding)에서 일반적으로 사용되는 위치 임베딩이 성능에 미치는 영향을 조사합니다.
흥미롭게도 위치 임베딩 없이도 최고 성능의 구성을 달성하여 더 깨끗한 아키텍처와 더 빠른 추론 지연 시간을 제공합니다.

 

 • Area Attention: Tables 5f.

이 표에서는 기본적으로 FlashAttention 기법을 사용합니다.
이로 인해 영역 어텐션 메커니즘이 계산 복잡성을 증가시키는 반면 (성능 향상으로 이어짐), 그로 인한 속도 저하는 최소화됩니다.
영역 어텐션 효과에 대한 추가 검증은 표 3을 참조하십시오.

 

 • MLP Ratio: Tables 5g.

전통적인 비전 트랜스포머에서는 어텐션 모듈 내의 MLP 비율이 일반적으로 4.0으로 설정됩니다.
그러나 YOLOv12에서는 다른 행동이 관찰됩니다.
표에서 MLP 비율을 변경하면 모델 크기에 영향을 미치므로 전체 모델 일관성을 유지하기 위해 피쳐 차원을 조정합니다.
특히 YOLOv12는 기존 관행과 달리 MLP 비율이 1.2로 더 나은 성능을 달성합니다.
이 조정은 컴퓨팅 부하를 어텐션 메커니즘으로 더 많이 이동시켜 영역 어텐션의 중요성을 강조합니다.

 

 • FlashAttention: Tables 5h.

이 표는 YOLOv12에서 FlashAttention의 역할을 검증합니다.
FlashAttention은 다른 비용 없이 YOLOv12-N을 약 0.3ms, YOLOv12-S를 약 0.4ms 가속화하는 것으로 나타났습니다.

그림 5. YOLOv10 [53], YOLOv11 [28], 제안된 YOLOv12 간의 히트 맵 비교. 고급 YOLOv10 및 YOLOv11과 비교했을 때, YOLOv12는 이미지 내 객체에 대한 더 명확한 인식을 보여줍니다. 모든 결과는 X-스케일 모델을 사용하여 얻어집니다.

Visualization: Heat Map Comparison.

그림 5는 YOLOv12의 히트맵을 최신 YOLOv10 [53] 및 YOLOv11 [28]과 비교한 것입니다.
X-스케일 모델의 백본 세 번째 단계에서 추출한 이 히트맵은 모델이 활성화한 영역을 강조하여 객체 인식 능력을 반영합니다.
그림에서 볼 수 있듯이 YOLOv10 및 YOLOv11에 비해 YOLOv12는 더 명확한 객체 윤곽과 더 정밀한 전경 활성화를 생성하여 인식이 개선되었음을 나타냅니다.
우리의 설명에 따르면, 이러한 개선은 컨볼루션 네트워크보다 수용 필드가 더 넓기 때문에 전체 컨텍스트를 더 잘 포착할 수 있는 것으로 간주되어 더 정밀한 전경 활성화를 이끌어내는 영역 어텐션 메커니즘에서 비롯됩니다.
우리는 이 특성이 YOLOv12에게 성능 우위를 제공한다고 믿습니다.

 

 

 

5. Conclusion

이 연구는 전통적으로 실시간 요구 사항에 비효율적인 것으로 간주되는 어텐션 중심 설계를 성공적으로 채택하여 SOTA 지연 시간-정확도 절충안을 달성한 YOLOv12를 YOLO 프레임워크에 도입합니다.
효율적인 추론을 가능하게 하기 위해, 우리는 계산 복잡성을 줄이기 위해 영역 어텐션을 활용하고 피쳐 집계를 향상시키기 위해 residual efficient layer aggregation networks (R-ELAN)를 사용하는 새로운 네트워크를 제안합니다.
또한, 고속 성능을 유지하면서 YOLO의 실시간 제약 조건에 더 잘 맞추기 위해 vanilla 어텐션 메커니즘의 주요 구성 요소를 정제합니다.
그 결과, YOLOv12는 영역 어텐션, R-ELAN 및 아키텍처 최적화를 효과적으로 결합하여 SOTA 성능을 달성하여 정확도와 효율성을 모두 크게 향상시켰습니다.
포괄적인 ablation 연구는 이러한 혁신의 효과를 더욱 입증합니다.
이 연구는 YOLO 시스템에서 CNN 기반 설계의 지배력에 도전하고 실시간 객체 감지를 위한 어텐션 메커니즘의 통합을 발전시켜 보다 효율적이고 강력한 YOLO 시스템의 길을 열어줍니다.