YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection

2026. 2. 9. 10:22Deep Learning

YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection

 

Ranjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee

 

Abstract

이 연구는 Ultralytics YOLO26의 주요 아키텍처 개선 사항과 실시간 엣지 객체 감지를 위한 성능 벤치마킹을 강조하는 종합적인 분석을 제시합니다.
2025년 9월에 출시된 YOLO26은 엣지 및 저전력 장치에서 효율성, 정확성, 배포 준비 상태를 제공하기 위해 특별히 설계된 YOLO 제품군 중 가장 최신의 제품입니다.
이 논문은 Distribution Focal Loss (DFL) 제거, 종단 간 NMS 없는 추론 채택, ProgLoss 및 Small-Target-Aware Label Assignment (SAL) 통합, 안정적인 수렴을 위한 MuSGD 옵티마이저 도입 등 YOLO26의 아키텍처 혁신을 순차적으로 자세히 설명합니다.
아키텍처 외에도, 이 연구는 YOLO26을 객체 감지, 인스턴스 세그멘테이션, 포즈/키포인트 추정, 방향 탐지 및 분류를 지원하는 다중 작업 프레임워크로 포지셔닝합니다.
우리는 NVIDIA Jetson Nano 및 Orin과 같은 엣지 디바이스에서 YOLO26의 성능 벤치마크를 제시하며, 그 결과를 YOLOv8, YOLOv11, YOLOv12, YOLOv13 및 트랜스포머 기반 검출기와 비교합니다.
이 논문은 실시간 배포 경로, 유연한 내보내기 옵션 (ONNX, TensorRT, CoreML, TFLite), 그리고 INT8/FP16의 양자화에 대해 더 탐구합니다.
로봇 공학, 제조 및 IoT 전반에 걸친 YOLO26의 실용적인 사용 사례를 강조하여 산업 간 적응력을 입증합니다.
마지막으로 배포 효율성에 대한 인사이트와 더 넓은 의미에 대해 논의하며, YOLO26과 YOLO 계보에 대한 향후 방향을 제시합니다.

 

 

 

1   Introduction

객체 감지는 컴퓨터 비전에서 가장 중요한 작업 중 하나로 부상했으며, 이를 통해 기계가 이미지 또는 비디오 스트림 내에서 여러 객체를 위치 파악하고 분류할 수 있게 되었습니다 [1, 2].
자율 주행과 로봇 공학에서 감시, 의료 영상, 농업, 스마트 제조에 이르기까지 실시간 객체 감지 알고리즘은 artificial intelligence (AI) 애플리케이션의 중추 역할을 합니다 [3, 4].
이러한 알고리즘 중에서 You Only Look Once (YOLO) 계열은 정확도와 전례 없는 추론 속도를 결합하여 실시간 객체 감지를 위한 가장 영향력 있는 모델 시리즈로 자리매김했습니다 [5, 6, 7, 7].
2016년에 도입된 이후, YOLO는 신경망 설계, loss 함수 및 배포 효율성의 최첨단 발전을 통합하면서 이전 모델의 한계를 해결하는 수많은 아키텍처 개정을 통해 발전해 왔습니다 [5].

그림 1: NVIDIA T4 GPU에서 TensorRT FP16 기반 YOLO26의 성능 비교. (a) COCO mAP(50–95)와 추론 지연 시간 (ms/image)을 비교한 결과, YOLO26을 이전 YOLO 버전 및 기타 실시간 검출기와 비교하여 향상된 정확도와 속도의 균형을 강조했습니다. (b) COCO mAP(50–95)와 종단 간 지연 시간을 비교한 결과, YOLO26과 YOLOv10 및 RT-DETR 변형을 비교하여 전체 파이프라인 효율성에서 우위를 보였습니다.

2025년 9월에 출시된 YOLO26은 점진적인 아키텍처 복잡성에서 배포 지향적인 단순화로 디자인의 초점을 전환하는 YOLO 계보의 새로운 이정표입니다—특히 간소화된 회귀, 종단 간 예측 동작, 새로운 최적화를 통해 가능한 학습 시간 개선을 통해 더욱 주목할 만합니다.
이 엣지 우선 철학은 그림 1a에 나타난 비교 정확도-지연 경향에 반영되어 있으며, Ultralytics는 YOLO26의 COCO mAP(50-95)와 지연 성능 (T4, TensorRT10, FP16)을 다양한 이전 YOLO 변형 (YOLO11, YOLOv10, YOLOv9, YOLOv8, YOLOv7, YOLOv6-3.0, YOLOv5) 및 경쟁 실시간 검출기 (PP-YOLO+, DAMO-YOLO, RTMdet)에 대해 보고합니다.
이를 보완하여 그림 1b는 YOLO26을 동일한 COCO mAP(50-95) 대 종단 간 지연 축에서 트랜스포머 스타일의 실시간 베이스라인 (YOLOv10 및 RT-DETR 계열)을 기준으로 배치하여, YOLO26이 전체 파이프라인 지연을 줄이면서 높은 탐지 품질을 유지하는 것을 목표로 하고 있음을 강조합니다, 이는 저전력 및 지연 시간 민감 에지 장치에 특히 관련된 트레이드오프입니다.

표 1: YOLOv1에서 YOLOv13 및 YOLOv26 모델 요약: 출시 연도, 아키텍처, 혁신, 프레임워크

표 1은 버전 YOLOv1부터 YOLOv13 및 YOLO26까지의 YOLO 모델을 자세히 비교하여 출시 연도, 주요 아키텍처 혁신, 성능 향상 및 개발 프레임워크를 강조합니다.

 

YOLO 프레임워크는 2016년 Joseph Redmon과 동료들에 의해 처음 제안되었으며, 객체 감지의 패러다임 전환을 도입했습니다[8].
R-CNN [18] 및 Faster R-CNN [19]과 같은 전통적인 2단계 검출기가 지역 제안을 분류에서 분리한 것과 달리, YOLO는 검출을 단일 회귀 문제로 공식화했습니다 [20].
convolutional neural network (CNN)을 통해 한 번의 전진 패스로 바운딩 박스와 클래스 확률을 직접 예측함으로써 YOLO는 경쟁 정확도를 유지하면서 실시간 속도를 달성했습니다 [21, 20].
이러한 효율성 덕분에 YOLOv1은 로봇 공학, 자율 주행, 라이브 비디오 분석 등 지연 시간이 중요한 애플리케이션에 매우 매력적으로 다가왔습니다.
후속 버전인 YOLOv2 (2017) [9]와 YOLOv3 (2018) [10]은 실시간 성능을 유지하면서 정확도를 크게 향상시켰습니다.
YOLOv2는 배치 정규화, 앵커 박스 및 멀티스케일 학습을 도입하여 다양한 객체 크기에 걸쳐 견고성을 높였습니다.
YOLOv3는 Darknet-53을 기반으로 한 더 깊은 아키텍처와 멀티스케일 피쳐 맵을 활용하여 더 나은 소형 객체 감지를 제공했습니다.
이러한 개선 사항으로 인해 YOLOv3는 몇 년 동안 학술 및 산업 응용 분야의 사실상 표준이 되었습니다 [22, 5, 23].

 

특히 항공 이미지, 농업, 의료 분석과 같은 어려운 분야에서 더 높은 정확도에 대한 수요가 증가함에 따라 YOLO 모델은 더욱 발전된 아키텍처로 다양화되었습니다.
YOLOv4 (2020) [11]은 Cross-Stage Partial Networks (CSPNet), Mish와 같은 향상된 활성화 함수, 모자이크 데이터 증강 및 CIoU loss를 포함한 고급 학습 전략을 도입했습니다.
YOLOv5 (Ultralytics, 2020)는 비공식적이지만 PyTorch 구현, 광범위한 커뮤니티 지원, 다양한 플랫폼에 걸친 간소화된 배포로 인해 엄청난 인기를 얻었습니다.
YOLOv5는 또한 모듈성을 제공하여 세그멘테이션, 분류 및 엣지 애플리케이션에 더 쉽게 적응할 수 있게 했습니다.
추가 개발에는 고급 최적화 기술, 매개변수 효율적인 모듈, 트랜스포머에서 영감을 받은 블록을 통합한 YOLOv6 [12] 및 YOLOv7 [13] (2022)이 포함되었습니다.
이러한 반복을 통해 YOLO는 실시간 추론에 중점을 두면서도 state-of-the-art (SoTA) 정확도 벤치마크에 더 가까워졌습니다.
이 시점에서 YOLO 생태계는 객체 탐지 연구 및 배포 분야에서 선도적인 모델군으로 확고히 자리 잡았습니다.

 

최신 YOLO 릴리스의 주요 유지 관리자인 Ultralytics는 YOLOv8 (2023) [24]로 프레임워크를 재정의했습니다.
YOLOv8은 분리된 탐지 헤드, 앵커 프리 예측, 정교한 학습 전략을 특징으로 하여 정확도와 배포 다재다능성 모두에서 상당한 향상을 이루었습니다 [25].
깨끗한 Python API, TensorRT, CoreML, ONNX와의 호환성, 속도 대비 정확도 균형 (nano, small, medium, large, and extra-large)에 최적화된 변형의 가용성 덕분에 업계에서 널리 채택되었습니다.
YOLOv9 [14], YOLOv10 [15], 그리고 YOLO11이 빠르게 연속적으로 등장하여 각 반복마다 아키텍처와 성능의 경계를 허물었습니다.
YOLOv9는 효율성과 더 높은 표현 용량을 결합하여 GELAN (Generalized Efficient Layer Aggregation Network)과 Progressive Distillation를 도입했습니다.
YOLOv10은 하이브리드 작업 정렬 할당을 통해 정확도와 추론 지연 시간의 균형을 맞추는 데 중점을 두었습니다.
YOLOv11은 GPU에서 더 높은 효율성을 제공하면서 강력한 소형 객체 성능을 유지하면서 Ultralytics의 비전을 더욱 정교화했습니다 [5].
이 모델들은 함께 최신 배포 파이프라인에 맞춘 생산용 YOLO 릴리스를 생산하는 Ultralytics의 명성을 공고히 했습니다.

 

YOLO11에 이어, 대체 버전인 YOLOv12 [16]와 YOLOv13 [17]은 다양한 데이터셋에서 정확성을 극대화하고자 하는 어텐션 중심 설계와 고급 아키텍처 구성 요소를 도입했습니다.
이 모델들은 멀티헤드 셀프 어텐션, 향상된 멀티 스케일 융합, 그리고 더 강력한 학습 정규화 전략을 탐구했습니다.
강력한 벤치마크를 제시했지만, 특히 저전력 장치의 지연 오버헤드와 수출 문제를 야기한 Non-Maximum Suppression (NMS)와 Distribution Focal Loss (DFL)에 대한 의존도는 유지했습니다.
NMS 기반의 후처리 및 복잡한 loss 제형의 한계로 인해 YOLO26 (초음파 YOLO26 공식 소스)의 개발이 촉진되었습니다.
2025년 9월까지 런던에서 열린 YOLO 비전 2025 행사에서 Ultralytics는 엣지 컴퓨팅, 로봇 공학, 모바일 AI에 최적화된 차세대 모델인 YOLO26을 공개했습니다.

그림 2: YOLO26 통합 아키텍처는 객체 감지, 인스턴스 세그멘테이션, 포즈/키포인트 감지, 방향 탐지 및 분류의 다섯 가지 주요 비전 작업을 지원합니다.

YOLO26은 단순성, 효율성, 혁신의 세 가지 주요 원칙을 중심으로 설계되었으며, 그림 2의 개요는 이러한 선택 사항을 다섯 가지 지원 과제와 함께 설명합니다: 객체 감지, 인스턴스 세그멘테이션, 포즈/키포인트 감지, 방향 탐지 및 분류.
추론 경로에서 YOLO26은 NMS를 제거하여 주요 후처리 병목 현상을 제거하고 지연 시간 분산을 줄이며 배포 전반에 걸친 임계값 조정을 간소화하는 기본 종단 간 예측을 생성합니다.
회귀 측면에서는 DFL을 제거하여 분배 상자 디코딩을 더 가볍고 하드웨어 친화적인 방식으로 전환하여 ONNX, TensorRT, CoreML, TFLite로 깔끔하게 수출함으로써 엣지 및 모바일 파이프라인에서 실질적인 이점을 얻을 수 있습니다.
이러한 변경 사항들은 더 적은 그래프, 더 빠른 콜드 스타트, 그리고 더 적은 런타임 의존성을 제공하며, 이는 CPU 바인딩 및 임베디드 시나리오에 특히 유용합니다.
학습 안정성과 소규모 객체 충실도는 ProgLoss (progressive loss balancing)와 SALT (small-target-aware label assignment)를 통해 해결됩니다.
ProgLoss는 학습 후반에 쉬운 예제에 의한 지배를 방지하기 위해 목표에 적응적으로 가중치를 부여하는 반면, SAL은 작은 인스턴스나 가려진 인스턴스에 우선순위를 두어 공중, 로봇 공학 및 스마트 카메라 피드에서 흔히 볼 수 있는 어수선함, 잎사귀 또는 모션 블러 조건에서 재현율을 향상시킵니다.
최적화는 MuSGD에 의해 주도되며, 이 하이브리드는 Muon 스타일 방법에서 영감을 받은 운동량/곡률 거동과 SGD의 일반화를 결합하여 스케일 전반에 걸쳐 더 빠르고 부드러운 수렴과 더 안정적인 고원을 가능하게 합니다.

 

기능적으로 그림 2에서 다시 강조했듯이 YOLO26의 다섯 가지 기능은 통합된 백본/넥과 유선형 헤드를 공유합니다:

 • 물체 감지: 앵커 프리, NMS 프리 박스 및 점수
 • 인스턴스 세그멘테이션: 공유 피쳐와 결합된 경량 마스크 브랜치;
 • 포즈/키포인트 감지: 사람 또는 부품 랜드마크를 위한 컴팩트한 키포인트 헤드
 • 방향 탐지: 비스듬한 물체와 길쭉한 표적을 위한 회전 상자
 • 분류: 순수 인식 작업을 위한 단일 라벨 로짓.

 

이 통합 설계는 아키텍처 재작업 없이도 멀티태스크 학습이나 작업별 파인튜닝을 가능하게 하며, 간소화된 수출은 가속기 간의 휴대성을 유지합니다.
요약하자면, YOLO26은 종단 간 추론과 DFL 없는 회귀를 ProgLoss, SALT, MuSGD와 결합하여 YOLO 계보를 발전시켜, 그림 2에 시각적으로 요약된 것처럼 배포 속도가 빠르고, 학습 속도가 안정적이며, 성능이 더 넓은 모델을 제공합니다.

 

 

그림 3: Ultralytics YOLO26 객체 감지 및 세그멘테이 알고리즘의 단순화된 핵심 아키텍처 다이어그램

2   Architectural Enhancements in YOLO26

YOLO26의 아키텍처는 엣지 및 서버 플랫폼에서 실시간 객체 감지를 위해 특별히 설계된 간소화되고 효율적인 파이프라인을 따릅니다.
그림 3에 나타난 바와 같이, 이 과정은 이미지 또는 비디오 스트림 형태의 입력 데이터를 수집하는 것으로 시작되며, 먼저 모델 추론에 적합한 표준 차원으로 크기 조정 및 정규화를 포함한 전처리 작업을 거칩니다.
그런 다음 데이터를 백본 피쳐 추출 단계에 입력하여 간결하면서도 강력한 컨볼루션 네트워크가 시각적 패턴의 계층적 표현을 캡처합니다.
스케일 전반에 걸친 견고성을 강화하기 위해, 이 아키텍처는 큰 객체와 작은 객체 모두에 대한 시맨틱 풍부함을 보존하는 멀티스케일 피쳐 맵 (그림 3)을 생성합니다.
이러한 피쳐 맵은 그런 다음 경량 피쳐 융합 넥으로 병합되어 정보가 계산 효율적으로 통합됩니다.
탐지별 처리는 직접 회귀 헤드에서 발생하며, 이전 YOLO 버전과 달리 Non-Maximum Suppression (NMS)에 의존하지 않고 바운딩 박스와 클래스 확률을 출력합니다.
이 종단간 NMS 없는 추론 (그림 3)은 후처리 오버헤드를 제거하고 배포를 가속화합니다.
학습의 안정성과 정확성은 ProgLoss 밸런싱 및 SAL 할당 모듈에 의해 강화되며, 이 모듈은 loss 항목의 공평한 가중치를 보장하고 작은 목표의 탐지를 향상시킵니다.
모델 최적화는 MuSGD 옵티마이저에 의해 안내되며, SGD와 Muon의 강점을 결합하여 더 빠르고 신뢰할 수 있는 수렴을 제공합니다.
양자화를 통해 배포 효율성이 더욱 향상되었으며, FP16 및 INT8 정밀도를 지원하여 CPU, NPU 및 GPU에서 정확도 저하 없이 가속화할 수 있습니다.
마지막으로, 파이프라인은 바운딩 박스와 입력 이미지에 겹쳐진 클래스 할당을 포함한 출력 예측 생성으로 절정에 달합니다.
전반적으로 YOLO26의 아키텍처는 정확성, 안정성 및 배포 단순성을 동시에 향상시키는 신중하게 균형 잡힌 디자인 철학을 보여줍니다.

 

YOLO26은 이전 세대의 YOLO 모델과 차별화되는 몇 가지 주요 아키텍처 혁신을 소개합니다.
이러한 향상은 학습 안정성과 추론 효율성을 향상시킬 뿐만 아니라 실시간 엣지 디바이스의 배포 파이프라인을 근본적으로 재구성합니다.

이 섹션에서는 YOLO26의 네 가지 주요 기여 사항을 설명합니다: (i) Distribution Focal Loss (DFL)의 제거, (ii) 종단 간 Non-Maximum Suppression (NMS) 없는 추론의 도입, (iii) Progressive Loss Balancing (ProgLoss) 및 Small-Target-Aware Label Assignment (STAL)을 포함한 새로운 loss 함수 전략, (iv) 안정적이고 효율적인 수렴을 위한 MuSGD 옵티마이저의 개발.
이러한 각 아키텍처 개선 사항은 자세히 설명되며, YOLOv8, YOLOv11, YOLOv12, YOLOv13과 같은 이전 YOLO 버전에 비해 그들의 장점을 강조하는 비교 인사이트가 포함되어 있습니다.

그림 4: YOLO26의 주요 아키텍처 개선 사항: (a) Distribution Focal Loss (DFL)을 제거하면 바운딩 박스 회귀가 간소화되어 효율성과 내보내기 호환성이 향상됩니다. (b) 종단 간 NMS-free 추론은 후처리 병목 현상을 제거하여 더 빠르고 간단한 배포를 가능하게 합니다. (c) ProgLoss와 STAL는 학습 안정성을 향상시키고 작은 물체 감지 정확도를 크게 향상시킵니다. (d) MuSGD 옵티마이저는 SGD와 Muon의 강점을 결합하여 학에서 더 빠르고 안정적인 수렴을 달성합니다.

2.1 Removal of Distribution Focal Loss (DFL)

YOLO26에서 가장 중요한 아키텍처 단순화 중 하나는 YOLOv8 및 YOLOv11과 같은 이전 YOLO 릴리스에 존재했던 Distribution Focal Loss (DFL) 모듈 (그림 4a)을 제거한 것입니다.
DFL은 원래 박스 좌표에 대한 확률 분포를 예측하여 객체의 위치를 더 정밀하게 파악할 수 있도록 함으로써 바운딩 박스 회귀를 개선하기 위해 설계되었습니다.
이 전략은 이전 모델에서 정확도 향상을 보여주었지만, 계산 오버헤드와 내보내기 문제도 발생시켰습니다.
실제로 DFL은 추론 및 모델 내보내기 중에 전문적인 처리가 필요했으며, 이는 ONNX, CoreML, TensorRT 또는 TFLite와 같은 하드웨어 가속기를 대상으로 하는 배포 파이프라인을 복잡하게 만들었습니다.

 

DFL을 제거함으로써 YOLO26은 모델의 아키텍처를 단순화하여 바운딩 박스 예측을 성능 저하 없이 더 간단한 회귀 작업으로 만듭니다.
비교 분석에 따르면 YOLO26은 특히 ProgLoss 및 SALT와 같은 다른 혁신과 결합했을 때 DFL 기반 YOLO 모델과 비슷하거나 우수한 정확도를 달성하는 것으로 나타났습니다.
게다가 DFL을 제거하면 추론 지연 시간이 크게 줄어들고 플랫폼 간 호환성이 향상됩니다.
따라서 YOLO26은 가볍고 하드웨어 친화적인 모델이 가장 중요한 엣지 AI 시나리오에 더 적합합니다.

 

반면, YOLOv12 및 YOLOv13과 같은 모델은 아키텍처에서 DFL을 유지하여 GPU가 풍부한 환경에서 강력한 정확도 벤치마크에도 불구하고 제한된 장치에서의 적용이 제한되었습니다.
따라서 YOLO26은 SOTA 물체 감지 성능을 모바일, 임베디드 및 산업용 애플리케이션의 현실과 일치시키기 위한 결정적인 단계입니다.

 

2.2 End-to-End NMS-Free Inference

YOLO26의 또 다른 획기적인 기능은 Non-Maximum Suppression (NMS) 없이 종단 간 추론을 기본적으로 지원한다는 점입니다(그림 4b 참조).
YOLOv8부터 YOLOv13까지를 포함한 전통적인 YOLO 모델은 신뢰도 점수가 가장 높은 바운딩박스만 유지하여 중복 예측을 걸러내기 위해 후처리 단계로 NMS에 크게 의존합니다.
효과적이지만, NMS는 파이프라인에 추가 지연 시간을 추가하며, Intersection-over-Union (IoU) 임계값과 같은 하이퍼파라미터를 수동으로 조정해야 합니다.
수작업 후처리 단계에 대한 이러한 의존성은 특히 엣지 디바이스와 지연 시간에 민감한 애플리케이션의 배포 파이프라인에 취약성을 초래합니다.

 

YOLO26은 NMS 없이 직접적이고 비중복적인 바운딩 박스 예측을 생성하기 위해 예측 헤드를 근본적으로 재설계합니다.
이 종단 간 설계는 추론 복잡성을 줄일 뿐만 아니라 수작업으로 조정된 임계값에 대한 의존성을 제거하여 프로덕션 시스템으로의 통합을 단순화합니다.
비교 벤치마크에 따르면 YOLO26은 YOLOv11 및 YOLOv12보다 더 빠른 추론 속도를 달성하며, nano 모델의 경우 CPU 추론 시간이 최대 43% 단축되었습니다.
따라서 YOLO26은 밀리초의 지연 시간이 상당한 운영 영향을 미칠 수 있는 모바일 장치, UAV 및 임베디드 로봇 플랫폼에 특히 유리합니다.

 

속도 외에도 NMS-free 접근 방식은 모델에 더 이상 광범위한 후처리 코드가 필요하지 않기 때문에 재현성과 배포 이식성을 향상시킵니다.
RT-DETR 및 Sparse R-CNN과 같은 다른 고급 검출기는 NMS-free 추론을 실험했지만, YOLO26은 속도와 정확성 사이에서 YOLO의 특징적인 균형을 유지하면서 이 패러다임을 채택한 최초의 YOLO 릴리스입니다.
여전히 NMS에 의존하는 YOLOv13과 비교할 때, YOLO26의 종단 간 파이프라인은 실시간 탐지를 위한 미래 지향적인 아키텍처로 두드러집니다.

 

2.3 ProgLoss and STAL: Enhanced Training Stability and Small-Object Detection

학습 안정성과 작은 물체 인식은 물체 감지에서 여전히 지속적인 과제로 남아 있습니다.
YOLO26은 두 가지 새로운 전략의 통합을 통해 이러한 문제를 해결합니다: 그림 (그림 4c)에 나타난 Progressive Loss Balancing (ProgLoss) 및 Small-Target-Aware Label Assignment (STAL).

 

ProgLoss는 학습 중에 다양한 loss 구성 요소의 가중치를 동적으로 조정하여 모델이 희귀하거나 작은 클래스에서 성능이 저하되는 동안 지배적인 객체 카테고리에 과적합되지 않도록 합니다.
이 점진적인 재조정은 일반화를 개선하고 이후 학습 기간 동안 불안정성을 방지합니다.
반면에 STAL은 픽셀 표현이 제한적이고 가림에 취약하기 때문에 특히 감지하기 어려운 작은 객체에 대해 라벨 할당을 명시적으로 우선시합니다.
ProgLoss와 STAL은 함께 COCO 및 UAV 이미지 벤치마크와 같이 작은 객체 또는 가려진 객체가 있는 데이터셋에서 YOLO26의 정확도를 크게 향상시킵니다.

 

비교적으로, YOLOv8 및 YOLOv11과 같은 이전 모델들은 이러한 타겟 메커니즘을 포함하지 않았으며, 종종 허용 가능한 작은 객체 성능을 달성하기 위해 데이터셋별 증강이나 외부 학습 트릭이 필요했습니다.
YOLOv12와 YOLOv13은 어텐션 기반 모듈과 향상된 멀티 스케일 피쳐 융합을 통해 이러한 격차를 해결하려고 시도했지만, 이러한 솔루션은 아키텍처 복잡성과 추론 비용을 증가시켰습니다.

YOLO26은 더 가벼운 접근 방식으로 유사하거나 우수한 개선을 달성하여 엣지 AI 애플리케이션에 대한 적합성을 강화했습니다.
ProgLoss와 STAL을 통합함으로써 YOLO26은 YOLO 제품군의 효율성과 휴대성을 유지하면서 강력한 소형 물체 탐지기로 자리매김했습니다.

 

2.4 MuSGD Optimizer for Stable Convergence

YOLO26의 마지막 혁신은 MuSGD 옵티마이저 (그림 4d)의 도입입니다, 이는 Stochastic Gradient Descent (SGD)의 강점과 최근 제안된 Muon 옵티마이저를 결합한 것으로, 이는 large language model (LLM) 학습에 사용되는 최적화 전략에서 영감을 받은 기술입니다.
MuSGD는 SGD의 견고성과 일반화 능력을 활용하는 동시에 Muon의 적응형 특성을 통합하여 다양한 데이터셋에서 더 빠른 수렴과 안정적인 최적화를 가능하게 합니다.

 

이 하이브리드 옵티마이저는 현대 딥러닝의 중요한 트렌드를 반영합니다: natural language processing (NLP)와 컴퓨터 비전 간의 발전을 교차 수분합니다.
LLM 학습 관행 (예: Moonshot AI의 Kimi K2)을 차용함으로써 YOLO26은 이전에는 YOLO 계보에서 탐구되지 않았던 안정성 향상의 이점을 누릴 수 있습니다.
경험적 결과에 따르면, MuSGD는 YOLO26이 적은 학습 기간으로 경쟁력 있는 정확도를 달성할 수 있게 하여 학습 시간과 계산 비용을 모두 줄여줍니다.

 

YOLOv8부터 YOLOv13까지를 포함한 이전의 YOLO 버전은 표준 SGD 또는 AdamW 변형에 의존했습니다.
효과적이긴 하지만, 이러한 최적화 도구들은 광범위한 하이퍼파라미터 조정이 필요했으며, 특히 변동성이 큰 데이터셋에서 불안정한 수렴을 보였습니다.
이에 비해 MuSGD는 YOLO의 경량 학습 정신을 유지하면서 신뢰성을 향상시킵니다.
실무자들에게는 개발 주기가 짧아지고, 학습 재시작이 줄어들며, 배포 시나리오 전반에 걸쳐 예측 가능한 성능이 향상됩니다.
MuSGD를 통합함으로써 YOLO26은 추론에 최적화된 모델일 뿐만 아니라 연구자와 업계 실무자 모두를 위한 학습 친화적인 아키텍처로 자리매김했습니다.

 

 

표 2: Ultralytics YOLO26 성능 지표 (640px). 탐지 (위) 및 인스턴스 세그멘테이션 (아래) 결과는 COCO 검증 정확도, end-to-end (e2e) 점수, 해당되는 경우 CPU (ONNX) 및 NVIDIA T4 (TensorRT10 FP16)의 속도, 모델 크기 (params) 및 컴퓨팅 (FLOPs)을 보고합니다.

3   Benchmarking and Comparative Analysis

3.1 Detection and Segmentation Performance Metrics

표 2의 탐지 결과에 요약된 바와 같이, YOLO26은 모델 규모가 증가함에 따라 COCO mAP(50-95)을 지속적으로 개선하는 동시에 CPU (ONNX)와 GPU (TensorRT) 런타임 전반에 걸쳐 예측 가능하고 낮은 추론 지연 시간을 유지합니다.
특히, YOLO26-m과 YOLO26-l은 NMS-free 추론 경로와 단순화된 회귀 설계의 이점을 반영하여 트랜스포머 기반 대안보다 훨씬 낮은 지연 시간으로 각각 53%와 55% mAP 이상의 강력한 탐지 정확도를 달성합니다.
동일한 표는 매개변수와 FLOP에서 유리한 스케일링 동작을 더욱 강조하여 배포 타겟 전반에 걸쳐 YOLO26의 효율성을 강화합니다.

 

표 2의 세그멘테이션 결과는 탐지 외에도 YOLO26이 멀티태스크 환경에서 이러한 장점을 유지하고 있음을 보여줍니다.
nano에서 extra-large 변형에 이르기까지 YOLO26-seg 모델은 종단 간 평가에서도 관리 가능한 계산 비용과 실시간 처리량을 유지하면서 경쟁력 있는 박스 및 마스크 mAP를 제공합니다.
YOLOv10 및 RT-DETR 변형과 같은 아키텍처가 더 무거운 트랜스포머 인코더에 의존하는 것과 대조적으로, YOLO26은 특히 엣지 및 CPU 바인딩 추론에서 더 균형 잡힌 정확도-지연 프로파일을 보입니다.
종합적으로, 표 2의 탐지 및 세그멘테이션 벤치마크는 YOLO26이 단순한 점진적인 개선이 아니라 배포 지향적인 YOLO 제품군의 진화로, 엄격한 지연 제약 하에서 효율성 중심의 설계와 높은 정확도의 실시간 인식을 효과적으로 연결하고 있음을 보여줍니다.

표 3: 224px 해상도의 ImageNet에서 YOLO26 이미지 분류 성능. 결과는 CPU (ONNX) 및 NVIDIA T4 (TensorRT10 FP16)의 Top-1/Top-5 정확도, 추론 속도, 모델 크기 및 FLOPs를 보고합니다.

3.2 Classification performance metrics (ImageNet)

표 3은 모델 규모에 따른 YOLO26의 ImageNet 분류 성능을 요약한 것입니다.
모델 용량이 YOLO26n에서 YOLO26x로 증가함에 따라 Top-1 정확도는 71.4%에서 79.9%로 꾸준히 향상되었으며, 모든 변형 모델에서 90% 이상의 강력한 Top-5 정확도를 유지했습니다.
중요한 것은 이 정확도 스케일링이 예측 가능한 지연 시간 증가로 달성된다는 점입니다, TensorRT FP16 추론은 가장 큰 모델에서도 4ms 이하로 유지되기 때문입니다.
표 3에 보고된 컴팩트 FLOPs와 매개변수 수는 YOLO26 분류 헤드가 효율성을 유지하여 엣지 및 임베디드 플랫폼에서 실시간 이미지 인식에 적합하다는 것을 강조합니다.

표 4: 640px 해상도의 COCO 데이터셋에서 YOLO26 포즈 추정 성능. 결과는 end-to-end (e2e) 포즈 정확도, CPU (ONNX) 및 NVIDIA T4 (TensorRT10 FP16)의 추론 속도, 모델 크기 및 FLOP에 대해 보고합니다.

3.3 Pose Performance Metrics (COCO)

표 4는 COCO 데이터셋에서 YOLO26의 포즈 추정 성능을 보여줍니다.
모델 규모 전반에 걸쳐 YOLO26은 mAP_pose에서 일관된 증가를 보이며, nano 변종의 경우 57.2%에서 종단 간 평가 중인 extra-larage 모델의 경우 71.6%로 증가했습니다.
이러한 정확도 향상은 지연 시간과 계산 비용을 예측 가능하게 확장하는 동시에 GPU에서 실시간 추론을 유지하고 CPU에서 실시간에 가까운 성능을 유지합니다.
표 4의 결과는 YOLO26이 효율성 지향 설계를 포즈 추정으로 효과적으로 확장하여 엣지 및 서버 플랫폼 모두에서 실시간 인간 및 객체 키포인트 분석에 적합하다는 것을 보여줍니다.

표 5: 1024 px 해상도의 DOTA v1 데이터셋에서 YOLO26 oriented object detection (OBB) 성능. 결과는 end-to-end (e2e) 테스트 정확도, CPU (ONNX) 및 NVIDIA T4 (TensorRT10 FP16)의 추론 속도, 모델 크기 및 FLOPs를 보고합니다.

3.4 Oriented Object Detection (OBB) Performance on DOTA v1

표 5는 DOTA v1 데이터셋에서 YOLO26의 지향성 객체 탐지 성능을 보고합니다.
YOLO26은 모델 규모가 증가함에 따라 mAP 테스트에서 일관된 개선을 달성하여 종단 간 평가를 받는 extra-large 변형의 경우 56.7% mAP50–95에 도달했습니다.
OBB 작업의 높은 입력 해상도와 계산 요구에도 불구하고 YOLO26은 small 및 medium 모델의 GPU에서 5ms 미만의 지연 시간으로 효율적인 추론을 유지합니다.
표 5의 결과는 YOLO26이 엣지 최적화, NMS-free 디자인을 회전 객체 감지까지 효과적으로 확장하여 항공 이미지 및 원격 감지 애플리케이션에 적합하다는 것을 보여줍니다.

 

 

 

4   Real-Time Deployment with Ultralytics YOLO26

지난 10년 동안 객체 감지 모델의 진화는 정확도의 증가뿐만 아니라 배포의 복잡성 증가로 인해 두드러졌습니다 [26, 27, 28].
초기 R-CNN 및 그 빠른 변형 (Fast R-CNN, Faster R-CNN)과 같은 검출기는 인상적인 검출 품질을 달성했지만, 계산 비용이 많이 들어 지역 제안 및 분류에 여러 단계가 필요했습니다 [29, 30, 31].
이로 인해 실시간 및 임베디드 애플리케이션에서의 사용이 제한되었습니다.
YOLO 패밀리의 등장은 탐지를 단일 회귀 문제로 재구성하여 상용 GPU에서 실시간 성능을 가능하게 함으로써 이러한 환경을 변화시켰습니다 [32].
그러나 YOLOv1에서 YOLOv13까지 YOLO 계보가 진행됨에 따라 정확도 향상은 종종 Distribution Focal Loss (DFL)과 같은 추가적인 아키텍처 구성 요소, Non-Maximum Suppression (NMS)와 같은 복잡한 후처리 단계, 배포 중 마찰을 유발하는 점점 더 무거운 백본의 비용으로 이루어졌습니다.
YOLO26은 아키텍처와 내보내기 경로를 모두 간소화하여 다양한 하드웨어 및 소프트웨어 생태계 간의 배포 장벽을 줄임으로써 이 오랜 과제를 직접 해결합니다.

 

4.1 Flexible Export and Integration Pathways

YOLO26의 주요 장점은 기존 생산 파이프라인에 원활하게 통합된다는 점입니다.
Ultralytics는 학습, 검증 및 내보내기에 대한 통합 지원을 제공하는 적극적으로 개발된 파이썬 패키지를 유지하고 있어 YOLO26을 채택하려는 실무자들의 기술적 장벽을 낮추고 있습니다.
하드웨어 가속을 위해 광범위한 사용자 정의 변환 스크립트가 필요했던 이전 YOLO 모델과 달리 [33, 34, 35], YOLO26은 기본적으로 다양한 내보내기 형식을 지원합니다.
여기에는 최대 GPU 가속을 위한 TensorRT, 광범위한 크로스 플랫폼 호환성을 위한 ONNX, 기본 iOS 통합을 위한 CoreML, Android 및 엣지 디바이스를 위한 TFLite, 인텔 하드웨어에서 최적화된 성능을 위한 OpenVINO가 포함됩니다.
이러한 다양한 내보내기 옵션을 통해 연구자, 엔지니어, 개발자는 이전 세대에서 흔히 볼 수 있는 호환성 병목 현상을 겪지 않고 프로토타이핑에서 생산으로 모델을 이동할 수 있습니다.

 

역사적으로 YOLOv3부터 YOLOv7까지는 특히 NVIDIA TensorRT 또는 Apple CoreML과 같은 특수 추론 엔진을 타겟팅할 때 내보내기 중 수동 개입이 필요한 경우가 많았습니다 [36, 37].
마찬가지로 DETR 및 그 후속 장치와 같은 트랜스포머 기반 검출기는 동적 어텐션 메커니즘에 의존하기 때문에 PyTorch 환경 외부로 변환할 때 어려움을 겪었습니다.
이에 비해 DFL을 제거하고 NMS-free 예측 헤드를 채택하여 간소화된 YOLO26의 아키텍처는 정확성을 희생하지 않으면서 플랫폼 간 호환성을 보장합니다.
이로 인해 YOLO26은 현재까지 출시된 가장 배포 친화적인 탐지기 중 하나가 되었으며, 엣지 퍼스트 모델로서의 정체성을 강화하고 있습니다.

 

4.2 Quantization and Resource-Constrained Devices

내보내기 유연성 외에도 실제 배포에서 진정한 도전 과제는 제한된 계산 자원을 가진 장치에서 효율성을 보장하는 것입니다 [27, 38].
스마트폰, 드론, 임베디드 비전 시스템과 같은 엣지 디바이스는 종종 개별 GPU가 부족하여 메모리, 전력 및 지연 시간 제약 조건을 균형 있게 조정해야 합니다 [39, 40].
양자화는 모델 크기와 계산 부하를 줄이기 위해 널리 채택된 전략이지만, 많은 복잡한 탐지기는 공격적인 양자화 하에서 정확도가 크게 저하됩니다.
YOLO26은 이러한 한계를 염두에 두고 설계되었습니다.

 

간소화된 아키텍처와 간소화된 바운딩 박스 회귀 파이프라인 덕분에 YOLO26은 반정밀 (FP16) 및 정수 (INT8) 양자화 방식 모두에서 일관된 정확도를 보여줍니다.
FP16 양자화는 혼합 정밀도 산술을 위해 네이티브 GPU 지원을 활용하여 메모리 사용량을 줄이면서 더 빠른 추론을 가능하게 합니다.
INT8 양자화는 모델 가중치를 8비트 정수로 압축하여 모델 크기와 에너지 소비를 획기적으로 줄이면서도 경쟁력 있는 정확성을 유지합니다.
벤치마크 실험 결과, YOLO26은 이러한 양자화 수준에서 안정성을 유지하며 동일한 조건에서 YOLOv11 및 YOLOv12를 능가하는 것으로 확인되었습니다.
따라서 YOLO26은 NVIDIA Jetson Orin, Qualcomm Snapdragon AI accelerators 또는 스마트 카메라를 구동하는 ARM 기반 CPU와 같은 소형 하드웨어에 배포하기에 특히 적합합니다.

 

대조적으로, RT-DETrv3와 같은 트랜스포머 기반 검출기는 INT8 양자화 [41] 하에서 성능이 급격히 저하되는데, 이는 주로 어텐션 메커니즘이 정밀도 저하에 민감하기 때문입니다.

마찬가지로, YOLOv12와 YOLOv13은 GPU 서버에서 높은 정확도를 제공하지만, 일단 양자화된 저전력 장치에서는 경쟁력 있는 성능을 유지하는 데 어려움을 겪습니다.

따라서 YOLO26은 객체 탐지에서 양자화 인식 설계를 위한 새로운 벤치마크를 확립하며, 아키텍처의 단순성이 배포의 견고성으로 직접적으로 이어질 수 있음을 보여줍니다.

 

4.3 Cross-Industry Applications: From Robotics to Manufacturing

이러한 배포 향상의 실질적인 영향은 산업 간 애플리케이션을 통해 가장 잘 설명할 수 있습니다.
로봇 공학에서 실시간 인식은 내비게이션, 조작, 안전한 인간-로봇 협업에 매우 중요합니다 [42, 43].
NMS-free 예측과 일관된 저지연 추론을 제공함으로써 YOLO26은 로봇 시스템이 환경을 더 빠르고 안정적으로 해석할 수 있도록 합니다.
예를 들어, YOLO26이 장착된 로봇 팔은 동적 조건에서 더 높은 정밀도로 물체를 식별하고 잡을 수 있으며, 이동 로봇은 어수선한 공간에서 장애물 인식 개선의 이점을 누릴 수 있습니다.
YOLOv8 또는 YOLOv11과 비교했을 때, YOLO26은 추론 지연을 줄여주며, 이는 고속 시나리오에서 안전한 기동과 충돌의 차이일 수 있습니다.

 

제조 분야에서 YOLO26은 자동화된 결함 감지 및 품질 보증에 중요한 영향을 미칩니다.
전통적인 수동 검사는 노동 집약적일 뿐만 아니라 사람의 실수가 발생하기 쉽습니다.
이전의 YOLO 릴리스, 특히 YOLOv8은 이미 스마트 팩토리에 배포되었지만, 수출의 복잡성과 NMS의 지연 오버헤드로 인해 대규모 출시가 제한되기도 했습니다.
YOLO26은 OpenVINO 또는 TensorRT를 통해 경량 배포 옵션을 제공하여 제조업체가 실시간 결함 감지 시스템을 생산 라인에 직접 통합할 수 있도록 함으로써 이러한 장벽을 완화합니다.
초기 벤치마크에 따르면 YOLO26 기반 결함 감지 파이프라인은 YOLOv12 및 DEIM과 같은 트랜스포머 기반 대안에 비해 처리량이 높고 운영 비용이 저렴합니다.

 

4.4 Broader Insights from YOLO26 Deployment

종합적으로 볼 때, YOLO26의 배포 기능은 객체 감지의 진화에서 중심적인 주제를 강조합니다: 건축 효율성은 정확성만큼이나 중요합니다.
지난 5년 동안 컨볼루션 기반 YOLO 변형부터 DETR 및 RT-DETR과 같은 트랜스포머 기반 검출기에 이르기까지 점점 더 정교한 모델이 등장했지만, 실험실 성능과 생산 준비도 사이의 격차로 인해 그 영향력이 제한되는 경우가 많았습니다.
YOLO26은 아키텍처를 간소화하고, 수출 호환성을 확장하며, 양자화 하에서 복원력을 보장함으로써 이러한 격차를 해소하여 최첨단 정확도와 실질적인 배포 요구 사항을 일치시킵니다.

 

모바일 애플리케이션을 구축하는 개발자에게 YOLO26은 CoreML과 TFLite를 통해 원활한 통합을 가능하게 하여 모델이 iOS 및 Android 플랫폼에서 기본적으로 실행되도록 보장합니다.
클라우드 또는 온프레미스 서버에 비전 AI를 배포하는 기업의 경우 TensorRT 및 ONNX 내보내기는 확장 가능한 가속 옵션을 제공합니다.
산업 및 엣지 사용자를 위해 OpenVINO와 INT8 양자화는 엄격한 리소스 제약 하에서도 성능이 일관되게 유지되도록 보장합니다.
이런 의미에서 YOLO26은 객체 탐지 연구의 한 걸음일 뿐만 아니라 배포 민주화의 중요한 이정표이기도 합니다.

 

 

 

5   Conclusion and Future Directions

결론적으로, YOLO26은 아키텍처 혁신과 배포에 대한 실용적인 초점을 결합한 YOLO 객체 감지 시리즈의 중요한 도약을 의미합니다.
이 모델은 Distribution Focal Loss (DFL) 모듈을 제거하고 non-maximum suppression의 필요성을 제거하여 디자인을 단순화합니다.
DFL을 제거함으로써 YOLO26은 바운딩 박스 회귀를 간소화하고 다양한 하드웨어와의 호환성을 넓히는 내보내기 복잡성을 피할 수 있습니다.
마찬가지로, 네트워크는 종단 간 NMS-free 추론을 통해 후처리 단계 없이 최종 탐지를 직접 출력할 수 있습니다.
이는 지연 시간을 줄일 뿐만 아니라 배포 파이프라인을 간소화하여 YOLO26을 이전 YOLO 개념의 자연스러운 진화로 만듭니다.
학습 과정에서 YOLO26은 Progressive Loss Balancing (ProgLoss)과 Small-Target-Aware Label Assignment (STAL)을 도입하여 학습을 안정화하고 도전적인 작은 물체에 대한 정확도를 높입니다.
또한, SGD와 Muon의 특성을 결합한 새로운 MuSGD 옵티마이저는 수렴을 가속화하고 학습 안정성을 향상시킵니다.
이러한 향상은 더 정확하고 견고할 뿐만 아니라 실제로는 훨씬 더 빠르고 가벼운 감지기를 제공하기 위해 함께 작동합니다.

 

벤치마크 비교는 YOLO26의 이전 모델과 현대 모델 모두에 비해 강력한 성능을 보여줍니다.
YOLO11과 같은 이전 YOLO 버전은 이전 릴리스를 더 높은 효율성으로 능가했으며, YOLO12는 어텐션 메커니즘의 통합을 통해 정확도를 더욱 향상시켰습니다.
YOLO13은 하이퍼그래프 기반의 개선을 추가하여 추가적인 개선을 이루었습니다.
트랜스포머 기반 라이벌에 맞서 YOLO26은 많은 격차를 좁혔습니다.
네이티브 NMS-free 디자인은 트랜스포머에서 영감을 받은 검출기의 종단 간 접근 방식을 반영하지만 YOLO의 특징적인 효율성을 갖추고 있습니다.
YOLO26은 경쟁력 있는 정확성을 제공하면서도 일반 하드웨어의 처리량을 획기적으로 늘리고 복잡성을 최소화합니다.
실제로 YOLO26의 설계는 이전 YOLO 버전보다 CPU에서 최대 43% 더 빠른 추론을 제공하여 리소스가 제한된 환경에서 가장 실용적인 실시간 탐지기 중 하나입니다.
성능과 효율성의 조화로운 균형을 통해 YOLO26은 벤치마크 리더보드뿐만 아니라 속도, 메모리, 에너지가 뛰어난 실제 현장 배치에서도 뛰어난 성능을 발휘할 수 있습니다.

 

YOLO26의 주요 기여는 배포 이점에 중점을 둔다는 점입니다.
모델의 아키텍처는 실제 사용을 위해 의도적으로 최적화되었습니다: DFL과 NMS를 생략함으로써, YOLO26은 특수 하드웨어 가속기에서 구현하기 어려운 작업을 피하고 기기 간 호환성을 향상시킵니다.
네트워크는 ONNX, TensorRT, CoreML, TFLite, OpenVINO 등 다양한 형식으로 내보낼 수 있어 개발자가 모바일 앱, 임베디드 시스템 또는 클라우드 서비스에 쉽게 통합할 수 있습니다.
결정적으로 YOLO26은 강력한 양자화도 지원합니다: 저비트 폭 추론을 허용하는 단순화된 아키텍처 덕분에 정확도에 미치는 영향을 최소화하면서 INT8 양자화 또는 반정밀 FP16과 함께 배포할 수 있습니다.
이는 모델을 압축하고 가속하면서도 신뢰할 수 있는 탐지 성능을 제공할 수 있음을 의미합니다.
이러한 기능은 드론에서 스마트 카메라에 이르기까지 실제 엣지 성능 향상으로 이어집니다, YOLO26은 이전 YOLO 모델에서 어려움을 겪었던 CPU 및 소형 장치에서 실시간으로 실행할 수 있습니다.
이 모든 개선 사항은 중요한 주제를 보여줍니다: YOLO26은 최첨단 연구 아이디어와 배포 가능한 AI 솔루션 사이의 간극을 메웁니다.
이 접근 방식은 최신 비전 발전을 실무자에게 직접 전달하는 학문적 혁신과 산업 응용을 연결하는 가교 역할을 하는 YOLO26의 역할을 강조합니다.

 

5.1 Future Directions

앞으로 YOLO와 물체 탐지 연구의 궤적은 몇 가지 유망한 방향을 제시합니다.
한 가지 분명한 방법은 여러 비전 작업을 더욱 전체적인 모델로 통합하는 것입니다.
YOLO26은 이미 객체 감지, 인스턴스 세그멘테이션, 포즈 추정, 방향성 바운딩 박스 및 분류를 하나의 프레임워크에서 지원하여 멀티태스크의 다재다능성을 향한 추세를 반영하고 있습니다.
미래의 YOLO 반복은 오픈 어휘와 파운데이션 모델 기능을 통합함으로써 이를 더욱 촉진할 수 있습니다.
이는 강력한 비전-언어 모델을 활용하여 탐지기가 고정된 라벨 세트에 국한되지 않고 임의의 객체 카테고리를 제로샷 방식으로 인식할 수 있도록 하는 것을 의미할 수 있습니다.
파운데이션 모델과 대규모 사전 학습을 기반으로 구축함으로써 차세대 YOLO는 맥락에서 새로운 객체의 감지, 세그멘테이션, 심지어 설명까지 원활하게 처리하는 범용 비전 AI로 활용될 수 있습니다.

 

또 다른 중요한 진화는 객체 감지를 위한 semi-supervised 학습과 self-supervised 학습의 영역일 가능성이 높습니다 [44, 45, 46, 47].
SOTA 탐지기는 여전히 대규모 레이블이 지정된 데이터셋에 크게 의존하고 있지만, 연구는 레이블이 없거나 부분적으로 레이블이 지정된 데이터를 학습하는 방법을 빠르게 발전시키고 있습니다.
teacher–student 학습 [48, 49, 50], pseudo 라벨링 [51, 52], self-supervised 피쳐 학습 [53]과 같은 기술을 YOLO 학습 파이프라인에 통합하여 광범위한 수동 주석의 필요성을 줄일 수 있습니다.
미래의 YOLO는 인식의 견고성을 향상시키기 위해 주석이 없는 방대한 양의 이미지나 동영상을 자동으로 활용할 수 있습니다.
이를 통해 모델은 레이블이 지정된 데이터를 비례적으로 증가시키지 않고도 감지 기능을 계속 향상시킬 수 있으며, 이를 통해 새로운 도메인이나 희귀 객체 카테고리에 더 잘 적응할 수 있습니다.

 

아키텍처적으로, 우리는 객체 검출기에서 트랜스포머와 CNN 설계 원칙의 지속적인 혼합을 기대합니다.
최근 YOLO 모델의 성공은 YOLO와 유사한 아키텍처에 어텐션과 전역 추론을 도입하면 정확도 향상을 가져올 수 있음을 보여주었습니다 [54, 55].
미래의 YOLO 아키텍처는 컨볼루션 백본 (효율적인 로컬 피쳐 추출을 위해)과 트랜스포머 기반 모듈 또는 디코더 (장거리 종속성 및 컨텍스트 캡처를 위해)를 결합한 하이브리드 설계를 채택할 수 있습니다.
이러한 하이브리드 접근 방식은 순수 CNN이나 나이브한 셀프-어텐션이 놓칠 수 있는 관계를 모델링함으로써 복잡한 장면, 예를 들어 혼잡하거나 맥락이 높은 환경에서 모델이 이해하는 방식을 개선할 수 있습니다.
차세대 탐지기가 이러한 기술을 지능적으로 융합하여 풍부한 피쳐 표현과 낮은 지연 시간을 모두 달성할 것으로 기대합니다.
요약하자면, "CNN-based" 탐지기와 "transformer-based" 탐지기 사이의 경계는 계속 흐려질 것이며, 다양한 탐지 문제를 해결하기 위해 두 가지 측면을 최대한 활용할 것입니다.

 

마지막으로, 배포가 점점 더 중요해짐에 따라 향후 연구에서는 처음부터 엣지 인식 학습과 최적화를 강조할 것으로 예상됩니다.
하드웨어 제약을 사후적인 고려 사항으로 취급하기보다는, 모델 설계는 양자화 인식 학습, 자동화된 모델 압축, 하드웨어 기반 아키텍처 검색과 같은 기술을 통해 점점 더 목표 플랫폼과 협력하게 될 것입니다.
지연 시간 및 에너지 측정을 포함한 배포 피드백을 학습 루프에 직접 통합하면 실제 효율성을 더욱 향상시킬 수 있습니다.
이러한 접근 방식을 통해 YOLO 모델은 런타임 제약 조건 하에서 depth, 해상도 또는 정밀도를 동적으로 조정하거나 정확도 loss를 최소화하면서 컴팩트 변형으로 distill할 수 있습니다.
이 엣지 우선 디자인 철학은 엄격한 자원 제한 하에서 운영되는 IoT, AR/VR 및 자율 시스템 전반에서 실시간 성능을 유지하는 데 필수적입니다.