RF-DETR: Neural Architecture Search for Real-Time Detection Transformers

2026. 6. 1. 13:01Deep Learning

RF-DETR: Neural Architecture Search for Real-Time Detection Transformers

 

Roboflow, Carnegie Mellon University

 

Abstract

오픈 어휘 탐지기는 COCO에서 인상적인 성능을 발휘하지만, 일반적으로 사전 학습에서 발견되지 않는 분포 외 클래스를 가진 실제 데이터셋에는 일반화하지 못하는 경우가 많습니다.
단순히 새로운 도메인을 위해 무거운 vision-language model (VLM)을 파인튜닝하는 대신, 가중치 공유 neural architecture search (NAS)을 통해 모든 타겟 데이터셋에 대해 accuracy-latency Pareto 곡선을 발견하는 경량 전문 탐지 트랜스포머인 RF-DETR을 소개합니다.
우리의 접근 방식은 타겟 데이터셋에서 사전 학습된 base 네트워크를 파인튜닝하고, 재학습 없이도 다양한 accuracy-latency 트레이드오프를 통해 수천 개의 네트워크 구성을 평가합니다.
또한, 다양한 타겟 도메인으로의 DETR 전송 가능성을 개선하기 위해 NAS의 "tunable knobs"를 다시 살펴봅니다.
특히 RF-DETR은 COCO 및 Roboflow100-VL에서 이전의 SOTA 실시간 방법보다 크게 개선되었습니다.
RF-DETR (nano)은 COCO에서 48.0 AP를 달성하여 유사한 지연 시간에서 D-FINE (nano)을 5.3 AP 차이로 능가합니다, RF-DETR (2x-large)은 20배 빠른 속도로 Roboflow100-VL에서 GroundDINO (tiny)를 1.2 AP 차이로 능가합니다.
우리가 아는 한, RF-DETR (2x-large)은 COCO에서 60 AP를 초과한 최초의 실시간 검출기입니다.

 

 

 

1   Introduction

객체 감지는 최근 몇 년 동안 성숙해진 컴퓨터 비전의 근본적인 문제입니다 (Felzenzwalb et al., 2009; Lin et al., 2014; Ren et al., 2015).
GroundDINO (Liu et al., 2023) 및 YOLO-World (Cheng et al., 2024)와 같은 오픈 어휘 감지기는 car, truck과 pedestrian 같은 일반적인 카테고리에서 놀라운 제로샷 성능을 달성합니다.
그러나 SOTA vision-language models (VLM)은 여전히 사전 학습에서 일반적으로 발견되지 않는 배포 외 클래스, 작업 및 이미징 모달리티로 일반화하는 데 어려움을 겪고 있습니다 (Robicheux et al., 2025).
타겟 데이터셋에서 VLM을 파인튜닝하면 런타임 효율성 (헤비급 텍스트 인코더로 인해)과 오픈 어휘 일반화를 희생하면서 도메인 내 성능이 크게 향상됩니다.
반면, D-FINE (Peng et al., 2024) 및 RT-DETR (Zhao et al., 2024)과 같은 전문가 (즉, 폐쇄 어휘) 객체 탐지기는 실시간 추론을 달성하지만 GroundDINO와 같은 파인튜닝 VLM은 성능이 떨어집니다.
이 논문에서는 SOTA 성능과 빠른 추론을 달성하기 위해 인터넷 규모의 사전 학습 실시간 아키텍처를 결합하여 스페셜리스트 디텍터를 현대화합니다.

 

Are Specialist Detectors Over-Optimized for COCO?

객체 탐지의 지속적인 발전은 주로 PASCAL VOC (Everingham et al., 2015)와 COCO (Lin et al., 2014)와 같은 표준화된 벤치마크에 기인할 수 있습니다.
그러나 최근의 스페셜리스트 디텍터는 맞춤형 모델 아키텍처, 학습 속도 스케줄러, 증강 스케줄러를 사용하여 실제 성능을 희생시키면서 암묵적으로 COCO에 과적합된다는 사실을 발견했습니다.
특히, YOLOv8 (Jocher et al., 2023)과 같은 SOTA 객체 탐지기는 COCO와 상당히 다른 데이터 분포 (예: 이미지당 객체 수, 클래스 수, 데이터셋 크기)를 가진 실제 데이터셋에 잘 일반화되지 않습니다.
이러한 한계를 해결하기 위해, 우리는 실제 데이터 분포에 일반화하기 위해 인터넷 규모의 사전 학습을 활용하는 스케줄러 없는 접근 방식인 RF-DETR을 소개합니다.
다양한 하드웨어 플랫폼과 데이터셋 특성에 대한 모델을 더 잘 전문화하기 위해, 우리는 종단 간 객체 탐지 및 세그멘테이션의 맥락에서 neural architecture search (NAS)을 다시 검토합니다.

 

Rethinking Neural Architecture Search (NAS) for DETRs.

NAS는 미리 정의된 검색 공간 내에서 아키텍처 변형을 탐색함으로써 accuracy-latency의 균형을 발견합니다.
NAS는 이전에 이미지 분류 (Tan & Le, 2019; Cai et al., 2019)와 검출기 백본 Tan et al. (2020) 및 FPNs Giasi et al. (2019)과 같은 모델 하위 구성 요소에 대해 연구되었습니다.
이전 연구와 달리, 우리는 객체 감지 및 세그멘테이션을 위한 종단 간 가중치 공유 NAS를 탐구합니다.
OFA (Cai et al., 2019)에서 영감을 받은 우리의 핵심 인사이트는 학습 중에 이미지 해상도와 같은 모델 입력과 패치 크기와 같은 아키텍처 구성 요소를 변경할 수 있다는 것입니다.
또한 가중치 공유 NAS를 사용하면 디코더 레이어 수 및 쿼리 토큰과 같은 추론 구성을 파인튜닝 없이도 강력한 base 모델을 전문화할 수 있습니다.
검증 세트에서 그리드 검색을 통해 모든 모델 구성을 평가합니다.
중요한 것은 우리의 접근 방식이 base 모델이 타겟 데이터셋에 완전히 학습될 때까지 검색 공간을 평가하지 않는다는 점입니다.
그 결과, 모든 가능한 서브넷 (즉, 검색 공간 내 모델 구성)은 추가적인 파인튜닝 없이 강력한 성능을 달성하여 새로운 하드웨어 최적화에 따른 계산 비용을 크게 절감할 수 있습니다.
흥미롭게도, 학습 중에 명시적으로 보이지 않는 서브넷이 여전히 높은 성능을 보인다는 것을 발견했습니다 (부록 F), 이는 RF-DETR이 보이지 않는 아키텍처에 일반화될 수 있음을 시사합니다.
세그멘테이션을 위해 RF-DETR을 확장하는 것도 비교적 간단하며 가벼운 인스턴스 세그멘테이션 헤드만 추가하면 됩니다.
우리는 이 모델을 RF-DETR-Seg라고 부릅니다.

특히, 이를 통해 종단 간 가중치 공유 NAS를 활용하여 실시간 인스턴스 세그멘테이션을 위한 파레토 최적 아키텍처를 발견할 수 있습니다.

 

Standardizing Latency Evaluation.

우리는 COCO (Lin et al., 2014)와 Roboflow100-VL (RF100-VL) (Robicheux et al., 2025)에 대한 접근 방식을 평가하여 실시간 디텍터 중 SOTA 성능을 달성했습니다.
RF-DETR (nano)은 비슷한 실행 시간에서 COCO에서 D-FINE (nano)을 5% AP 능가하며, RF-DETR (2x-large)은 RF100-VL에서 GroundDINO (small)를 런타임의 일부에서 능가합니다.

RF-DETR-Seg (nano)는 COCO에서 YOLOv11-Seg (x-large)를 4배 빠르게 실행하면서도 성능이 뛰어납니다.
그러나 보고된 latency 평가가 논문마다 크게 다르기 때문에 RF-DETR의 latency를 이전 연구와 비교하는 것은 여전히 어려운 과제입니다.
특히, 각 새로운 모델은 하드웨어에서 공정한 비교를 위해 이전 작업의 latency를 다시 벤치마킹합니다.
예를 들어, D-FINE이 보고한 LW-DETR (Chen et al., 2024a)의 latency 평가는 원래 보고된 것보다 25% 빠릅니다.
우리는 이러한 재현성 부족이 주로 추론 중 GPU 전력 조절에 기인할 수 있음을 확인했습니다.
순방향 패스 간 버퍼링이 전력 초과 인출을 제한하고 latency 평가를 표준화한다는 것을 발견했습니다 (표 1).

표 1: latency 평가 표준화. latency 측정의 변동은 주로 전력 스로틀링과 GPU 과열에 기인할 수 있습니다. 우리는 전진 패스 사이에 200ms 동안 버퍼링하여 이 문제를 완화합니다. 특히, 이 벤치마킹 접근 방식은 지속적인 처리량을 측정하기 위해 설계된 것이 아니라 재현 가능한 latency 측정을 보장합니다. 우리는 TensorRT에서 YOLOv8과 YOLOv11의 mAP 결과를 재현할 수 없습니다. 이는 아마도 이러한 모델들이 멀티 클래스 NMS로 평가하지만 추론할 때 단일 클래스 NMS만 사용하기 때문일 것입니다. 표준 NMS 조정 신뢰 임계값인 0.01을 사용합니다. YOLOv8 및 YOLOv11 성능은 FP32에서 FP16으로 정량화될 때 더욱 저하되며, 이는 모든 모델이 동일한 모델 아티팩트를 사용하여 latency와 accuracy를 보고해야 함을 재확인합니다. 특히, D-FINE을 FP16으로 나이브하게 양자화하면 성능이 0.5 AP로 감소합니다. 저자의 export 코드를 ONNX opset 17 (부록 A)을 사용하도록 변경하여 이 문제를 해결합니다.
그림 1: Accuracy-Latency Pareto 곡선. 실시간 검출기를 위한 Pareto accuracy-latency 경계를 COCO 검출 검증 세트 (왼쪽 상단, 왼쪽 하단), COCO 세그멘테이션 검증 세트 (오른쪽 상단), RF100-VL 테스트 세트 (오른쪽 하단)에 배치합니다. RF100-VL에는 100개의 서로 다른 데이터셋이 포함되어 있기 때문에 N, S, M, L, XL, 2XL 구성에 대한 타겟 latency를 선택하고, 타겟 latency가 10% 이내인 RF-DETR 모델을 검색한 후 수렴으로 파인튜닝한 후 평균 성능을 보고합니다. 중요한 것은 COCO에 대한 RF-DETR의 연속 Pareto 곡선을 따라 있는 모든 지점이 단일 학 실행에서 도출된다는 점입니다.

Contributions.

세 가지 주요 기여 사항을 소개합니다.

먼저, RF100-VL (Robicheux et al., 2025)에서 이전의 최신 기술을 능가하는 스케줄러 없는 NAS 기반 탐지 및 세그멘테이션 모델과 COCO (Lin et al., 2014)에서 latencies가 40ms 이하인 실시간 방법을 소개합니다 (그림 1).
저희가 아는 한, RF-DETR은 COCO에서 60mAP를 초과한 최초의 실시간 검출기입니다.
다음으로, 엔드 투 엔드 객체 감지를 위한 accuracy-latency 트레이드오프를 개선하기 위해 가중치 공유 NAS의 "tunable-knobs"를 살펴봅니다 (그림 3).
특히, 가중치 공유 NAS를 사용하면 대규모 사전 학습을 활용하고 소규모 데이터셋으로 효과적으로 전송할 수 있습니다 (표 4).
마지막으로, latency를 측정하기 위한 현재의 벤치마킹 프로토콜을 재검토하고 재현성을 향상시키기 위한 간단한 표준화 절차를 제안합니다.

그림 3: NAS 검색 공간. RF-DETR의 Pareto 곡선을 따라 서로 다른 작동 지점을 평가할 때, 우리는 (a) 패치 크기, (b) 디코더 레이어 수, (c) 쿼리 수, (d) 이미지 해상도, 그리고 (e) 어텐션 블록당 윈도우 수를 변화시킵니다. 수천 개의 네트워크 구성을 병렬로 학습하는 것 외에도, 우리는 이 "architecture augmentation"이 정규화 역할을 하며 일반화를 향상시킨다는 것을 발견했습니다.
표 4: RF100-VL 평가. RF100-VL에서 실시간 및 오픈 어휘 객체 검출기와 RF-DETR을 비교합니다. 흥미롭게도 RF-DETR (2x-large)은 런타임의 극히 일부에서 GroundDINO (small)와 LLMDet (small)를 능가합니다. 우리는 100개의 데이터셋 전체에서 평균 latency와 FLOPs를 보고합니다. YOLOv8 및 YOLOv11의 latency 측정값은 RF100-VL의 모든 데이터셋에서 기본 튜닝된 NMS 임계값인 0.01이 제대로 작동하지 않을 수 있기 때문에 최적이 아닐 수 있습니다. 우리는 *을 가진 TensorRT 실행을 지원하지 않는 모델을 표시하고, 대신 PyTorch latency 결과를 보고합니다. RF100-VL에서 RF-DETR의 L, XL 및 Max 변형에 대한 부록 E를 참조하십시오.

 

 

2   Related Works

Neural Architecture Search (NAS)는 서로 다른 accuracy-latency 트레이드오프를 가진 모델 아키텍처의 패밀리를 자동으로 식별합니다 (Zoph & Le, 2016; Zoph et al., 2018; Real et al., 2019; Cai et al., 2018a).
초기 NAS 접근 방식 (Zoph & Le, 2016; Real et al., 2019)은 주로 정확도를 극대화하는 데 중점을 두었지만, 효율성에 대한 고려는 거의 없었습니다.
그 결과, 발견된 아키텍처 (예: NASNet 및 AmoebaNet)는 종종 계산 비용이 많이 들었습니다.

최신 하드웨어 인식 NAS 방법 (Cai et al., 2018b; Tan et al., 2019; Wu et al., 2019)은 하드웨어 피드백을 검색 프로세스에 직접 통합하여 이러한 한계를 해결했습니다.
그러나 이러한 방법들은 각 새로운 하드웨어 플랫폼에 대해 검색 및 학습 과정을 반복해야 합니다.
반면, OFA (Cai et al., 2019)는 accuracy-latency가 다른 수천 개의 서브넷을 동시에 최적화하여 학습과 검색을 분리하는 가중치 공유 NAS를 제안합니다.
현대의 방법들은 일반적으로 기존 탐지 프레임워크에서 표준 백본을 NAS 백본으로 대체하여 객체 탐지를 위해 NAS를 평가합니다.
이전 연구와 달리, 우리는 모든 타겟 데이터셋에 대해 파레토 최적의 accuracy-latency 트레이드오프를 찾기 위해 종단 간 객체 탐지 정확도를 직접 최적화합니다.

 

Real-Time Object Detectors는 안전이 중요한 인터랙티브 애플리케이션에서 중요한 관심사입니다.
역사적으로 Mask-RCNN (He et al., 2017)과 Hybrid Task Cascade (Chen et al., 2019)와 같은 2단계 검출기는 latency를 희생하면서도 SOTA 성능을 달성했으며, YOLO (Redmon et al., 2016)와 SSD (Liu et al., 2016)와 같은 단일 단계 검출기는 accuracy와 SOTA 런타임을 교환했습니다.
그러나 최신 탐지기 (Zhao et al., 2024)는 이러한 accuracy-latency 트레이드오프를 재검토하여 두 축 모두에서 동시에 개선됩니다.
최근 YOLO 변형은 빠른 추론을 유지하면서 성능을 향상시키기 위해 아키텍처, 데이터 증강 및 학습 기법을 혁신합니다 (Redmon et al., 2016; Wang et al., 2023; 2024; Jocher et al., 2023; 2024).
효율성에도 불구하고 대부분의 YOLO 모델은 non-maximum suppression (NMS)에 의존하여 latency가 추가됩니다.
반면, DETR (Carion et al., 2020)은 NMS 및 앵커 박스와 같은 수작업 구성 요소를 제거합니다.
그러나 초기 DETR 변형 (Zhu et al., 2020; Zhang et al., 2022a; Meng et al., 2021; Liu et al., 2022)은 런타임 비용으로 강력한 accuracy를 달성하여 실시간 애플리케이션에서의 사용을 제한했습니다.
RT-DETR (Zhao et al., 2024a) 및 LW-DETR (Chen et al., 2024a)과 같은 최근 연구들은 고성능 DETR을 실시간 애플리케이션에 성공적으로 적용했습니다.

LW-DETR을 기반으로 한 RF-DETR은 COCO에서 60 AP 이상을 달성한 최초의 실시간 검출기입니다.

 

Vision-Language Models은 웹에서 대규모로 약하게 감독된 이미지-텍스트 쌍으로 학습됩니다.
이러한 인터넷 규모의 사전 학습은 오픈 어휘 객체 탐지를 가능하게 하는 핵심 요소입니다 (Liu et al., 2023; Cheng et al., 2024). GLIP (Li et al., 2022)는 단일 텍스트 쿼리로 구문 기반 탐지를 프레임화하고, Detic (Zhou et al., 2022)은 ImageNet 수준의 감독을 사용하여 롱테일 탐지를 강화합니다 (Russakovsky et al., 2015).
MQ-Det (Xu et al., 2024)은 멀티모달 프롬프트를 지원하는 학습 가능한 모듈로 GLIP를 확장합니다.
최근 VLM은 강력한 제로샷 성능을 보이며 다양한 다운스트림 작업에서 블랙박스 모델로 자주 적용됩니다 (Ma et al., 2023; Peri et al., 2023; Khurana et al., 2024; Osep et al., 2024; Takmaz et al., 2025).
그러나 Robicheaux et al. (2025)은 이러한 모델이 일반적으로 사전 학습에서 발견되지 않는 카테고리에서 평가될 때 성능이 좋지 않다는 것을 발견했으며, 이를 위해서는 추가적인 파인튜닝이 필요합니다.
또한, 많은 비전-언어 모델이 지나치게 느려서 실시간 작업에 사용하기 어렵습니다.
반면, RF-DETR은 실시간 검출기의 빠른 추론과 VLM의 인터넷 규모 사전 정보를 결합하여 RF100-VL 및 COCO에서 모든 latencies가 40ms 이하일 때 SOTA 성능을 달성합니다.

 

 

 

3   RF-DETR: Weight-Sharing NAS with Foundation Models

이 섹션에서는 base 모델의 아키텍처 (그림 2)를 설명하고 가중치 공유 NAS의 "tunable knobs"를 소개합니다 (그림 3).
또한, 수작업으로 설계된 학습 속도와 증강 스케줄러의 한계를 강조하고 스케줄러 없는 접근 방식을 지지합니다.

그림 2: RF-DETR 아키텍처. RF-DETR은 사전 학습된 ViT 백본을 사용하여 입력 이미지의 멀티 스케일 피쳐를 추출합니다. accuracy와 latency의 균형을 맞추기 위해 윈도우가 있는 어텐션 블록과 윈도우가 없는 어텐션 블록을 분리합니다. 특히, 변형 가능한 크로스-어텐션 레이어와 세그멘테이션 헤드는 모두 프로젝터의 출력을 이중 선형 보간하여 일관된 공간 구성을 가능하게 합니다. 마지막으로, 추론 시 디코더 드롭아웃을 용이하게 하기 위해 모든 디코더 레이어에 감지 및 세그멘테이션 loss를 적용합니다.

Incorporating Internet-Scale Priors.

RF-DETR은 다양한 타겟 도메인에 대한 일반화를 개선하기 위해 아키텍처와 학습 절차를 간소화하여 LW-DETR (Chen et al., 2024a)을 현대화합니다.
먼저, LW-DETR의 CAEv2 (Zhang et al., 2022b) 백본을 DINOv2 (Oquab et al., 2023)로 교체합니다.
우리는 DINOv2의 사전 학습된 가중치로 백본을 초기화하면 소규모 데이터셋에서 탐지 정확도가 크게 향상된다는 것을 발견했습니다.
특히 CAEv2의 인코더는 패치 크기가 16인 10개의 레이어로 구성되어 있으며, DINOv2의 인코더는 12개의 레이어로 구성되어 있습니다.
우리의 DINOv2 백본은 CAEv2보다 더 많은 레이어를 가지고 있고 느리지만, NAS를 사용하여 이 latency를 보완합니다 (다음에 논의하겠습니다).
마지막으로, 멀티스케일 프로젝터에서 배치 norm 대신 레이어 norm을 사용하여 그래디언트 축적을 통해 소비자급 GPU에 대한 학습을 용이하게 합니다.

 

Real-Time Instance Segmentation.

Li et al. (2023)에서 영감을 받아 경량 인스턴스 세그멘테이션 헤드를 추가하여 고품질 세그멘테이션 마스크를 공동으로 예측합니다.
우리의 세그멘테이션 헤드는 인코더의 출력을 이중 선형 보간하고 경량 프로젝터를 학습하여 픽셀 임베딩 맵을 생성합니다.
구체적으로, 감지 및 세그멘테이션 헤드에 대해 동일한 저해상도 피쳐 맵을 업샘플링하여 관련 공간 정보를 포함하도록 합니다.
MaskDINO (Li et al., 2023)와 달리, latency를 최소화하기 위해 세그멘테이션 헤드에 멀티스케일 백본 피쳐를 통합하지 않습니다.
마지막으로, 픽셀 임베딩 맵을 사용하여 모든 투영 쿼리 토큰 임베딩 (FFN에 의해 변환된 각 디코더 레이어의 출력)의 내적을 계산하여 세그멘테이션 마스크를 생성합니다.
흥미롭게도 이러한 픽셀 임베딩을 세그멘테이션 프로토타입으로 해석할 수 있습니다 (Bolya et al., 2019).
사전 학습이 DETR을 개선한다는 LW-DETR의 관찰에 영감을 받아, 우리는 SAM2 (Ravi et al., 2024) 인스턴스 마스크로 라벨링된 Objects-365 (Shao et al., 2019)에서 RF-DETR-Seg를 사전 학습시킵니다.

 

End-to-End Neural Architecture Search.

우리의 가중치 공유 NAS는 다양한 입력 이미지 해상도, 패치 크기, 윈도우 어텐션 블록, 디코더 레이어, 쿼리 토큰을 사용하여 수천 개의 모델 구성을 평가합니다.
모든 학습 반복마다 우리는 랜덤 모델 구성을 균일하게 샘플링하고 그래디언트 업데이트를 수행합니다 (부록 A).
이를 통해 우리 모델은 드롭아웃을 통한 앙상블 학습과 유사하게 수천 개의 서브넷을 효율적으로 병렬로 학습할 수 있습니다 (Srivastava et al., 2014).
우리는 이 가중치 공유 NAS 접근 방식이 학습 중에 정규화 역할을 하여 "architecture augmentation"을 효과적으로 수행한다는 것을 발견했습니다.
저희가 아는 한, RF-DETR은 객체 감지 및 세그멘테이션에 적용된 최초의 종단 간 가중치 공유 NAS입니다.
아래에서 각 구성 요소를 설명합니다.

  • 패치 크기.
작은 패치는 더 큰 계산 비용으로 더 높은 정확도를 제공합니다.
우리는 학습 중에 패치 크기를 보간하기 위해 FlexiVIT-Style (Beyer et al., 2023) 변환을 채택합니다.

  • 디코더 레이어의 수.
최근 DETR (Peng et al., 2024; Zhao et al., 2024)과 유사하게, 우리는 학습 중 모든 디코더 레이어의 출력에 회귀 loss를 적용합니다.
따라서 추론 중에 any (또는 all) 디코더 블록을 삭제할 수 있습니다.
흥미롭게도 추론 중에 전체 디코더를 제거하면 RF-DETR이 단일 단계 검출기로 효과적으로 전환됩니다.
특히 디코더를 자르면 세그멘테이션 브랜치의 크기도 줄어들어 세그멘테이션 latency를 더 잘 제어할 수 있습니다.

  • 쿼리 토큰의 수.
쿼리 토큰은 바운딩 박스 회귀 및 세그멘테이션을 위한 공간 우선순위를 학습합니다.
우리는 최대 탐지 횟수를 변경하고 추론 latency를 줄이기 위해 테스트 시간에 쿼리 토큰 (인코더 출력 시 토큰당 해당 클래스 로짓의 최대 시그모이드 순서대로 정렬됨, 부록 B 참조)을 삭제합니다.
파레토 최적 쿼리 토큰 수는 타겟 데이터셋의 이미지당 평균 객체 수에 대한 데이터셋 통계를 암묵적으로 인코딩합니다.

  • 이미지 해상도.

해상도가 높을수록 작은 물체 감지 성능이 향상되고, 해상도가 낮을수록 런타임이 향상됩니다.
우리는 가장 큰 이미지 해상도를 가장 작은 패치 크기로 나눈 N개의 위치 임베딩을 사전에 할당하고, 이러한 임베딩을 더 작은 해상도 또는 더 큰 패치 크기로 보간합니다.

  • 창이 있는 어텐션 블록당 창 수.
윈도우 어텐션은 고정된 수의 인접 토큰만 처리하도록 셀프 어텐션을 제한합니다.
정확성, 전역 정보 혼합, 계산 효율성을 균형 있게 맞추기 위해 블록당 창을 추가하거나 제거할 수 있습니다.

 

추론 시점에 accuracy-latency Pareto 곡선에서 작동 지점을 선택하기 위해 특정 모델 구성을 선택합니다.
중요한 것은 모델 구성마다 매개변수 수는 비슷하지만 latency가 크게 다를 수 있다는 점입니다.
Cai et al. (2019)과 마찬가지로 COCO (부록 G)에서 NAS 채굴 모델을 파인튜닝해도 별다른 이점이 없지만, RF100-VL에서 NAS 채굴 모델을 파인튜닝하면 약간의 개선이 이루어졌습니다.
이 추가 파인튜닝은 선택 사항이며 실제 배포에는 종종 불필요합니다.
RF-DETR은 "architecture augmentation" 정규화가 소규모 데이터셋에 수렴하는 데 100개 이상의 에포크가 필요하기 때문에 RF100-VL에서 추가적인 파인튜닝을 통해 이점을 얻을 수 있다고 가정합니다.
특히, 이전의 가중치 공유 NAS 방법 (Cai et al., 2019)은 단계별로 학습하고 단계별로 다른 학습률 스케줄러를 사용합니다.
그러나 이러한 스케줄러는 모델 수렴에 대해 엄격한 가정을 하며, 이는 다양한 데이터셋에 적용되지 않을 수 있습니다.

 

Training Schedulers and Augmentations Bias Model Performance.

SOTA 탐지기는 표준 벤치마크에서 성능을 극대화하기 위해 신중한 하이퍼파라미터 튜닝이 필요한 경우가 많습니다.
그러나 이러한 맞춤형 학습 절차는 암묵적으로 모델을 특정 데이터셋 특성 (예: 이미지 수)으로 편향시킵니다.
DINOv3 (Sim'eoni et al., 2025)와 동시에, 우리는 코사인 스케줄이 알려진 (고정된) 최적화 지평을 가정한다는 것을 관찰했습니다, 이는 RF100-VL과 같은 다양한 타겟 데이터셋에서는 비현실적입니다.
데이터 증강은 데이터셋 속성에 대한 prior 지식을 가정함으로써 유사한 편향을 초래합니다.
예를 들어, 이전 연구에서는 공격적인 데이터 증강 (예: VerticalFlip, RandomFlip, RandomResize, RandomCrop, YOLOXHSVRandomAug, CachedMixUp)을 활용하여 효과적인 데이터셋 크기를 늘렸습니다.
그러나 VerticalFlip과 같은 특정 증강은 안전이 중요한 영역에서 모델 예측을 부정적으로 편향시킬 수 있습니다.
예를 들어, 자율 주행 차량의 사람 감지기는 웅덩이의 반사로 인한 오탐을 방지하기 위해 VerticalFlip으로 학습되어서는 안 됩니다.
따라서, 우리는 수평 플립과 랜덤 크롭으로 증강을 제한합니다.
마지막으로, LW-DETR은 각 이미지가 배치에서 가장 큰 이미지와 일치하도록 패딩되는 이미지별 랜덤 크기 확대를 적용합니다.
그 결과, 대부분의 이미지에는 상당한 패딩이 있어 창 아티팩트가 발생하고 패딩된 영역에서 계산이 낭비됩니다.
반면, 배치 수준에서 이미지 크기를 조정하여 배치당 패딩된 픽셀 수를 최소화하고 모든 위치 인코딩 해상도가 학습 시간에 동일하게 표시되도록 합니다.

 

 

 

4   Experiments

우리는 COCO와 RF100-VL에서 RF-DETR을 평가하고, 우리의 접근 방식이 모든 실시간 방법 중에서 SOTA accuracy를 달성함을 입증합니다.
또한, 표준 벤치마킹 프로토콜의 불일치를 식별하고 재현성을 향상시키기 위한 간단한 표준화 절차를 제시합니다.
LW-DETR (Chen et al., 2024a)을 따라 유사한 latency를 가진 모델을 매개변수 수에 따라 그룹화하지 않고 동일한 크기의 버킷으로 그룹화합니다.

 

Datasets and Metrics.

우리는 이전 연구와 공정하게 비교하기 위해 COCO에서 RF-DETR을 평가하고, 데이터 분포가 상당히 다른 실제 데이터셋에 대한 일반화를 평가하기 위해 RF100-VL을 사용합니다.
RF100-VL의 100개 데이터셋이 다양하기 때문에, 우리는 이 벤치마크에서 전반적인 성능이 모든 타겟 도메인으로의 전이 가능성을 나타내는 지표라고 가정합니다.
우리는 pycocotools를 사용하여 mean average precision (mAP)와 같은 표준 지표를 보고하고, AP_50, AP_75, AP_Small, AP_Medium, AP_Large에 대한 분석을 제공합니다.
또한 Tensor-RT 10.4 및 CUDA 12.4를 사용하는 NVIDIA T4 GPU에서 GFLOP, 매개변수 수, 추론 latency를 측정하여 효율성을 평가합니다.

 

Standardizing Latency Benchmarking.

성숙도에도 불구하고 벤치마킹 객체 탐지기는 이전 연구에서 일관성이 없습니다.
예를 들어, YOLO 기반 모델은 latency를 계산할 때 non-maximal suppression (NMS)를 생략하는 경우가 많아, 종단 간 탐지기와의 불공정한 비교를 초래합니다.

또한, YOLO 기반 세그멘테이션 모델은 직접 사용할 수 있는 객체별 마스크 (Jocher et al., 2024) 대신 프로토타입 예측 생성 latency를 측정하여 편향된 런타임 측정을 유도합니다.
또한, D-FINE이 보고한 LW-DETR의 latency 평가는 Chen et al. (2024b)이 보고한 것보다 25% 빠릅니다.
이러한 차이는 특히 GPU 과열 시 감지 가능한 전력 스로틀링 이벤트에 기인할 수 있음을 관찰했습니다 (표 1).
반면, 연속 전진 패스 사이에 200ms 동안 일시 정지하는 것만으로도 전력 스로틀링이 크게 완화되어 보다 안정적인 latency 측정이 가능합니다 (부록 K).
마지막으로, 이전 연구에서는 종종 FP16 양자화 모델을 사용하여 latency를 보고하지만, FP32 모델을 사용하여 accuracy를 평가한다는 것을 발견했습니다.
그러나 단순한 양자화는 성능을 크게 저하시킬 수 있습니다 (어떤 경우에는 성능이 거의 0 AP로 저하될 수 있습니다).
공정한 비교를 위해 동일한 모델 아티팩트를 사용하여 accuracy와 latency를 보고할 것을 권장합니다.
저희는 독립형 벤치마킹 도구를 GitHub에 출시합니다.

표 2: COCO 탐지 평가. 우리는 RF-DETR을 인기 있는 실시간 및 개방형 어휘 객체 검출기와 비교합니다. RF-DETR (nano)이 D-FINE (nano) 및 LW-DETR (small)을 5 AP 이상 능가한다는 것을 발견했습니다. RF-DETR은 YOLOv8 및 YOLOv11을 크게 능가하며, RF-DETR의 nano 크기는 YOLOv8 및 YOLOv11의 medium 크기 모델과 성능 동등성을 달성합니다. 우리는 *을 가진 TensorRT 실행을 지원하지 않는 모델을 표시하고, 대신 PyTorch latency 결과를 보고합니다. COCO에서 RF-DETR의 L, XL 및 Max 변형에 대한 부록 E를 참조하십시오.

Evaluating RF-DETR and RF-DETR-Seg on COCO.

COCO (Lin et al., 2014)는 객체 감지 및 인스턴스 세그멘테이션을 위한 플래그십 벤치마크입니다.
표 2에서는 RF-DETR을 주요 실시간 및 개방형 어휘 탐지기와 비교합니다.
RF-DETR (nano)은 D-FINE (nano)과 LW-DETR (nano)을 모두 5 AP 이상 능가합니다.
small 및 medium에서도 비슷한 추세를 보이고 있습니다.
특히 RF-DETR은 YOLOv8 및 YOLOv11보다 훨씬 뛰어납니다.
RF-DETR (nano)은 YOLOv8 및 YOLOv11 (medium)의 성능과 일치합니다.
우리는 mmDetection의 GroundDINO 구현을 사용하며, COCO에서 파인튜닝된 GroundDINO 모델 아티팩트를 공개하지 않기 때문에 보고된 AP를 포함합니다.
우리는 공개된 오픈 어휘 모델을 사용하여 mmGroundingDINO의 매개변수 수, GFLOPS 및 latency를 벤치마킹합니다.
표 3에서는 RF-DETR-Seg를 실시간 인스턴스 세그멘테이션 모델과 비교합니다.
RF-DETR-Seg (nano)는 모든 크기에서 YOLOv8 및 YOLOv11을 능가합니다.
또한 RF-DETR-Seg (nano)는 거의 10배 더 빠르게 실행되면서 FastInst를 5.4% 능가합니다.
마찬가지로, RF-DETR (x-large)은 GroundDINO (small)를 능가하고, RF-DETR-Seg (large)는 실행 시간의 일부에서 MaskDINO (R50)를 능가합니다. 

표 3: COCO 인스턴스 세그멘테이션 평가. 우리는 RF-DETR을 COCO에서 인기 있는 실시간 인스턴스 세그멘테이션 방법과 비교합니다. 특히 RF-DETR (nano)은 보고된 모든 YOLOv8 및 YOLOv11 모델 크기를 능가합니다. 추가 RF-DETR (nano)은 FastInst를 5.4% 능가하면서도 거의 10배 더 빠르게 작동합니다. RF-DETR (medicum)은 실행 시간의 일부에서 MaskDINO의 성능에 접근합니다. 우리는 *을 가진 TensorRT 실행을 지원하지 않는 모델을 표시하고, 대신 PyTorch latency 결과를 보고합니다. YOLO의 latency에는 프로토를 마스크로 변환하는 것도 포함되며, 이는 일반적으로 이전 벤치마크에 포함되지 않지만 그럼에도 불구하고 실질적인 latency에 의미 있게 기여합니다. COCO에서 RF-DETR-Seg의 L, XL 및 Max 변형에 대한 부록 E를 참조하십시오.

Evaluating RF-DETR on RF100-VL.

RF100-VL은 100개의 다양한 데이터셋으로 구성된 도전적인 탐지 벤치마크입니다.
우리는 표 4에 있는 모든 100개의 데이터셋에서 평균화된 latency, FLOPs, accuracy를 보고합니다.
우리의 결과는 RF-DETR (2x-large)이 GroundDINO 및 LLMDet보다 성능이 뛰어나며, 실행 시간의 일부만 필요하다는 것을 보여줍니다.
흥미롭게도 RT-DETR은 AP50에서 D-FINE (RT-DETR 기반)보다 성능이 뛰어나며, 이는 D-FINE의 하이퍼파라미터가 잠재적으로 COCO에 과적합될 수 있음을 나타냅니다.
또한 RF-DETR은 더 큰 백본 크기로 확장함으로써 이점을 얻을 수 있습니다 (부록 E).
반면, YOLOv8과 YOLOv11은 지속적으로 DETR 기반 검출기보다 성능이 낮으며, 이러한 모델 제품군을 더 큰 크기로 확장해도 RF100-VL에서의 성능이 향상되지 않습니다 그림 1).

 

Impact of Neural Architecture Search.

표 3에서 weight-sharing NAS의 영향을 요약합니다.
LW-DETR에 비해 더 부드러운 하이퍼파라미터 세트 (예: 더 큰 배치 크기, 더 낮은 학습률, 배치 정규화를 레이어 정규화로 대체)를 채택하면 LW-DETR에 비해 성능이 1.0% 감소한다는 것을 발견했습니다.
특히 배치 정규화를 레이어 정규화로 대체하면 성능이 저하되지만, 소비자 하드웨어에 대한 학습이 필요합니다.
그러나 LW-DETR의 CAEv2 백본을 DINOv2로 교체하면 성능이 2% 향상됩니다.
특히 낮은 학습률은 DINOv2의 사전 학습된 지식을 보존하는 데 도움이 되며, Objects-365 사전 학습의 추가 에포크는 느린 최적화를 더욱 보완합니다.
weight-sharing NAS를 탑재한 최종 모델은 latency를 늘리지 않으면서 LW-DETR 대비 2% 향상되었습니다.

 

Impact of Backbone Architecture and Pre-Training.

우리는 RF-DETR에서 다양한 백본 아키텍처의 영향을 연구합니다.
우리는 DINOv2가 CAEv2를 2% 능가하는 최고의 성능을 달성한 것으로 나타났습니다.
흥미롭게도 SigLIPv2보다 매개변수가 적음에도 불구하고 SAM2의 Hiera-S 백본은 상당히 느립니다.
이는 동등한 성능의 ViT보다 의미 있게 빠르다는 Hiera의 주장과 대조적입니다.
그러나 Hiera는 TensorRT와 같은 컴파일러에서 매우 최적화된 Flash Attention 커널의 맥락에서 latency를 탐구하지 않습니다.
또한, 기존의 파운데이션 모델 제품군은 일반적으로 ViT-S나 ViT-T와 같은 가벼운 ViT 변형을 출시하지 않기 때문에 이러한 모델을 실시간 응용 프로그램에 재사용하기 어렵습니다.

 

Rethinking Standard Accuracy Benchmarking Practices.

이전 작업에 이어 검증 세트에 대한 모든 COCO 결과를 보고합니다.
그러나 모델 선택과 평가 모두에 대한 검증에만 의존하면 과적합이 발생할 수 있습니다.
예를 들어, RT-DETR을 기반으로 한 D-FINE은 COCO의 검증 세트에 대해 광범위한 하이퍼파라미터 스윕을 수행하고 최적의 모델을 보고합니다.
그러나 RF100-VL에서 이 구성을 평가한 결과, D-FINE이 테스트 세트에서 RT-DETR보다 성능이 떨어지는 것으로 나타났습니다.
반면, 우리의 방법은 RF100-VL과 COCO 모두에서 모든 실시간 검출기 중 SOTA 성능을 달성하여 weight-sharing NAS의 견고성을 입증합니다.
COCO에서 평가하는 것 외에도, 우리는 미래의 탐지기가 RF100-VL과 같은 공개 검증 및 테스트 분할 데이터셋에서도 평가해야 한다고 주장합니다.

 

Limitations.

추론 중에 전력 스로틀링과 GPU 과열을 제어했음에도 불구하고, 컴파일 중 TensorRT의 비결정론적 동작으로 인해 latency 측정값은 여전히 최대 0.1ms의 변동을 보입니다.
특히, TensorRT는 파워 스로틀링을 도입할 수 있으며, 이는 결과 엔진에 영향을 미치고 latency의 랜덤 변동을 초래합니다.
주어진 TensorRT 엔진의 측정값은 일반적으로 일관성이 있지만, 동일한 ONNX 아티팩트를 다시 컴파일하면 약간 다른 latency 결과가 나올 수 있습니다.
따라서 소수점 이하 자릿수 뒤에 한 자릿수의 정확도로 latency를 보고합니다.

 

 

 

5   Conclusion

이 논문에서는 다양한 타겟 데이터셋과 하드웨어 플랫폼에 대해 전문가의 엔드투엔드 객체 탐지기를 파인튜닝하는 SOTA NAS 기반 방법인 RF-DETR을 소개합니다.
우리의 접근 방식은 COCO와 RF100-VL에서 이전의 SOTA 실시간 방법들을 능가하며, D-FINE (nano) 대비 COCO 대비 5% 향상되었습니다.
또한, 현재 아키텍처, 학습 속도 스케줄러 및 증강 스케줄러가 COCO에서 성능을 극대화하도록 맞춤화되어 있음을 강조하며, 커뮤니티가 암묵적 과적합을 방지하기 위해 다양한 대규모 데이터셋에서 모델을 벤치마킹해야 한다고 제안합니다.
마지막으로, 전력 스로틀링으로 인한 latency 벤치마킹의 높은 분산을 강조하고 재현성을 향상시키기 위한 표준화된 프로토콜을 제안합니다.