2025. 11. 6. 16:14ㆍDeep Learning
End-to-End Object Detection with Transformers
Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko
Abstract.
우리는 객체 탐지를 직접 집합 예측 문제로 보는 새로운 방법을 제시합니다.
우리의 접근 방식은 탐지 파이프라인을 간소화하여 non-maximum 억제 절차나 작업에 대한 사전 지식을 명시적으로 인코딩하는 앵커 생성과 같은 수작업으로 설계된 많은 구성 요소의 필요성을 효과적으로 제거합니다.
새로운 프레임워크의 주요 구성 요소인 DEtection TRamsformer 또는 DETR은 이분 매칭을 통해 고유한 예측을 강제하는 집합 기반 전역 loss와 트랜스포머 인코더-디코더 아키텍처입니다.
학습된 객체 쿼리의 고정된 작은 집합이 주어졌을 때, DETR은 객체와 전역 이미지 컨텍스트의 관계를 추론하여 최종 예측 집합을 병렬로 직접 출력합니다.
새로운 모델은 개념적으로 단순하며 다른 많은 최신 탐지기와 달리 전문 라이브러리가 필요하지 않습니다.
DETR은 까다로운 COCO 객체 감지 데이터셋에서 잘 확립되고 고도로 최적화된 Faster RCNN 베이스라인과 동등한 정확도와 런타임 성능을 보여줍니다.
또한 DETR은 쉽게 일반화하여 통합된 방식으로 파놉틱 세그멘테이션을 생성할 수 있습니다.
우리는 그것이 경쟁 베이스라인을 크게 능가한다는 것을 보여줍니다.
1 Introduction
객체 감지의 목표는 각 관심 객체에 대한 바운딩 박스와 카테고리 라벨 세트를 예측하는 것입니다.
최신 탐지기는 대규모 제안 [37,5], 앵커 [23] 또는 윈도우 중심 [53,46]에서 대리 회귀 및 분류 문제를 정의하여 이 집합 예측 작업을 간접적으로 해결합니다.
그들의 성능은 거의 중복에 가까운 예측을 붕괴시키기 위한 후처리 단계, 앵커 세트의 설계, 그리고 앵커에 타겟 박스를 할당하는 휴리스틱에 의해 크게 향상됩니다 [52].
이러한 파이프라인을 단순화하기 위해, 우리는 대리 작업을 우회하는 직접 집합 예측 접근 방식을 제안합니다.
이 종단 간 철학은 기계 번역이나 음성 인식과 같은 복잡한 구조화된 예측 작업에서 상당한 발전을 가져왔지만, 아직 객체 감지에서는 그렇지 않습니다: 이전 시도 [43,16,4,39]는 다른 형태의 사전 지식을 추가하거나, 도전적인 벤치마크에 대한 강력한 베이스라인과 경쟁력이 입증되지 않았습니다.
이 논문은 이러한 격차를 해소하는 것을 목표로 합니다.
객체 탐지를 직접적인 집합 예측 문제로 간주하여 학습 파이프라인을 간소화합니다.
우리는 시퀀스 예측을 위한 인기 있는 아키텍처인 트랜스포머를 기반으로 한 인코더-디코더 아키텍처를 채택합니다 [47].
트랜스포머의 셀프-어텐션 메커니즘은 시퀀스 내 요소들 간의 모든 쌍별 상호작용을 명시적으로 모델링하여 이러한 아키텍처를 중복 예측 제거와 같은 특정 집합 예측 제약 조건에 특히 적합하게 만듭니다.

우리의 DEtection TRansformer (DETR, 그림 1 참조)는 모든 객체를 한 번에 예측하며, 예측된 객체와 실제 객체 간의 이분법적 매칭을 수행하는 집합 loss 함수를 사용하여 종단 간 학습을 수행합니다.
DETR은 공간 앵커나 비최대 억제와 같은 사전 지식을 인코딩하는 여러 수작업 구성 요소를 삭제하여 탐지 파이프라인을 간소화합니다.
대부분의 기존 탐지 방법과 달리 DETR은 맞춤형 레이어가 필요하지 않으므로 표준 CNN 및 트랜스포머 클래스가 포함된 모든 프레임워크에서 쉽게 재현할 수 있습니다.
대부분의 이전 직접 집합 예측 연구와 비교했을 때, DETR의 주요 피쳐는 이분 매칭 loss와 트랜스포머를 (비자기회귀) 병렬 디코딩과 결합한 것입니다 [29,12,10,8].
반면, 이전 연구는 RNN을 사용한 자기회귀 디코딩에 초점을 맞췄습니다 [43,41,30,36,42].
우리의 매칭 loss 함수는 예측을 실제 객체에 고유하게 할당하며, 예측된 객체의 순열에 불변하므로 병렬로 방출할 수 있습니다.
우리는 가장 인기 있는 객체 탐지 데이터셋 중 하나인 COCO [24]를 매우 경쟁적인 Faster R-CNN 베이스라인 [37]과 비교하여 DETR을 평가했습니다.
Faster R-CNN은 여러 번의 설계 과정을 거쳤으며, 원래 출판된 이후로 성능이 크게 향상되었습니다.
우리의 실험 결과, 새로운 모델이 비슷한 성능을 달성한 것으로 나타났습니다.
더 정확히 말하자면, DETR은 대형 객체에서 훨씬 더 나은 성능을 보여주며, 이는 트랜스포머의 비로컬 계산에 의해 가능해진 결과일 가능성이 높습니다.
그러나 작은 물체에서 성능이 저하됩니다.
향후 연구에서는 FPN [22]의 Faster R-CNN 개발과 동일한 방식으로 이 측면을 개선할 수 있을 것으로 기대합니다.
DETR의 학습 설정은 여러 면에서 표준 물체 감지기와 다릅니다.
새로운 모델은 매우 긴 학습 일정이 필요하며, 트랜스포머의 보조 디코딩 loss로부터 이점을 얻습니다.
시연된 성능에 중요한 구성 요소가 무엇인지 철저히 탐구합니다.
DETR의 디자인 정신은 더 복잡한 작업으로 쉽게 확장될 수 있습니다.
우리의 실험에서, 우리는 사전 학습된 DETR 위에 학습된 간단한 세그멘테이션 헤드가 최근 인기를 얻고 있는 어려운 픽셀-레벨 인식 작업인 Panoptic Segmentation [19]에서 경쟁 베이스라인을 능가한다는 것을 보여줍니다.
2 Related work
우리의 작업은 여러 분야에서의 이전 작업을 기반으로 합니다: 세트 예측을 위한 이분 매칭 loss, 트랜스포머 기반 인코더-디코더 아키텍처, 병렬 디코딩 및 객체 감지 방법.
2.1 Set Prediction
집합을 직접 예측할 수 있는 표준 딥러닝 모델은 없습니다.
기본 집합 예측 작업은 요소들 사이에 기본 구조가 있는 탐지와 같은 문제에는 기본 접근 방식인 one-vs-rest가 적용되지 않는 멀티 레이블 분류 (예: [40,33] 컴퓨터 비전 관련 참고 자료 참조) 입니다 (즉, near-identical 상자).
이 작업들에서 첫 번째 어려움은 거의 중복되지 않는 것입니다.
대부분의 현재 검출기는 이 문제를 해결하기 위해 비최대 억제와 같은 후처리를 사용하지만, 직접 집합 예측은 후처리가 필요하지 않습니다.
중복을 피하기 위해 모든 예측 요소 간의 상호 작용을 모델링하는 전역 추론 체계가 필요합니다.
일정 크기 집합 예측을 위해, 밀집된 완전 연결 네트워크 [9]는 충분하지만 비용이 많이 듭니다.
일반적인 접근 방식은 순환 신경망과 같은 자동 회귀 시퀀스 모델을 사용하는 것입니다 [48].
모든 경우에 loss 함수는 예측의 순열에 의해 불변해야 합니다.
일반적인 해결책은 Hungarian 알고리즘 [20]을 기반으로 loss를 설계하여 ground-truth와 예측 간의 이분법적 일치를 찾는 것입니다.
이는 순열 불변성을 강제하고 각 타겟 요소가 고유한 일치를 갖도록 보장합니다.
우리는 이분법 매칭 loss 접근법을 따릅니다.
그러나 대부분의 이전 연구와 달리, 우리는 자기회귀 모델에서 벗어나 병렬 디코딩이 가능한 트랜스포머를 사용합니다, 이는 아래에서 설명합니다.
2.2 Transformers and Parallel Decoding
트랜스포머는 기계 번역을 위한 새로운 어텐션 기반 빌딩 블록으로 Vaswani et al. [47]에 의해 소개되었습니다.
어텐션 메커니즘 [2]은 전체 입력 시퀀스에서 정보를 수집하는 신경망 레이어입니다.
트랜스포머는 비로컬 신경망 [49]과 마찬가지로 시퀀스의 각 요소를 스캔하고 전체 시퀀스의 정보를 집계하여 업데이트하는 셀프 어텐션 레이어를 도입했습니다.
어텐션 기반 모델의 주요 장점 중 하나는 전역 계산과 완벽한 메모리로, 긴 시퀀스에서 RNN보다 더 적합하다는 점입니다.
트랜스포머는 이제 자연어 처리, 음성 처리 및 컴퓨터 비전의 많은 문제에서 RNN을 대체하고 있습니다 [8,27,45,34,31].
트랜스포머는 초기 시퀀스-투-시퀀스 모델[ 44]을 따라 자동 회귀 모델에서 처음 사용되었으며, 출력 토큰을 하나씩 생성했습니다.
그러나 엄청난 추론 비용 (출력 길이에 비례하고 배치하기 어려운)은 오디오 [29], 기계 번역 [12, 10], 단어 표현 학습 [8], 그리고 최근에는 음성 인식 [6] 분야에서 병렬 시퀀스 생성의 발전으로 이어집니다.
우리는 또한 트랜스포머와 병렬 디코딩을 결합하여 계산 비용과 집합 예측에 필요한 전역 계산을 수행하는 능력 간의 적절한 절충안을 제시합니다.
2.3 Obejct detection
대부분의 최신 객체 감지 방법은 초기 추측을 바탕으로 예측을 수행합니다.
2단계 검출기 [37,5]는 제안서에 대해 상자를 예측하는 반면, 단일 단계 방법은 앵커 [23] 또는 가능한 객체 중심 그리드 [53,46]에 대해 예측을 수행합니다.
최근 연구 [52]는 이러한 시스템의 최종 성능이 이러한 초기 추측을 정확하게 설정하는 방식에 크게 의존한다는 것을 보여줍니다.
우리 모델에서는 이 수작업 프로세스를 제거하고 앵커가 아닌 입력 이미지에 대한 절대 박스 예측을 통해 탐지 세트를 직접 예측함으로써 탐지 프로세스를 간소화할 수 있습니다.
Set-based loss.
여러 객체 탐지기 [9,25,35]는 이분 매칭 loss를 사용했습니다.
그러나 이러한 초기 딥러닝 모델에서는 다양한 예측 간의 관계를 컨볼루션 또는 완전 연결 레이어로만 모델링했으며, 수작업으로 설계된 NMS 후처리를 통해 성능을 향상시킬 수 있습니다.
최근의 탐지기 [37,23,53]는 NMS와 함께 ground truth와 예측 간의 비일관적 할당 규칙을 사용합니다.
학습 가능한 NMS 방법 [16,4]과 관계 네트워크 [17]은 서로 다른 예측 간의 관계를 주의 깊게 모델링합니다.
직접 세트 loss를 사용하면 후처리 단계가 필요하지 않습니다.
그러나 이러한 방법들은 탐지 간의 관계를 효율적으로 모델링하기 위해 제안 상자 좌표와 같은 추가적인 수작업 컨텍스트 피쳐를 사용하며, 모델에 인코딩된 사전 지식을 줄이는 솔루션을 찾습니다.
Recurrent detectors.
우리의 접근 방식에 가장 가까운 것은 객체 감지 [43] 및 인스턴스 세그멘테이션 [41,30,36,42]을 위한 종단 간 집합 예측입니다.
우리와 마찬가지로, 그들은 CNN 활성화를 기반으로 한 인코더-디코더 아키텍처와 이분 매칭 loss를 사용하여 바운딩 박스 세트를 직접 생성합니다.
그러나 이러한 접근 방식은 소규모 데이터셋에서만 평가되었으며 최신 베이스라인에 대해서는 평가되지 않았습니다.
특히, 이들은 자기회귀 모델 (더 정확하게는 RNN)을 기반으로 하기 때문에 병렬 디코딩을 통해 최신 트랜스포머를 활용하지 않습니다.
3 The DETR model
탐지에서 직접 집합 예측을 위해서는 두 가지 요소가 필수적입니다: (1) 예측된 박스와 ground truth 박스 간의 고유한 일치를 강제하는 집합 예측 loss; (2) 객체 집합을 (단일 패스로) 예측하고 그 관계를 모델링하는 아키텍처.
우리는 우리의 아키텍처를 그림 2에 자세히 설명하고 있습니다.

3.1 Object detection set prediction loss
DETR은 디코더를 한 번의 패스로 고정 크기의 N 예측 세트를 추론하며, 여기서 N은 이미지의 일반적인 객체 수보다 훨씬 더 크게 설정됩니다.
학습의 주요 어려움 중 하나는 ground truth와 관련하여 예측된 객체 (클래스, 위치, 크기)를 점수화하는 것입니다.
우리의 loss는 예측된 객체와 ground truth 객체 간의 최적의 이분 매칭을 생성한 다음, 객체별 (바운딩 박스) loss를 최적화합니다.
객체의 ground truth 집합을 y로 나타내고, N개의 예측 집합을 ŷ = {ŷ_i}로 나타내겠습니다.
N이 이미지의 객체 수보다 크다고 가정하면, y는 또한 ∅로 채워진 크기 N의 집합으로 간주됩니다 (객체 없음).
이 두 집합 간의 이분법적 일치를 찾기 위해 우리는 가장 낮은 비용으로 N개의 원소 σ ∈ S_N의 순열을 찾습니다: (1), 여기서 L_match (y_i, ŷ_σ(i))는 ground truth y_i와 인덱스 σ(i)를 가진 예측 간의 쌍별 매칭 비용입니다.
이 최적 할당은 이전 연구 (예: [43])에 따라 Hungarian 알고리즘을 사용하여 효율적으로 계산됩니다.
매칭 비용은 클래스 예측과 예측된 박스 및 ground truth 박스의 유사성을 모두 고려합니다.
ground truth 집합의 각 요소 i는 y_i = (c_i, b_i)로 볼 수 있습니다, 여기서 c_i는 타겟 클래스 레이블 (∅일 수 있음)이고 b_i ∈ [0, 1]^4는 ground truth 박스 중심 좌표와 이미지 크기에 대한 높이 및 너비를 정의하는 벡터입니다.
인덱스 σ(i)를 사용한 예측의 경우, 클래스 c_i의 확률을 p ̂_σ(i) (c_i)로 정의하고, 예측된 박스를 b ̂_σ(i)로 정의합니다.
이 표기법들을 통해 우리는 L_match (y_i , ŷ_σ(i)) 를 −1_{c_i ≠ ∅} p̂_σ(i) (c_i) + 1_{c_i ≠ ∅} L_box (b_i , b̂_σ(i))로 표기합니다.
이 매칭을 찾는 절차는 현대 탐지기에서 제안 [37] 또는 앵커 [22]를 ground truth 객체에 매칭하는 데 사용되는 휴리스틱 할당 규칙과 동일한 역할을 합니다.
주요 차이점은 중복 없이 직접 집합 예측을 위해 일대일 매칭을 찾아야 한다는 것입니다.
두 번째 단계는 이전 단계에서 일치하는 모든 쌍에 대한 Hungarian loss 함수를 계산하는 것입니다.
우리는 loss를 일반적인 객체 탐지기의 loss와 유사하게 정의합니다, 즉, 클래스 예측을 위한 negative log-likelihood와 나중에 정의된 박스 loss의 선형 조합입니다: (2), σ̂은 첫 번째 단계 (1)에서 계산된 최적의 할당입니다.
실제로, 우리는 클래스 불균형을 설명하기 위해 c_i = ∅일 때 로그 확률 항을 10배로 축소합니다.
이는 Faster R-CNN 학습 절차가 서브샘플링을 통해 긍정적/부정적 제안의 균형을 맞추는 방법과 유사합니다 [37].
객체와 ∅ 간의 매칭 비용은 예측에 의존하지 않으므로 이 경우 비용은 일정하다는 것을 알 수 있습니다.
매칭 비용에서는 로그 확률 대신 확률 p̂_σ̂(i) (c_i)를 사용합니다.
이로 인해 클래스 예측 항이 L_box (·, ·) (아래에 설명됨)에 상응하게 되며, 더 나은 경험적 성과를 관찰할 수 있었습니다.
Bounding box loss.
매칭 비용과 Hungarian loss의 두 번째 부분은 바운딩 박스를 점수화하는 L_box (·)입니다.
초기 추측에 대해 박스 예측을 ∆로 수행하는 많은 탐지기와 달리, 우리는 박스 예측을 직접 수행합니다.
이러한 접근 방식은 구현을 단순화하지만 loss의 상대적인 스케일링에 문제를 제기합니다.
가장 일반적으로 사용되는 l1 loss는 상대적 오차가 비슷하더라도 작은 박스와 큰 박스에 대해 서로 다른 척도를 가질 것입니다.
이 문제를 완화하기 위해 우리는 l1 loss와 스케일 불변인 일반화된 IoU loss [38] L_iou (·, ·)의 선형 조합을 사용합니다.
전체적으로, 우리의 박스 loss는 λ_iou L_iou (b_i, b ̂_σ(i)) + λ_L1||b_i - b ̂_σ(i)|로 정의되며, 여기서 λ_iou , λ_L1 ∈ R은 하이퍼파라미터입니다.
이 두 loss는 배치 내부의 객체 수에 따라 정규화됩니다.
3.2 DETR architecture
전체 DETR 아키텍처는 놀라울 정도로 간단하고 그림 2에 나타나 있습니다.
아래에서 설명하는 세 가지 주요 구성 요소가 포함되어 있습니다: 압축 피쳐 표현을 추출하기 위한 CNN 백본, 인코더-디코더 트랜스포머, 그리고 최종 탐지 예측을 수행하는 간단한 feed forward network (FFN).
많은 최신 탐지기와 달리 DETR은 몇 백 줄만 있으면 공통 CNN 백본과 트랜스포머 아키텍처 구현을 제공하는 모든 딥러닝 프레임워크에서 구현할 수 있습니다.
DETR에 대한 추론 코드는 PyTorch [32]에서 50줄 미만으로 구현할 수 있습니다.
우리 방법의 단순함이 새로운 연구자들을 탐지 커뮤니티로 끌어들이기를 바랍니다.
Backbone.
초기 이미지 x_img ∈ R^(3xH_0xW_0) (3개의 컬러 채널 포함)에서 시작하여, 기존의 CNN 백본은 저해상도 활성화 맵 f ∈ R^(CxHxW)를 생성합니다.
우리가 사용하는 일반적인 값은 C = 2048이고 H, W = H_0/32, W_0/32입니다.
Transformer encoder.
먼저, 1x1 컨볼루션은 고수준 활성화 맵 f의 채널 차원을 C에서 더 작은 차원 d로 축소하여 새로운 피쳐 맵 z_0 ∈ R^(d x H x W)를 생성합니다.
인코더는 시퀀스를 입력으로 예상하므로 z_0의 공간 차원을 1차원으로 축소하여 d x HW 피쳐 맵을 생성합니다.
각 인코더 레이어는 표준 아키텍처를 가지고 있으며 멀티 헤드 셀프 어텐션 모듈과 feed forward network (FFN)로 구성되어 있습니다.
트랜스포머 아키텍처는 순열 불변이기 때문에 각 어텐션 레이어의 입력에 추가되는 고정 위치 인코딩 [31,3]으로 트랜스포머를 보완합니다.
우리는 [47]에 설명된 아키텍처의 세부 사항을 따르는 보충 자료로 연기합니다.
Transformer decoder.
디코더는 트랜스포머의 표준 아키텍처를 따르며, 멀티 헤드 셀프 및 인코더-디코더 어텐션 메커니즘을 사용하여 크기 d의 N개 임베딩을 변환합니다.
원래 트랜스포머와의 차이점은 우리 모델이 각 디코더 레이어에서 N개의 객체를 병렬로 디코딩하는 반면, Vaswani et al. [47]은 한 번에 하나의 요소씩 출력 시퀀스를 예측하는 자기회귀 모델을 사용한다는 점입니다.
개념에 익숙하지 않은 독자에게는 보충 자료를 참조합니다.
디코더도 순열 불변이기 때문에 N개의 입력 임베딩이 달라야 다른 결과를 얻을 수 있습니다.
이러한 입력 임베딩은 객체 쿼리라고 하는 학습된 위치 인코딩이며, 인코더와 마찬가지로 각 어텐션 레이어의 입력에 추가합니다.
N개의 객체 쿼리는 디코더에 의해 출력 임베딩으로 변환됩니다.
그런 다음 피드포워드 네트워크 (다음 하위 섹션에 설명됨)에 의해 독립적으로 박스 좌표와 클래스 레이블로 디코딩되어 최종 예측이 N개가 됩니다.
이러한 임베딩에 대한 셀프 및 인코더-디코더 어텐션을 사용하여 모델은 전체 이미지를 컨텍스트로 사용하면서 모든 객체에 대해 쌍별 관계를 사용하여 전역적으로 추론합니다.
Prediction feed-forward networks (FFNs).
최종 예측은 ReLU 활성화 함수와 숨겨진 차원 d를 가진 3층 퍼셉트론과 선형 투영 레이어에 의해 계산됩니다.
FFN은 입력 이미지에 대한 상자의 정규화된 중심 좌표, 높이 및 너비를 예측하고, 선형 레이어는 소프트맥스 함수를 사용하여 클래스 레이블을 예측합니다.
고정 크기의 N 바운딩 박스 집합을 예측하기 때문에, N은 일반적으로 이미지에서 관심 있는 객체의 실제 수보다 훨씬 큽니다, 따라서 슬롯 내에서 객체가 감지되지 않음을 나타내기 위해 추가적인 특수 클래스 레이블 ∅가 사용됩니다.
이 클래스는 표준 객체 감지 접근 방식에서 "background" 클래스와 유사한 역할을 합니다.
Auxiliary decoding losses.
학습 중 디코더에서 auxiliary losses [1]를 사용하는 것이 특히 모델이 각 클래스의 객체 수를 정확하게 출력하는 데 도움이 된다는 것을 발견했습니다.
각 디코더 레이어 후에 예측 FFN과 Hungarian loss를 추가합니다.
모든 예측 FFN은 매개변수를 공유합니다.
우리는 다양한 디코더 레이어에서 예측 FFN에 대한 입력을 정규화하기 위해 추가적인 공유 레이어 norm을 사용합니다.
4 Experiments
우리는 DETR이 COCO에 대한 정량적 평가에서 Faster R-CNN에 비해 경쟁력 있는 결과를 달성한다는 것을 보여줍니다.
그런 다음 인사이트와 정성적 결과를 바탕으로 아키텍처와 loss에 대한 자세한 ablation 연구를 제공합니다.
마지막으로, DETR이 다재다능하고 확장 가능한 모델임을 보여주기 위해 고정된 DETR 모델에 대해 작은 확장만 학습한 파놉틱 세그멘테이션에 대한 결과를 제시합니다.
Dataset.
'Deep Learning' 카테고리의 다른 글
| YOLOv12: Attention-Centric Real-Time Object Detectors (0) | 2025.02.24 |
|---|---|
| Depth Anything V2 (0) | 2025.02.12 |
| Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data (0) | 2025.02.07 |
| DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding (0) | 2024.12.26 |
| YOLOv11: An Overview of the Key Architectural Enhancements (0) | 2024.11.27 |