R-CNN, Rich feature hierarchies for accurate object detection and semantic segmentation (번역)

R-CNN, Rich feature hierarchies for accurate object detection and semantic segmentation (번역)

2021. 2. 22. 14:03ㆍComputer Vision

Rich feature hierarchies for accurate object detection and semantic segmentation

Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik
UC Berkeley

Abstract

표준 PASCAL VOC dataset에서 측정한 물체 감지 성능은 지난 몇 년 동안 정체되었습니다.
가장 성능이 좋은 방법은 일반적으로 여러 low-level 이미지 기능과 high-level context를 결합하는 복잡한 앙상블 시스템입니다.
이 논문에서 우리는 VOC 2012의 이전 최고 결과에 비해 mAP를 30 % 이상 향상시켜 53.3 %의 mAP를 달성하는 간단하고 확장 가능한 탐지 알고리즘을 제안합니다.
우리의 접근 방식은 두 가지 주요 통찰력을 결합합니다. (1) 하나는 객체를 지역화하고 분할하기 위해 상향식 영역 제안에 고용량 컨볼루션 신경망(CNN)을 적용할 수 있으며 (2) 레이블이 지정된 학습 데이터가 부족할 때 감독되는 사전 훈련입니다. 보조 작업의 경우 도메인 별 미세 조정을 수행하면 성능이 크게 향상됩니다.
지역 제안을 CNN과 결합하기 때문에 우리는 방법을 R-CNN : CNN 기능이있는 지역이라고 부릅니다.
또한 R-CNN을 유사한 CNN 아키텍처를 기반으로 최근에 제안된 슬라이딩 윈도우 감지기인 OverFeat와 비교합니다.
R-CNN이 200 클래스 ILSVRC2013 탐지 dataset에서 OverFeat를 크게 능가하는 것으로 나타났습니다.

1. Introduction

기능이 중요합니다.
다양한 시각적 인식 작업에 대한 지난 10년간의 발전은 SIFT 및 HOG의 사용에 크게 기반을두고 있습니다.
그러나 표준 시각 인식 작업인 PASCAL VOC 객체 감지의 성능을 살펴보면 일반적으로 2010-2012년 동안 진행이 느렸으며 앙상블 시스템을 구축하고 성공적인 방법의 사소한 변형을 사용하여 얻은 작은 이득을 볼 수 있습니다.

SIFT 및 HOG는 블록 방향 히스토그램으로, 영장류 시각 경로의 첫 번째 피질 영역인 V1의 복잡한 세포와 대략적으로 연관시킬 수있는 표현입니다.
그러나 우리는 인식이 여러 단계 다운 스트림에서 발생한다는 것을 알고 있으며, 이는 시각적 인식에 훨씬 더 많은 정보를 제공하는 컴퓨팅 기능을 위한 계층적 다단계 프로세스가 있을 수 있음을 시사합니다.

생물학적으로 영감을 받은 패턴 인식을 위한 계층적 및 시프트 불변 모델인 후쿠시마의 "신인지론"은 그러한 과정에 대한 초기 시도였습니다.
그러나 신인지론는 감독된 훈련 알고리즘이 없었다.
Rumelhart et al., LeCun et al. 역전파를 통한 확률적 경사 하강법이 신인지를 확장하는 모델 클래스인 컨볼루션 신경망 (CNN) 훈련에 효과적이라는 것을 보여주었습니다.

CNN은 1990년대에 많이 사용되었지만 서포트 벡터 머신의 등장으로 유행에서 벗어났습니다.
2012년에 Krizhevsky et al. ILSVRC (ImageNet Large Scale Visual Recognition Challenge)에서 훨씬 더 높은 이미지 분류 정확도를 보여줌으로써 CNN에 대한 관심을 다시 불러 일으켰습니다.
이들의 성공은 120만 개의 레이블이 지정된 이미지에 대해 대규모 CNN을 훈련하고 LeCun의 CNN (예 : 비선형성을 수정하는 max(x, 0) 및 '드롭 아웃'정규화)에 대한 몇 가지 왜곡을 통해 이루어졌습니다.

ImageNet 결과의 중요성은 ILSVRC 2012 워크숍에서 활발하게 논의되었습니다.
핵심 문제는 다음과 같이 정리할 수 있습니다. ImageNet의 CNN 분류 결과는 PASCAL VOC Challenge의 물체 감지 결과로 어느 정도 일반화됩니까?

우리는 이미지 분류와 물체 감지간의 격차를 해소하여 이 질문에 답합니다.
이 논문은 CNN이 더 단순한 HOG와 같은 기능을 기반으로 하는 시스템에 비해 PASCAL VOC에서 훨씬 더 높은 물체 감지 성능으로 이어질 수 있음을 처음으로 보여줍니다.
이 결과를 달성하기 위해 우리는 두 가지 문제에 초점을 맞추 었습니다. 심층 네트워크로 객체를 지역화하고 주석이 달린 탐지 데이터가 적은 고용량 모델을 학습하는 것입니다.

이미지 분류와 달리 감지에는 이미지 내에서 (아마도 많은) 개체를 지역화해야합니다.
한 가지 접근 방식은 지역화를 회귀 문제로 간주합니다.
그러나 Szegedy et al.의 연구는 우리 자신과 동시에 이 전략이 실제로 잘 작동하지 않을 수 있음을 나타냅니다 (우리 방법으로 달성한 58.5%에 비해 VOC 2007에서 30.5%의 mAP를보고합니다).
대안은 슬라이딩 윈도우 감지기를 구축하는 것입니다.
CNN은 일반적으로 얼굴 및 보행자와 같은 제한된 개체 범주에서 이러한 방식으로 최소 20년 동안 사용되었습니다.
높은 공간 해상도를 유지하기 위해 이러한 CNN에는 일반적으로 두 개의 컨볼 루션 및 풀링 레이어 만 있습니다.
우리는 또한 슬라이딩 윈도우 접근 방식을 고려했습니다.
그러나 5개의 컨볼루션 레이어가 있는 우리 네트워크의 상위 유닛은 입력 이미지에서 매우 큰 수용 필드(195 x 195 픽셀)와 스트라이드(32x32 픽셀)를 가지고있어 슬라이딩 윈도우 패러다임 내에서 정확한 위치 파악을 개방형 도전적 기술로 만듭니다.

그림 1 : 물체 감지 시스템 개요. 우리 시스템은 (1) 입력 이미지를 가져와 (2) 약 2000개의 상향식 영역 제안을 추출하고, (3) 대형 컨벌루션 신경망 (CNN)을 사용하여 각 제안의 특징을 계산한 다음 (4) 클래스 별 선형 SVM을 사용하여 각 영역을 분류합니다. R-CNN은 PASCAL VOC 2010에서 mAP 53.7%를 달성했습니다. 비교를 위해 동일한 지역 제안을 사용하지만 공간 피라미드 및 시각적 단어 가방 접근 방식을 사용하여 35.1% mAP를보고합니다. 인기있는 변형 부품 모델의 성능은 33.4%입니다. 200 등급 ILSVRC2013 탐지 데이터 세트에서 R-CNN의 mAP는 31.4%로 이전 최고 결과가 24.3% 인 OverFeat보다 크게 향상되었습니다.

대신, 우리는 객체 탐지와 의미 세분화 모두에 성공한 "지역을 사용한 인식" 패러다임 내에서 작동하여 CNN 위치 파악 문제를 해결합니다.
테스트 시간에 우리의 방법은 입력 이미지에 대해 약 2000개의 카테고리 독립 영역 제안을 생성하고 CNN을 사용하여 각 제안에서 고정 길이 특징 벡터를 추출한 다음 카테고리별 선형 SVM으로 각 영역을 분류합니다.
우리는 지역의 모양에 관계없이 각 지역 제안에서 고정된 크기의 CNN 입력을 계산하기 위해 간단한 기술 (affine 이미지 warping)을 사용합니다.
그림 1은 우리의 방법에 대한 개요를 보여주고 우리의 결과 중 일부를 강조합니다.
우리 시스템은 지역 제안을 CNN과 결합하기 때문에 R-CNN : CNN 기능이 있는 지역이라는 방법을 사용합니다.

이 논문의 이 업데이트된 버전에서는 200 클래스 ILSVRC2013 탐지 dataset에서 R-CNN을 실행하여 R-CNN과 최근 제안 된 OverFeat 탐지 시스템의 일대일 비교를 제공합니다.
OverFeat는 감지를 위해 슬라이딩 윈도우 CNN을 사용하며 지금까지 ILSVRC2013 감지에서 가장 성능이 좋은 방법이었습니다.
우리는 R-CNN이 24.3%에 비해 31.4%의 mAP로 OverFeat를 상당히 능가한다는 것을 보여줍니다.

탐지에 직면한 두 번째 문제는 레이블이 지정된 데이터가 부족하고 현재 사용 가능한 양이 대규모 CNN을 훈련하기에 충분하지 않다는 것입니다.
이 문제에 대한 기존의 해결책은 unsupervised pre-training을 사용한 다음 supervised 미세 조정을 사용하는 것입니다.
이 논문의 두 번째 원칙 공헌은 대규모 보조 데이터 세트 (ILSVRC)에 대한 supervised pre-training에 이어 소규모 dataset (PASCAL)에 대한 도메인 별 미세 조정이 데이터가 부족할 때 고용량 CNN을 학습하는 데 효과적인 패러다임임을 보여주는 것입니다.
실험에서 감지를 위한 미세 조정은 mAP 성능을 8% 포인트 향상시킵니다.
미세 조정 후 우리 시스템은 VOC 2010에서 54%의 mAP를 달성 한 반면, 고도로 조정된 HOG 기반 변형 부품 모델 (DPM)의 경우 33%를 달성했습니다.

또한 Krizhevsky의 CNN을 블랙 박스 기능 추출기로 (미세 조정없이) 사용할 수 있으며 장면 분류, 세분화된 하위 범주화 및 도메인 적응을 포함한 여러 인식 작업에서 탁월한 성능을 발휘할 수 있음을 보여주는 Donahue 등의 동시 작업을 독자들에게 안내합니다.

우리 시스템도 매우 효율적입니다.
유일한 클래스 별 계산은 상당히 작은 행렬-벡터 곱과 탐욕스러운 비 최대 억제입니다.
이 계산 속성은 모든 범주에 걸쳐 공유되고 이전에 사용된 영역 기능보다 두 배 낮은 차원인 기능을 따릅니다.

접근 방식의 실패 모드를 이해하는 것도 이를 개선하는 데 중요하므로 Hoiem 등의 탐지 분석 도구에서 결과를 보고합니다.
이 분석의 즉각적인 결과로 간단한 bounding box 회귀 방법이 지배적인 오류 모드인 잘못된 지역화를 크게 줄인다는 것을 보여줍니다.

기술적 세부 사항을 개발하기 전에 R-CNN이 지역에서 작동하기 때문에 의미론적 분할 작업으로 확장하는 것이 당연합니다.
또한 약간의 수정을 통해 PASCAL VOC 세분화 작업에서 경쟁력 있는 결과를 얻었으며 VOC 2011 test set에서 평균 세분화 정확도는 47.9%입니다.

2. Object detection with R-CNN

우리의 물체 감지 시스템은 3개의 모듈로 구성됩니다.
첫 번째는 카테고리 독립적인 지역 제안을 생성합니다.
이러한 제안은 탐지기에서 사용할 수 있는 후보 탐지 세트를 정의합니다.
두 번째 모듈은 각 영역에서 고정 길이 특징 벡터를 추출하는 대형 컨벌루션 신경망입니다.
세 번째 모듈은 클래스 별 선형 SVM 세트입니다.

이 섹션에서는 각 모듈에 대한 설계 결정을 제시하고, 테스트 시간 사용을 설명하고, 매개 변수를 학습하는 방법을 자세히 설명하고, PASCAL VOC 2010-12 및 ILSVRC2013에 대한 감지 결과를 보여줍니다.

2.1. Module design

Region Proposals.
다양한 최근 논문은 카테고리 독립적 지역 제안을 생성하는 방법을 제공합니다.

예 : 객체성, 선택적 검색, 카테고리 독립적인 객체 제안, CPMC (Constrained Parametric Min-cuts), 다중 스케일 조합 그룹화, CNN을 규칙적인 간격의 사각형에 적용하여 유사 분열 세포를 감지하는 Cires¸an et al. 지역 제안의 특별한 경우 인 작물.
R-CNN은 특정 지역 제안 방법에 구애받지 않지만 선택적 검색을 사용하여 이전 탐지 작업과 제어된 비교를 가능하게 합니다.

Feature extraction.

우리는 Krizhevsky et al.에 의해 설명된 CNN의 Caffe 구현을 사용하여 각 지역 제안에서 4096차원 특징 벡터를 추출합니다.
Features는 5개의 convolution layers와 2개의 fully connected layers를 통해 평균 차감 227x227 RGB 이미지를 순방향 전파하여 계산됩니다.
네트워크 아키텍처에 대한 자세한 내용은 독자에게 [24, 25]를 참조하십시오.

지역 제안에 대한 특징을 계산하려면 먼저 해당 지역의 이미지 데이터를 CNN과 호환되는 형식으로 변환해야합니다 (해당 아키텍처에는 고정 227 x 227 픽셀 크기의 입력이 필요함).
임의의 모양 영역의 가능한 많은 변형 중에서 가장 간단한 것을 선택합니다.
후보 영역의 크기 또는 종횡비에 관계없이 주변의 좁은 bounding box에있는 모든 픽셀을 필요한 크기로 왜곡합니다.
뒤틀기 전에 뒤틀린 크기에서 원래 상자 주위에 정확히 p 픽셀의 뒤틀린 이미지 컨텍스트가 있도록 좁은 bounding box를 확장합니다 (p = 16 사용).
그림 2는 뒤틀린 훈련 영역의 무작위 샘플링을 보여줍니다.
뒤틀림에 대한 대안은 부록 A에서 설명합니다.

2.2. Test-time detection

테스트시 테스트 이미지에서 선택적 검색을 실행하여 약 2000개의 지역 제안을 추출합니다 (모든 실험에서 선택적 검색의 "빠른 모드"사용).
기능을 계산하기 위해 각 제안을 왜곡하고 CNN을 통해 전달합니다.
그런 다음 각 클래스에 대해 해당 클래스에 대해 훈련된 SVM을 사용하여 추출된 각 특징 벡터에 점수를 매깁니다.
이미지에서 점수가 매겨진 모든 영역을 감안할 때, 학습된 임계값보다 더 큰 점수를 받는 선택된 영역과 교차 오버 유니언 (IoU) 겹침이 있는 경우 영역을 거부하는 탐욕스러운 비 최대 억제 (각 클래스에 대해 독립적으로)를 적용합니다.

Run-time analysis.

두 가지 속성이 탐지를 효율적으로 만듭니다.
첫째, 모든 CNN 매개 변수는 모든 범주에서 공유됩니다.
둘째, CNN에 의해 계산된 특징 벡터는 bag-of-visual-word 인코딩을 사용하는 공간 피라미드와 같은 다른 일반적인 접근 방식과 비교할 때 저차원입니다.
예를 들어 UVA 감지 시스템에 사용되는 기능은 우리보다 2배 더 큽니다 (360k 대 4k 차원).

이러한 공유의 결과는 지역 제안 및 기능 (GPU의 경우 13s/image 또는 CPU의 경우 53s/image)을 계산하는 데 소요된 시간이 모든 클래스에서 분할됩니다.
유일한 클래스 별 계산은 특성과 SVM 가중치 간의 내적과 비 최대 억제입니다.
실제로 이미지의 모든 내적은 단일 행렬-행렬 곱으로 일괄 처리됩니다.
특성 행렬은 일반적으로 2000x4096이고 SVM 가중치 행렬은 4096xN입니다. 여기서 N은 클래스 수입니다.

이 분석은 R-CNN이 해싱과 같은 근사 기술에 의존하지 않고도 수천개의 객체 클래스로 확장 할 수 있음을 보여줍니다.
10만 개의 클래스가 있더라도 결과 행렬 곱셈은 최신 멀티 코어 CPU에서 10초 밖에 걸리지 않습니다.
이러한 효율성은 단순히 지역 제안 및 공유 기능을 사용한 결과가 아닙니다.
UVA 시스템은 고차원 기능으로 인해 2배 더 느리지만 100k 선형 예측자를 저장하는데 134GB의 메모리가 필요하지만 저차원 기능의 경우 1.5GB에 불과합니다.

R-CNN을 DPM 및 해싱을 사용한 확장 가능한 탐지에 대한 Dean 등의 최근 연구와 대조하는 것도 흥미롭습니다.
그들은 10,000개의 산 만기 클래스를 도입할 때 이미지 당 5분의 런타임에서 VOC 2007에서 약 16%의 mAP를 보고합니다.
우리의 접근 방식을 사용하면 10k 감지기가 CPU에서 약 1분 안에 실행될 수 있으며 근사치가 만들어지지 않았기 때문에 mAP는 59%로 유지됩니다 (섹션 3.2).

2.3 Training

supervised pre-training.

이미지 수준 주석만 사용하여 대규모 보조 데이터 세트 (ILSVRC2012 분류)에서 CNN을 차별적으로 pre-training했습니다 (이 데이터에는 bounding box 레이블을 사용할 수 없음).
pre-training은 오픈 소스 Caffe CNN 라이브러리를 사용하여 수행되었습니다.
간단히 말해서, 우리의 CNN은 Krizhevsky 등의 성능과 거의 일치하여 ILSVRC2012 분류 검증 세트에서 상위 1위 오류율 2.2% 포인트를 얻었습니다.
이러한 불일치는 교육 과정의 단순화 때문입니다.

Domain-specific fine-tuning.

CNN을 새 작업 (감지) 및 새 도메인 (왜곡된 제안 창)에 적용하기 위해 뒤틀린 영역 제안만 사용하여 CNN 매개 변수의 확률적 경사 하강법 (SGD) 훈련을 계속합니다.
CNN의 ImageNet 특정 1000-way 분류 계층을 무작위로 초기화 된 (N + 1)way 분류 계층 (여기서 N은 객체 클래스 수에 배경에 1을 더한 것)으로 대체하는 것 외에 CNN 아키텍처는 변경되지 않습니다.

VOC의 경우 N = 20이고 ILSVRC2013의 경우 N = 200입니다.

0.5 IoU가 넘는 모든 지역 제안과 Ground-Truth Box가 중첩되는 모든 지역 제안은 해당 상자의 등급에 대한 양수로, 나머지는 음수로 처리됩니다.
SGD를 0.001 (초기 사전 교육 속도의 1/10)의 학습 속도로 시작하여 초기화를 방해하지 않고 진행할 수 있도록 미세 조정이 진행될 수 있습니다.
각 SGD 반복에서 32개의 positive windows (모든 클래스에 대해)과 96개의 background windows을 균일하게 샘플링하여 크기가 128인 미니 배치를 구성합니다.
샘플링은 배경에 비해 매우 드물기 때문에 positive windows으로 편향됩니다.

Object category classifiers.

자동차를 감지하기 위해 이진 분류기를 훈련하는 것을 고려하십시오.
자동차를 꽉 감싸는 이미지 영역이 긍정적인 예 여야한다는 것은 분명합니다.
마찬가지로 자동차와 관련이 없는 배경 영역도 부정적인 예가 되어야합니다.
덜 분명한 것은 자동차와 부분적으로 겹치는 영역에 레이블을 지정하는 방법입니다.
지역이 네거티브로 정의되는 IoU 겹침 임계 값을 사용하여이 문제를 해결합니다.
중복 임계 값 0.3은 유효성 검사 세트에서 {0, 0.1, ..., 0.5} 이상의 그리드 검색에 의해 선택되었습니다.
이 임계 값을 신중하게 선택하는 것이 중요하다는 것을 알았습니다.
0.5로 설정하면 mAP가 5포인트 감소했습니다.
마찬가지로 0으로 설정하면 mAP가 4포인트 감소했습니다.
긍정적인 예는 단순히 각 클래스에 대한 ground-truth bounding box로 정의됩니다.

특성이 추출되고 학습 레이블이 적용되면 클래스 당 하나의 선형 SVM을 최적화합니다.
훈련 데이터가 너무 커서 메모리에 맞지 않기 때문에 표준 하드 네거티브 마이닝 방법을 채택합니다.
하드 네거티브 마이닝은 빠르게 수렴되며 실제로 모든 이미지를 한 번만 통과하면 mAP가 증가하지 않습니다.

부록 B에서는 SVM 훈련과 미세 조정에서 긍정 및 부정 예제가 다르게 정의되는 이유에 대해 설명합니다.
또한 미세 조정된 CNN의 최종 소프트 맥스 계층의 출력을 단순히 사용하는 것보다 SVM을 학습하는 것과 관련된 장단점에 대해서도 논의합니다.

2.4. Results on PASCAL VOC 2010-12

PASCAL VOC 모범 사례에 따라 VOC 2007 dataset(섹션 3.2)에 대한 모든 설계 결정 및 하이퍼 파라미터를 검증했습니다.
VOC 2010-12 dataset에 대한 최종 결과를 위해 VOC 2012 train에서 CNN을 미세 조정하고 VOC 2012 trainval에서 감지 SVM을 최적화했습니다.
두 가지 주요 알고리즘 변형 (bounding-box 회귀 포함 및 제외) 각각에 대해 테스트 결과를 평가 서버에 한 번만 제출했습니다.

표 1 : VOC 2010 테스트의 검출 평균 정밀도 (%). R-CNN은 모든 방법이 선택적 검색 영역 제안을 사용하기 때문에 UVA 및 Regionlet과 가장 직접적으로 비교할 수 있습니다. Bounding-box 회귀 (BB)는 섹션 C에 설명되어 있습니다. 출판 당시 SegDPM은 PASCAL VOC 리더 보드에서 최고의 성과를 거두었습니다. DPM 및 SegDPM은 다른 방법에서 사용하지 않는 context 기록을 사용합니다.

표 1은 VOC 2010에 대한 전체 결과를 보여줍니다.
우리는 DPM 감지기를 의미론적 세분화 시스템의 출력과 결합하고 추가적인 탐지기간 context 및 이미지 분류기 재채점을 사용하는 SegDPM을 포함하여 4개의 강력한 기준과 비교합니다.
우리 시스템이 동일한 지역 제안 알고리즘을 사용하기 때문에 가장 밀접한 비교는 Uijlings 등의 UVA 시스템입니다.
영역을 분류하기 위해 이 방법은 4단계 공간 피라미드를 구축하고 각 벡터가 4000 단어 코드북으로 양자화된 조밀하게 샘플링된 SIFT, Extended Opponent SIFT 및 RGB SIFT 설명 자로 채워집니다.
히스토그램 교차 커널 SVM을 사용하여 분류가 수행됩니다.
다중 기능의 비선형 커널 SVM 접근 방식과 비교할 때 mAP가 35.1%에서 53.7%로 크게 향상되는 동시에 훨씬 더 빠릅니다(섹션 2.2).
우리의 방법은 VOC 2011/12 테스트에서 유사한 성능 (53.3% mAP)을 달성합니다.

2.5. Results on ILSVRC2013 detection

우리는 PASCAL VOC에 사용한 것과 동일한 시스템 하이퍼 파라미터를 사용하여 200 클래스 ILSVRC2013 탐지 dataset에서 R-CNN을 실행했습니다.
우리는 ILSVRC2013 평가 서버에 테스트 결과를 bounding-box 회귀가 있는 경우와 없는 경우 한, 두 번만 제출하는 동일한 프로토콜을 따랐습니다.

그림 3 : (왼쪽) ILSVRC2013 감지 테스트 세트의 평균 평균 정밀도. * 앞에 오는 방법은 외부 훈련 데이터를 사용합니다 (모든 경우에 ILSVRC 분류 dataset의 이미지 및 레이블). (오른쪽) 방법 당 200개의 평균 정밀도 값에 대한 상자 플롯. 클래스 별 AP를 아직 사용할 수 없기 때문에 대회 후 OverFeat 결과에 대한 상자 그림은 표시되지 않습니다 (R-CNN의 클래스 별 AP는 표 8에 있으며 arXiv.org에 업로드 된 기술 보고서 소스에도 포함되어 있습니다. R-CNN-ILSVRC2013-APs.txt). 빨간색 선은 중앙 AP를 표시하고 상자 하단과 상단은 25번째 및 75번째 백분위 수입니다. 수염은 각 방법의 최소 및 최대 AP까지 확장됩니다. 각 AP는 수염 위에 녹색 점으로 표시됩니다 (줌으로 디지털로 가장 잘 볼 수 있음).

그림 3은 R-CNN을 ILSVRC 2013 대회의 항목 및 대회 후 OverFeat 결과와 비교합니다.
R-CNN은 31.4%의 mAP를 달성했으며 이는 OverFeat의 24.3%라는 두 번째로 좋은 결과보다 훨씬 앞서 있습니다.
클래스에 대한 AP 분포를 이해하기 위해 상자 플롯도 제공되며 표 8의 논문 끝 부분에 클래스 별 AP 표가 나와 있습니다.
대부분의 경쟁 제출물 (OverFeat, NEC-MU, UvAEuvision, Toronto A 및 UIUC-IFP)은 컨벌루션 신경망을 사용하여 CNN을 물체 감지에 적용하는 방법에 상당한 차이가 있음을 나타내며 결과는 크게 달라집니다.

섹션 4에서는 ILSVRC2013 탐지 dataset의 개요를 제공하고 여기에서 R-CNN을 실행할 때 선택한 사항에 대한 세부 정보를 제공합니다.

3. Visualization, ablation, and modes of error

3.1. Visualizing learned features

첫 번째 레이어 필터는 직접 시각화 할 수 있으며 이해하기 쉽습니다.
방향이 있는 가장자리와 상대 색상을 캡처합니다.
후속 레이어를 이해하는 것이 더 어렵습니다.
Zeiler와 Fergus는 [42]에서 시각적으로 매력적인 디컨볼루션 접근법을 제시합니다.
우리는 네트워크가 학습한 것을 직접 보여주는 단순하고 보완적인 비모수적 방법을 제안합니다.

아이디어는 네트워크에서 특정 단위 (feature)를 골라 내고 자체적으로 물체 탐지기인 것처럼 사용하는 것입니다.
즉, 대규모 보류 영역 제안 (약 천만 개)에 대한 단위의 활성화를 계산하고 제안을 가장 높은 활성화에서 가장 낮은 활성화로 정렬하고 비 최대 억제를 수행한 다음 최고 점수 영역을 표시합니다.
우리의 방법은 어떤 입력이 발생하는지 정확히 보여줌으로써 선택된 유닛이 "자신을 대변"할 수 있도록 합니다.
다른 시각 모드를 보고 단위에서 계산된 불변에 대한 통찰력을 얻기 위해 평균화를 피합니다.

네트워크의 다섯번째이자 마지막 컨볼루션 레이어의 max-pooled 출력인 레이어 풀5에서 단위를 시각화합니다.
pool5 feature map은 6 x 6 x 256 = 9216차원입니다.
경계 효과를 무시하고 각 pool5 장치는 원래 227x227 픽셀 입력에서 195x195 픽셀의 수용 필드를 갖습니다.
중앙 풀 5 장치는 거의 전 세계적으로 보이는 반면 가장자리 근처에 있는 장치는 더 작고 잘린 지지대를 가지고 있습니다.

그림 4 : 6 개의 pool5 유닛에 대한 상위 지역. 수용 필드와 활성화 값은 흰색으로 그려집니다. 일부 단위는 사람 (1 행) 또는 텍스트 (4)와 같은 개념에 맞춰 정렬됩니다. 다른 단위는 도트 배열 (2) 및 정반사 (6)와 같은 텍스처 및 재질 속성을 캡처합니다.

그림 4의 각 행은 VOC 2007 trainval에서 미세 조정한 CNN의 pool5 장치에 대한 상위 16개 활성화를 표시합니다.
256개의 기능적으로 고유한 장치 중 6개가 시각화됩니다 (부록 D에 더 많은 항목 포함).
이러한 단위는 네트워크가 학습한 내용의 대표적인 샘플을 보여주기 위해 선택되었습니다.
두 번째 행에는 강아지 얼굴과 점 배열에서 발사되는 유닛이 있습니다.
세 번째 행에 해당하는 단위는 빨간색 얼룩 감지기입니다.
또한 사람의 얼굴과 텍스트 및 창문이 있는 삼각형 구조와 같은 좀 더 추상적인 패턴에 대한 감지기도 있습니다.
네트워크는 모양, 질감, 색상 및 재료 속성의 분산 표현과 함께 소수의 클래스 조정 기능을 결합하는 표현을 학습하는 것으로 보입니다.
후속 fully connected layer fc6은 이러한 풍부한 기능의 대규모 구성 세트를 모델링할 수 있습니다.

3.2. Ablation studies

Performance layer-by-layer, without fine-tuning.

탐지 성능에 중요한 계층을 이해하기 위해 CNN의 마지막 세 계층 각각에 대한 VOC 2007 dataset의 결과를 분석했습니다.
계층 pool5는 3.1 절에서 간략하게 설명했습니다.
마지막 두 레이어는 아래에 요약되어 있습니다.

레이어 fc6은 pool5에 완전히 연결됩니다.
features를 계산하기 위해 4096x9216 가중치 행렬에 pool5 feature map(9216 차원 벡터로 재구성)을 곱한 다음 편향 벡터를 추가합니다.
이 중간 벡터는 성분별 반파 정류 (x←max (0, x))입니다.

레이어 fc7은 네트워크의 마지막 레이어입니다.
fc6로 계산된 특성에 4096x4096 가중치 행렬을 곱하고 유사하게 바이어스 벡터를 추가하고 반파 정류를 적용하여 구현됩니다.

표 2 : VOC 2007 테스트의 검출 평균 정밀도(%). 1-3행은 미세 조정없이 R-CNN 성능을 보여줍니다. 4-6행은 ILSVRC 2012에서 사전 훈련된 CNN에 대한 결과를 보여주고 VOC 2007 trainval에서 미세 조정 (FT)된 결과를 보여줍니다. 7행에는 지역화 오류를 줄이는 단순 bounding-box 회귀 (BB) 단계가 포함되어 있습니다(섹션 C). 8-10행은 DPM 방법을 강력한 기준으로 제시합니다. 첫 번째는 HOG만 사용하는 반면 다음 두 가지는 HOG를 늘리거나 대체하기 위해 다른 기능 학습 접근 방식을 사용합니다.

먼저 PASCAL에서 미세 조정하지 않고 CNN의 결과를 살펴 봅니다. 즉, 모든 CNN 매개 변수는 ILSVRC 2012에서만 사전 훈련되었습니다.
성능을 계층별로 분석하면 (표 2 행 1-3) fc7의 기능이 fc6의 기능보다 일반화된다는 것을 알 수 있습니다.
이는 mAP를 저하시키지 않고 CNN 매개 변수의 29% 또는 약 1,680만 개를 제거 할 수 있음을 의미합니다.
더 놀라운 것은 fc7과 fc6을 모두 제거하면 CNN 매개 변수의 6%만 사용하여 pool5 기능을 계산하더라도 상당히 좋은 결과가 생성된다는 것입니다.
CNN의 표현력의 대부분은 훨씬 더 크고 조밀하게 연결된 레이어가 아닌 컨볼루션 레이어에서 비롯됩니다.
이 발견은 HOG의 의미에서 CNN의 컨볼루션 레이어만을 사용하여 임의의 크기 이미지의 조밀한 feature map을 계산하는 데 잠재적인 유용성을 제안합니다.
이 표현은 pool5 기능 위에 DPM을 포함한 슬라이딩 윈도우 감지기로 실험을 가능하게합니다.

Performance layer-by-layer, with fine-tuning.

이제 VOC 2007 trainval에서 매개 변수를 미세 조정한 후 CNN의 결과를 살펴 봅니다.
개선 사항은 놀랍습니다 (표 2 행 4-6). 미세 조정은 mAP를 54.2%로 8.0% 포인트 증가시킵니다.
미세 조정으로 인한 향상은 pool5보다 fc6 및 fc7에서 훨씬 더 큽니다. 이는 ImageNet에서 학습한 pool5 기능이 일반적이고 그 위에 도메인 별 비선형 분류기를 학습하여 대부분의 개선이 이루어짐을 나타냅니다.

Comparison to recent feature learning methods.

PASCAL VOC 탐지에 대해 시도된 기능 학습 방법은 상대적으로 거의 없습니다.
변형 가능한 부품 모델을 기반으로 하는 두 가지 최근 접근 방식을 살펴 봅니다.
참고로 표준 HOG 기반 DPM에 대한 결과도 포함합니다.

첫 번째 DPM 기능 학습 방법인 DPM ST는 "스케치 토큰"확률의 히스토그램으로 HOG 기능을 강화합니다.
직관적으로 스케치 토큰은 이미지 패치의 중앙을 통과하는 윤곽선의 밀집 분포입니다.
스케치 토큰 확률은 35x35 픽셀 패치를 150개의 스케치 토큰 또는 배경 중 하나로 분류하도록 훈련된 랜덤 포레스트에 의해 각 픽셀에서 계산됩니다.

두 번째 방법인 DPM HSC는 HOG를 희소 코드 히스토그램 (HSC)으로 대체합니다.
HSC를 계산하기 위해 100개의 7x7 픽셀 (그레이 스케일) 원자의 학습된 사전을 사용하여 각 픽셀에서 희소 코드 활성화를 해결합니다.
결과 활성화는 세 가지 방법 (전체 및 반파)으로 정류되고 공간적으로 풀링되고 단위 l2가 정규화된 다음 전력 변환됩니다.

모든 R-CNN 변형은 기능 학습을 사용하는 2개를 포함하여 3개의 DPM 기준선 (표 2 행 8-10)을 훨씬 능가합니다.
HOG 기능만 사용하는 최신 버전의 DPM과 비교할 때 mAP는 20% 이상 높았습니다: 54.2% vs. 33.7% (상대적 61% 향상).
HOG와 스케치 토큰의 조합은 HOG 단독에 비해 2.5mAP 포인트를 산출하는 반면, HSC는 HOG보다 4mAP 포인트 향상합니다 (내부적으로 사설 DPM 기준과 비교할 때-둘 다 오픈 소스 버전보다 성능이 낮은 DPM의 비공개 구현을 사용함).
이러한 방법은 각각 29.1% 및 34.3%의 mAP를 달성합니다.

3.3. Network architectures

표 3 : 두 가지 다른 CNN 아키텍처에 대한 VOC 2007 테스트의 탐지 평균 정밀도 (%). 처음 두 행은 Krizhevsky 등의 아키텍처 (T-Net)를 사용한 표 2의 결과입니다. 3행과 4행은 Simonyan과 Zisserman (O-Net)이 최근 제안한 16계층 아키텍처를 사용합니다.

이 논문의 대부분의 결과는 Krizhevsky 등의 네트워크 아키텍처를 사용합니다.
그러나 아키텍처 선택이 R-CNN 탐지 성능에 큰 영향을 미친다는 사실을 발견했습니다.
표 3에는 Simonyan과 Zisserman이 최근 제안한 16계층 딥 네트워크를 사용한 VOC 2007 test 결과가 나와 있습니다.
이 네트워크는 최근 ILSVRC 2014 분류 챌린지에서 최고의 성과를 거둔 네트워크 중 하나였습니다.
네트워크는 3x3 컨볼루션 커널의 13개 레이어로 구성된 동종 구조를 가지고 있으며 5개의 max pooling layers가 산재되어 있으며 3개의 fully-connected layers가 있습니다.
이 네트워크를 OxfordNet의 경우 "O-Net"으로, TorontoNet의 경우 기준선을 "T-Net"이라고합니다.

R-CNN에서 O-Net을 사용하기 위해 우리는 Caffe Model Zoo에서 VGG_ILSVRC_16_layers 모델에 대해 공개적으로 사용 가능한 사전 훈련된 네트워크 가중치를 다운로드했습니다.
그런 다음 T-Net에서 사용한 것과 동일한 프로토콜을 사용하여 네트워크를 미세 조정했습니다.
유일한 차이점은 GPU 메모리에 맞추기 위해 필요한 만큼 더 작은 미니 배치 (24개 예)를 사용하는 것입니다.
표 3의 결과는 O-Net을 사용하는 R-CNN이 T-Net을 사용하는 R-CNN을 상당히 능가하여 mAP를 58.5%에서 66.0%로 증가시켰음을 보여줍니다.
그러나 컴퓨팅 시간 측면에서 상당한 단점이 있습니다. O-Net의 순방향 통과는 T-Net보다 약 7배 더 오래 걸립니다.

3.4. Detection error analysis

그림 5 : 최상위 FP (false positive) 유형 분포. 각 플롯은 점수가 감소하는 순서로 더 많은 FP가 고려됨에 따라 FP 유형의 진화하는 분포를 보여줍니다. 각 FP는 다음 4가지 유형 중 하나로 분류됩니다. Loc—불량한 지역화 (IoU가 0.1에서 0.5 사이의 올바른 클래스와 겹치는 탐지 또는 중복) Sim—유사한 카테고리와의 혼동; Oth—다른 개체 범주와의 혼동. BG—백그라운드에서 발사된 FP. DPM과 비교할 때 훨씬 더 많은 오류가 배경 또는 다른 객체 클래스와 혼동하는 것이 아니라 불량한 지역화로 인해 발생하며, 이는 CNN 기능이 HOG보다 훨씬 더 차별적임을 나타냅니다. 느슨한 지역화는 상향식 영역 제안을 사용하고 전체 이미지 분류를 위해 CNN을 사전 학습하여 얻은 위치 불변의 결과일 수 있습니다. 세 번째 열은 간단한 bounding-box 회귀 방법으로 많은 현지화 오류를 수정하는 방법을 보여줍니다.

그림 6 : 물체 특성에 대한 민감도. 각 플롯은 6개의 서로 다른 객체 특성 (교합, 잘림, bounding-box 영역, 종횡비, 시점, 부품 가시성) 내에서 가장 높은 성능과 가장 낮은 성능의 하위 집합에 대한 평균 (클래스 이상) 정규화된 AP를 보여줍니다. DPM voc-release5뿐만 아니라 미세 조정 (FT) 및 bounding-box 회귀 (BB)를 사용하거나 사용하지 않는 방법(R-CNN)에 대한 플롯을 보여줍니다. 전반적으로 미세 조정은 감도 (최대 값과 최소값의 차이)를 줄이지 않지만 거의 모든 특성에 대해 성능이 가장 높은 하위 집합과 가장 낮은 하위 집합을 모두 크게 향상시킵니다. 이것은 우리가 네트워크 입력을 왜곡하는 방법에 따라 추측할 수 있으므로 미세 조정이 종횡비 및 bounding-box 영역에 대해 성능이 가장 낮은 하위 집합을 개선하는 것 이상을 의미합니다. 대신 미세 조정을 통해 폐색, 잘림, 시점 및 부품 가시성을 포함한 모든 특성의 견고성이 향상됩니다.

Hoiem 등의 우수한 탐지 분석 도구를 적용하여 방법의 오류 모드를 밝히고 미세 조정으로 인해 어떻게 변경되는지 이해하며 오류 유형이 DPM과 어떻게 비교되는지 확인했습니다.
분석 도구에 대한 전체 요약은 이 논문의 범위를 벗어납니다. 독자가 좀 더 자세한 세부 정보 (예 : "정규화 된 AP")를 이해하기 위해 상담하는 것이 좋습니다.
분석은 관련 플롯의 맥락에서 가장 잘 흡수되므로 그림 5 및 그림 6의 캡션 내에서 논의를 제시합니다.

3.5. Bounding-box regression

오류 분석을 기반으로 현지화 오류를 줄이는 간단한 방법을 구현했습니다.
DPM에 사용된 bounding-box regression에서 영감을 받아, 선택적 검색 영역 제안에 대한 pool5 기능이 주어지면 새로운 감지 창을 예측하기 위해 선형 회귀 모델을 훈련합니다.
자세한 내용은 부록 C에 나와 있습니다.
표 1, 표 2 및 그림 5의 결과는 이 간단한 접근 방식이 많은 수의 지역화되지 않은 탐지를 수정하여 mAP를 3~4 포인트 높여 준다는 것을 보여줍니다.

3.6. Qualitative results

ILSVRC2013에 대한 정성적 검출 결과는 논문 끝에있는 그림 8과 그림 9에 나와 있습니다.
각 이미지는 val2 세트에서 무작위로 샘플링 되었으며 정밀도가 0.5보다 큰 모든 검출기의 모든 검출이 표시됩니다.
이들은 선별되지 않았으며 작동 중인 감지기에 대한 현실적인 인상을 줍니다.
보다 정성적인 결과는 그림 10과 그림 11에 나와 있지만 선별된 것입니다.
흥미롭거나 놀랍거나 재미있는 결과가 포함된 각 이미지를 선택했습니다.
여기에도 0.5보다 큰 정밀도의 모든 탐지가 표시됩니다.

그림 8 : val2에서 31.0% mAP를 달성한 구성의 val2 세트에 대한 감지 예. 각 이미지는 무작위로 샘플링되었습니다 (이는 큐레이팅되지 않음). 정밀도가 0.5보다 큰 모든 탐지가 표시됩니다. 각 감지에는 예측된 클래스와 감지기의 정밀도-재현율 곡선에서 해당 감지의 정밀도 값으로 레이블이 지정됩니다. 줌을 사용하여 디지털로 보는 것이 좋습니다.

그림 9 : 더 무작위로 선택된 예. 자세한 내용은 그림 8 캡션을 참조하십시오. 줌을 사용하여 디지털로 보는 것이 좋습니다.

그림 10 : 선별된 예. 각 이미지는 인상적이거나 놀랍거나 흥미롭거나 재미있었기 때문에 선택되었습니다. 줌을 사용하여 디지털로 보는 것이 좋습니다.

그림 11 : 더 많은 선별된 예. 자세한 내용은 그림 10 캡션을 참조하십시오. 줌을 사용하여 디지털로 보는 것이 좋습니다.

4. The ILSVRC2013 detection dataset

섹션 2에서는 ILSVRC2013 detection dataset에 대한 결과를 제시했습니다.
이 dataset은 PASCAL VOC보다 덜 동질적이기 때문에 사용 방법에 대한 선택이 필요합니다.
이러한 결정은 중요하지 않으므로 이 섹션에서 다룹니다.

4.1. Dataset overview

ILSVRC2013 detection dataset은 train (395, 918), val (20, 121) 및 test (40, 152)의 세 세트로 분할되며 각 세트의 이미지 수는 괄호 안에 있습니다.
val 및 test 분할은 동일한 이미지 분포에서 가져옵니다.
이러한 이미지는 장면과 유사하며 PASCAL VOC 이미지와 복잡도 (객체 수, 어수선한 양, 포즈 가변성 등)가 유사합니다.
val 및 test 분할에는 철저하게 주석이 달려 있습니다.

즉, 각 이미지에서 200개 클래스의 모든 인스턴스는 bounding-box로 레이블이 지정됩니다.
대조적으로 train 세트는 ILSVRC2013 분류 이미지 분포에서 가져옵니다.
이러한 이미지는 단일 중심 개체의 이미지쪽으로 기울어지면서 더 다양한 복잡성을가집니다.
val 및 test와 달리 train 이미지는 많은 수로 인해 완전히 주석 처리되지 않습니다.
주어진 train 이미지에서 200개 클래스의 인스턴스는 레이블이 지정되거나 표시되지 않을 수 있습니다.
이러한 이미지 세트 외에도 각 클래스에는 추가 네거티브 이미지 세트가 있습니다.
네거티브 이미지는 연결된 클래스의 인스턴스가 포함되어 있지 않은지 확인하기 위해 수동으로 확인됩니다.
네거티브 이미지 세트는 이 작업에서 사용되지 않았습니다.
ILSVRC가 수집되고 주석이 추가된 방법에 대한 자세한 내용은 [11, 36]에서 확인할 수 있습니다.

이러한 분할의 특성은 R-CNN 훈련을 위한 다양한 선택 사항을 제공합니다.
주석이 완전하지 않기 때문에 train 이미지는 하드 네거티브 마이닝에 사용할 수 없습니다.
부정적인 예는 어디에서 왔습니까?
또한 train 이미지는 val 및 test와 다른 통계를 갖습니다.
train 이미지를 전혀 사용해야합니까?

그렇다면 어느 정도까지 사용해야합니까?
많은 선택 사항을 철저히 평가하지는 않았지만 이전 경험을 바탕으로 가장 분명한 경로를 제시합니다.

우리의 일반적인 전략은 val 집합에 크게 의존하고 일부 train 이미지를 긍정적인 예의 보조 소스로 사용하는 것입니다.
훈련과 검증 모두에 val을 사용하기 위해 대략 동일한 크기의 "val1"및 "val2"세트로 분할했습니다.
일부 클래스는 val에 예제가 거의 없기 때문에 (가장 작은 클래스는 31개만 있고 절반은 110개 미만) 대략 클래스 균형 파티션을 생성하는 것이 중요합니다.
이를 위해 많은 수의 후보 분할이 생성되었고 최대 상대 클래스 불균형이 가장 작은 분할이 선택되었습니다.
각 후보 분할은 클래스 수를 특징으로 사용하여 val 이미지를 클러스터링한 다음 분할 균형을 개선할 수있는 무작위 로컬 검색으로 생성되었습니다.
여기에 사용된 특정 분할은 최대 상대 불균형이 약 11%이고 중앙 상대 불균형이 4%입니다.
val1/val2 분할 및 이를 생성하는데 사용된 코드는 다른 연구자들이 이 보고서에 사용된 val 분할에 대한 방법을 비교할 수 있도록 공개적으로 사용할 수 있습니다.

4.2. Region proposals

PASCAL에서 감지에 사용된 것과 동일한 지역 제안 접근 방식을 따랐습니다.
선택적 검색은 val1, val2 및 test의 각 이미지에 대해 "고속 모드"에서 실행되었습니다 (그러나 train의 이미지에서는 실행되지 않음).
선택적 검색이 스케일 불변이 아니므로 생성되는 영역의 수는 이미지 해상도에 따라 달라진다는 사실을 처리하기 위해 약간의 수정이 필요했습니다.
ILSVRC 이미지 크기는 매우 작은 것부터 몇 메가 픽셀까지 다양하므로 선택적 검색을 실행하기 전에 각 이미지의 크기를 고정 너비 (500 픽셀)로 조정했습니다.
val에서 선택적 검색은 모든 ground-truth bounding-box의 91.6% 재현율 (0.5 IoU 임계 값에서)과 함께 이미지 당 평균 2403개의 지역 제안을 가져 왔습니다.
이 리콜은 PASCAL에서보다 현저히 낮으며, 약 98%로 지역 제안 단계에서 개선의 여지가 있음을 나타냅니다.

4.3. Training data

훈련 데이터를 위해 우리는 val1의 모든 선택적 검색 및 ground-truth 상자를 포함하는 일련의 이미지와 상자를 만들었고, train의 클래스 당 최대 N개의 ground-truth 상자 (클래스에 N개 미만의 train의 ground-truth 상자가 있는 경우 모두 가져갑니다).
이 이미지와 상자의 dataset를 val1 + trainN이라고합니다.
절제 연구에서 N ⊂ {0, 500, 1000}에 대한 val2의 mAP를 보여줍니다 (섹션 4.5).

훈련 데이터는 R-CNN의 세 가지 절차, 즉 (1) CNN 미세 조정, (2) 검출기 SVM 훈련 및 (3) bounding-box regressor 훈련에 필요합니다.
CNN 미세 조정은 PASCAL에 사용된 것과 동일한 설정을 사용하여 val1+trainN에서 5만 SGD 반복에 대해 실행되었습니다.
단일 NVIDIA Tesla K20의 미세 조정은 Caffe를 사용하여 13시간이 걸렸습니다.
SVM training의 경우 val1+trainN의 모든 ground-truth 상자가 해당 클래스에 대한 긍정적인 예로 사용되었습니다.
하드 네거티브 마이닝은 val1에서 5000개 이미지의 무작위로 선택된 하위 집합에 대해 수행되었습니다.
초기 실험에서 모든 val1에서 마이닝 네거티브를 추출한 결과 5000개의 이미지 하위 집합 (대략 절반)에 비해 mAP가 0.5% 포인트 하락하는 반면 SVM 훈련 시간은 절반으로 단축되었습니다.
주석이 완전하지 않기 때문에 train에서 부정적인 예를 가져 오지 않았습니다.
확인된 추가 네거티브 이미지 세트는 사용되지 않았습니다.
bounding-box regressor 분석기는 val1에서 훈련되었습니다.

4.4. Validation and evaluation

평가 서버에 결과를 제출하기 전에 위에서 설명한 훈련 데이터를 사용하여 val2 세트에 대한 데이터 사용 선택과 미세 조정 및 bounding-box regression의 효과를 확인했습니다.
모든 시스템 하이퍼 파라미터 (예 : SVM C 하이퍼 파라미터, 영역 왜곡에 사용된 패딩, NMS 임계 값, bounding-box regression 하이퍼 파라미터)는 PASCAL에 사용된 것과 동일한 값으로 고정되었습니다.
의심할 여지없이 이러한 하이퍼 파라미터 선택 중 일부는 ILSVRC에 약간 차선책이지만이 작업의 목표는 광범위한 데이터 세트 조정없이 ILSVRC에서 예비 R-CNN 결과를 생성하는 것이 었습니다.
val2에서 최상의 선택을 선택한 후 정확히 두 개의 결과 파일을 ILSVRC2013 평가 서버에 제출했습니다.
첫 번째 제출은 bounding-box regression이 없었고 두 번째 제출은 bounding-box regression가있었습니다.
이러한 제출을 위해 우리는 각각 val+train1k 및 val을 사용하도록 SVM 및 bounding-box regressor 훈련 세트를 확장했습니다.
미세 조정 및 특성 계산을 다시 실행하지 않도록 val1+train1k에서 미세 조정된 CNN을 사용했습니다.

4.5. Ablation study

표 4 : 데이터 사용 선택, 미세 조정 및 bounding-box regression에 대한 ILSVRC2013 절제 연구.

표 4는 다양한 양의 훈련 데이터, 미세 조정 및 bounding-box regression의 효과에 대한 절제 연구를 보여줍니다.
첫 번째 관찰은 val2의 mAP가 test의 mAP와 매우 가깝게 일치한다는 것입니다.
이는 val2의 mAP가 test set 성능의 좋은 지표라는 확신을 줍니다.
첫 번째 결과인 20.9%는 ILSVRC2012 분류 dataset(미세 조정 없음)에 대해 사전 훈련된 CNN을 사용하여 R-CNN이 달성하고 val1에있는 소량의 train set에 대한 액세스 권한을 부여한 것입니다 (클래스의 절반은 val1에는 15~55 개의 예제가 있습니다).
train set를 val1+trainN으로 확장하면 성능이 24.1%까지 향상되며 기본적으로 N=500과 N=1000 사이에 차이가 없습니다.
val1의 예제를 사용하여 CNN을 미세 조정하면 26.5%로 약간의 개선이 이루어지지만 긍정적인 훈련 예제의 수가 적기 때문에 상당한 과적합이 있을 수 있습니다.
미세 조정 세트를 val1+train1k로 확장하면 train set에서 클래스 당 최대 1000개의 긍정적인 예가 추가되어 mAP가 29.7%로 증가합니다.
bounding-box regression는 결과를 31.0%로 개선하는데, 이는 PASCAL에서 관찰된 것보다 상대적으로 더 작은 이득입니다.

4.6. Relationship to OverFeat

R-CNN과 OverFeat 사이에는 흥미로운 관계가 있습니다: OverFeat는 (대략) R-CNN의 특별한 경우로 볼 수 있습니다.
선택적 검색 영역 제안을 정사각형 영역의 다중 스케일 피라미드로 대체하고 클래스 별 bounding-box regressor를 단일 bounding-box regressor로 변경하면 시스템은 매우 유사합니다 (모듈로 잠재적으로 상당한 차이가있을 수 있음). 훈련 방법 : CNN 감지 미세 조정, SVM 사용 등).
OverFeat가 R-CNN에 비해 상당한 속도 이점이 있다는 점은 주목할 가치가 있습니다: [34]에서 인용한 이미지당 2초라는 수치를 기준으로 하면 약 9배 더 빠릅니다.
이 속도는 OverFeat의 슬라이딩 윈도우 (즉, 영역 제안)가 이미지 수준에서 뒤틀리지 않기 때문에 겹치는 윈도우 간에 계산을 쉽게 공유할 수 있기 때문입니다.
공유는 임의 크기의 입력에 대해 컨볼루션 방식으로 전체 네트워크를 실행하여 구현됩니다.
R-CNN 속도 향상은 다양한 방법으로 가능해야하며 향후 작업으로 남아 있어야 합니다.

5. Semantic segmentation

영역 분류는 시맨틱 분할을 위한 표준 기술로, PASCAL VOC 분할 문제에 R-CNN을 쉽게 적용할 수 있습니다.
현재 선도적인 시맨틱 분할 시스템 ( "2차 풀링"의 경우 O2P라고 함)과의 직접적인 비교를 용이하게 하기 위해 당사는 오픈 소스 프레임 워크 내에서 작업합니다.
O2P는 CPMC를 사용하여 이미지 당 150개의 지역 제안을 생성한 다음 SVR (Support Vector Regression)을 사용하여 각 클래스에 대해 각 지역의 품질을 예측합니다.
접근 방식의 높은 성능은 CPMC 영역의 품질과 여러 기능 유형의 강력한 2차 풀링 (SIFT 및 LBP의 풍부한 변형) 때문입니다.
또한 Farabet 등은 최근 CNN을 픽셀 당 멀티 스케일 분류기로 사용하는 여러 조밀한 장면 라벨링 데이터 세트 (PASCAL 제외)에서 좋은 결과를 보여주었습니다.

우리는 [2, 4]를 따르고 Hariharan 등 [22]에 의해 제공되는 추가 주석을 포함하도록 PASCAL 세분화 훈련 세트를 확장합니다.
설계 결정과 하이퍼 파라미터는 VOC 2011 검증 세트에서 교차 검증되었습니다.
최종 테스트 결과는 한 번만 평가되었습니다.

CNN features for segmentation.

CPMC 영역에서 기능을 계산하기 위한 세 가지 전략을 평가합니다. 이 전략은 모두 영역 주변의 직사각형 창을 227x227로 왜곡하는 것으로 시작합니다.
첫 번째 전략 (전체)은 영역의 모양을 무시하고 감지를 위해 했던 것처럼 뒤틀린 창에서 직접 CNN 기능을 계산합니다.
그러나 이러한 기능은 영역의 직사각형이 아닌 모양을 무시합니다.
두 영역은 거의 겹치지 않으면서 매우 유사한 bounding-box를 가질 수 있습니다.
따라서 두 번째 전략 (fg)은 영역의 전경 마스크에서만 CNN 기능을 계산합니다.
평균 빼기 후 배경 영역이 0이되도록 배경을 평균 입력으로 바꿉니다.
세 번째 전략 (full + fg)은 단순히 full 및 fg 기능을 연결합니다; 우리의 실험은 그들의 상보성을 검증합니다.

표 5 : VOC 2011 검증에 대한 세분화 평균 정확도 (%). 1열은 O2P를 나타냅니다. 2-7열은 ILSVRC 2012에서 사전 훈련된 CNN을 사용합니다.

Results on VOC 2011.

표 5는 O2P와 비교한 VOC 2011 validation set의 결과를 요약한 것입니다. (전체 카테고리 별 결과는 부록 E를 참조하십시오.)
각 기능 계산 전략 내에서 레이어 fc6은 항상 fc7보다 성능이 우수하며 다음 논의에서는 fc6 기능을 참조합니다.
fg 전략은 전체보다 약간 뛰어난 성능을 보여 마스킹된 영역 모양이 우리의 직관과 일치하는 더 강한 신호를 제공함을 나타냅니다.
그러나 full+fg는 47.9%의 평균 정확도를 달성하여 4.2%의 여백 (또한 O2P보다 약간 우수한 성능)으로 최상의 결과를 얻습니다.

이는 전체 기능이 제공하는 컨텍스트가 fg 기능을 고려하더라도 매우 유익하다는 것을 나타냅니다.
특히, full+fg 기능에 대한 20개의 SVR을 훈련하는 데는 O2P 기능에 대한 훈련에 10시간 이상이 걸리는 반면 단일 코어에서 1시간이 걸립니다.

표 6 : VOC 2011 test의 세분화 정확도(%). 우리는 [2]의 "Regions and Parts"(R&P) 방법과 [4]의 2차 풀링 (O2P) 방법이라는 두 가지 강력한 기준과 비교합니다. 미세 조정없이 CNN은 최고의 세분화 성능을 달성하여 R&P를 능가하고 O2P와 거의 일치합니다.

표 6에는 VOC 2011 test set에 대한 결과가 나와 있으며, 가장 성능이 좋은 방법인 fc6 (full+fg)와 두 가지 강력한 기준을 비교했습니다.
우리의 방법은 21개 카테고리 중 11개 카테고리에서 가장 높은 세분화 정확도를 달성하고 카테고리 전체에서 평균 47.9%의 가장 높은 전체 세분화 정확도를 달성합니다 (그러나 합리적인 오차 범위에서 O2P 결과와 관련이있을 가능성이 있음).
미세 조정을 통해 더 나은 성능을 얻을 수 있습니다.

6. Conclusion

최근 몇 년 동안 물체 감지 성능이 정체되었습니다.
최고 성능의 시스템은 여러 low-level 이미지 기능과 객체 감지기 및 장면 분류기의 high-level context를 결합한 복잡한 앙상블이었습니다.
이 논문은 PASCAL VOC 2012에서 가장 이전의 결과보다 30 % 상대적으로 개선된 간단하고 확장 가능한 물체 감지 알고리즘을 제공합니다.

우리는 두 가지 통찰력을 통해 이 성과를 달성했습니다.
첫 번째는 고용량 컨볼루션 신경망을 상향식 영역 제안에 적용하여 객체를 지역화하고 분할하는 것입니다. 두 번째는 레이블이 지정된 학습 데이터가 부족할 때 대규모 CNN을 훈련하기위한 패러다임입니다.
풍부한 데이터가 있는 보조 작업 (이미지 분류)을 위해 네트워크를 사전 교육 (감독) 한 다음 데이터가 부족한 대상 작업 (감지)을 위해 네트워크를 미세 조정하는 것이 매우 효과적이라는 것을 보여줍니다.
우리는 “감독된 사전 훈련 / 영역별 미세 조정” 패러다임이 다양한 데이터 부족 vision 문제에 대해 매우 효과적일 것으로 예상합니다.

우리는 컴퓨터 비전과 딥러닝 (상향 영역 제안 및 컨볼루션 신경망)의 고전적 도구의 조합을 사용하여 이러한 결과를 달성한 것이 중요하다는 점에 주목하여 결론을 내립니다.
과학적 탐구의 반대 라인이 아니라 두가지는 자연스럽고 필연적인 파트너입니다.

'Computer Vision' 카테고리의 다른 글

Mask R-CNN (번역) (0)	2021.03.02
SPPnet: Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition (번역) (0)	2021.02.26
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks (번역) (0)	2021.02.25
Fast R-CNN (번역) (0)	2021.02.24
OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks (번역) (0)	2021.02.23

프린이씨롯메

프린이씨롯메

태그

최근글

댓글

공지사항

아카이브

Rich feature hierarchies for accurate object detection and semantic segmentation

'Computer Vision' 카테고리의 다른 글

관련글

티스토리툴바