Mask R-CNN (번역)

2021. 3. 2. 11:39Computer Vision

Mask R-CNN

 

Kaiming He Georgia Gkioxari Piotr Doll´ar Ross Girshick
Facebook AI Research (FAIR)

 

Abstract

개체 인스턴스 분할을 위한 개념적으로 간단하고 유연하며 일반적인 프레임워크를 제시합니다.
우리의 접근 방식은 이미지의 객체를 효율적으로 감지하는 동시에 각 인스턴스에 대해 고품질 분할 마스크를 생성합니다.
Mask R-CNN이라고 하는이 방법은 경계 상자 인식을 위해 기존 분기와 병렬로 오브젝트 마스크를 예측하는 분기를 추가하여 Faster R-CNN을 확장합니다.
Mask R-CNN은 학습이 간단하며 5fps로 실행되는 Faster R-CNN에 약간의 오버헤드만 추가합니다.
또한 Mask R-CNN은 다른 작업으로 일반화하기 쉽습니다, 예를 들어 동일한 프레임워크에서 사람의 포즈를 추정할 수 있습니다.
인스턴스 세분화, 경계 상자 객체 감지 및 사람 키포인트 감지를 포함하여 COCO 챌린지 제품군의 세 가지 트랙 모두에서 최고의 결과를 보여줍니다.
종소리와 호각이 없는 Mask R-CNN은 COCO 2016 챌린지 우승자를 포함한 모든 작업에서 기존의 모든 단일 모델 항목을 능가합니다.
간단하고 효과적인 접근 방식이 탄탄한 기준이 되고 인스턴스 수준 인식에 대한 향후 연구를 용이하게 하는데 도움이 되기를 바랍니다.

 

1. Introduction

비전 커뮤니티는 단기간에 객체 감지 및 의미론적 세분화 결과를 빠르게 개선했습니다.
대부분의 경우 이러한 발전은 각각 객체 감지 및 시맨틱 분할을 위한 Fast / Faster RCNN [12, 36] 및 FCN (Fully Convolutional Network) [30] 프레임 워크와 같은 강력한 기준 시스템에 의해 주도되었습니다.
이러한 방법은 개념적으로 직관적이며 빠른 학습 및 추론 시간과 함께 유연성과 견고성을 제공합니다.
이 작업에서 우리의 목표는 인스턴스 분할을 위한 비교적 가능한 프레임 워크를 개발하는 것입니다.

 

인스턴스 분할은 이미지의 모든 개체를 올바르게 감지하는 동시에 각 인스턴스를 정확하게 분할해야하기 때문에 어렵습니다.
따라서 개체 감지의 고전적인 컴퓨터 비전 작업의 요소를 결합합니다, 여기서 목표는 개별 개체를 분류하고 경계 상자를 사용하여 각 개체를 지역화하는 것입니다, 의미론적 세분화는 각 픽셀을 구분하지 않고 고정된 범주 집합으로 분류하는 것입니다.
이를 감안할 때 좋은 결과를 얻으려면 복잡한 방법이 필요합니다.
그러나 놀랍도록 간단하고 유연하며 빠른 시스템이 이전의 최첨단 인스턴스 분할 결과를 능가할 수 있음을 보여줍니다.

그림 1. 인스턴스 분할을 위한 Mask R-CNN 프레임 워크.

Mask R-CNN이라고 하는 우리의 방법은 분류 및 경계 상자 회귀를 위한 기존 분기와 병렬로 각 관심 영역 (RoI)에서 분할 마스크를 예측하기 위한 분기를 추가하여 Faster R-CNN [36]을 확장합니다 (그림 1). .
마스크 분기는 각 RoI에 적용되는 작은 FCN으로 픽셀 대 픽셀 방식으로 분할 마스크를 예측합니다.
Mask R-CNN은 Faster R-CNN 프레임 워크를 고려할 때 구현 및 훈련이 간단하여 광범위한 유연한 아키텍처 설계를 용이하게 합니다.
또한 마스크 브랜치는 작은 계산 오버헤드만 추가하므로 빠른 시스템과 빠른 실험이 가능합니다.

 

원칙적으로 Mask R-CNN은 Faster R-CNN의 직관적인 확장이지만 좋은 결과를 위해서는 마스크 브랜치를 적절하게 구성하는 것이 중요합니다.
가장 중요한 것은 Faster R-CNN이 네트워크 입력과 출력 사이의 픽셀 간 정렬을 위해 설계되지 않았다는 것입니다.
이는 인스턴스를 처리하기 위한 사실상의 핵심 작업인 RoIPool [18, 12]이 특징 추출을 위한 대략적인 공간 양자화를 수행하는 방식에서 가장 분명합니다.
오정렬을 수정하기 위해 정확한 공간 위치를 충실하게 보존하는 RoIAlign이라는 단순하고 양자화가 없는 레이어를 제안합니다.
겉보기에는 사소한 변화임에도 불구하고 RoIAlign은 큰 영향을 미칩니다: RoIAlign은 마스크 정확도를 상대적으로 10%에서 50%까지 개선하여 더 엄격한 현지화 메트릭에서 더 큰 이득을 보여줍니다.
둘째, 마스크와 클래스 예측을 분리하는 것이 필수적이라는 사실을 발견했습니다: 클래스 간 경쟁없이 각 클래스에 대해 독립적으로 이진 마스크를 예측하고 네트워크의 RoI 분류 분기를 사용하여 카테고리를 예측했습니다.
대조적으로 FCN은 일반적으로 세분화와 분류를 결합하는 픽셀 당 다중 클래스 분류를 수행하며, 실험을 기반으로 인스턴스 세분화에 대해 제대로 작동하지 않습니다.

 

종소리와 호각이 없는 Mask R-CNN은 2016년 대회 우승자의 강력하게 엔지니어링된 항목을 포함하여 COCO 인스턴스 분할 작업 [28]에서 이전의 모든 최신 단일 모델 결과를 능가합니다.
부산물로서 우리의 방법은 또한 COCO 물체 감지 작업에서 탁월합니다.
절제 실험에서는 여러 기본 인스턴스화를 평가하여 견고성을 입증하고 핵심 요인의 효과를 분석할 수 있습니다.

 

우리의 모델은 GPU에서 프레임 당 약 200ms로 실행될 수 있으며, 단일 8-GPU 시스템에서 COCO에 대한 학습은 1~2일이 걸립니다.
프레임 워크의 유연성 및 정확성과 함께 빠른 학습 및 테스트 속도가 인스턴스 세분화에 대한 향후 연구에 도움이 되고 용이해질 것이라고 믿습니다.

 

마지막으로, 우리는 COCO 키포인트 데이터 세트 [28]에 대한 인간 포즈 추정 작업을 통해 프레임 워크의 일반성을 보여줍니다.
각 키포인트를 원-핫 바이너리 마스크로 보고, 최소한의 수정으로 Mask R-CNN을 적용하여 인스턴스 별 포즈를 감지할 수 있습니다.
Mask R-CNN은 2016 COCO 키포인트 대회 우승자를 능가하며 동시에 5fps로 실행됩니다.
따라서 Mask R-CNN은 인스턴스 수준 인식을 위한 유연한 프레임 워크로 보다 광범위하게 볼 수 있으며 보다 복잡한 작업으로 쉽게 확장될 수 있습니다.

 

2. Related Work

R-CNN

경계 상자 객체 탐지에 대한 지역 기반 CNN (R-CNN) 접근 방식 [13]은 관리 가능한 수의 후보 객체 영역 [42, 20]에 주의를 기울이고 각 RoI에서 독립적으로 컨볼루션 네트워크 [25, 24]를 평가하는 것입니다.
R-CNN은 RoIPool을 사용하여 피처 맵에서 RoI에 참여할 수 있도록 확장 [18, 12]하여 빠른 속도와 더 나은 정확도로 이어졌습니다.
Faster R-CNN [36]은 RPN (Region Proposal Network)을 통해 주의 메커니즘을 학습함으로써 이 스트림을 발전 시켰습니다.
Faster R-CNN은 많은 후속 개선 (예 : [38, 27, 21])에 유연하고 견고하며 여러 벤치 마크에서 현재 선도적인 프레임 워크입니다.

 

Instance Segmentation

R-CNN의 효율성에 따라 인스턴스 분할에 대한 많은 접근 방식은 세그먼트 제안을 기반으로 합니다.
이전의 방법 [13, 15, 16, 9]은 상향식 세그먼트 [42, 2]에 의존했습니다. 

DeepMask [33]와 다음 작업 [34, 8]은 세그먼트 후보를 제안하는 방법을 배우고 Fast R-CNN에 의해 분류됩니다.
이러한 방법에서 세분화는 인식보다 우선하므로 느리고 정확도가 떨어집니다.
마찬가지로 Dai et al. [10]은 경계 상자 제안에서 세그먼트 제안을 예측하는 복잡한 다단계 캐스케이드를 제안한 다음 분류합니다.
대신, 우리의 방법은 마스크와 클래스 레이블의 병렬 예측을 기반으로 하며, 이는 더 간단하고 더 유연합니다.

그림 6. FCIS+++ [26] (위) vs. 마스크 R-CNN (아래, ResNet-101-FPN). FCIS는 겹치는 개체에 체계적인 인공물을 표시합니다.

가장 최근에 Li et al. [26]은 [8]의 세그먼트 제안 시스템과 [11]의 객체 감지 시스템을 "FCIS (Full Convolutional instance Segmentation)"에 결합했습니다.
[8, 11, 26]의 일반적인 아이디어는 위치 감지 출력 채널 세트를 완전히 컨벌루션 방식으로 예측하는 것입니다.
이러한 채널은 객체 클래스, 상자 및 마스크를 동시에 처리하므로 시스템이 빨라집니다.
그러나 FCIS는 겹치는 인스턴스에서 체계적인 오류를 나타내며 스퓨리어스 에지를 생성하여 (그림 6) 인스턴스 분할의 근본적인 어려움으로 인해 어려움을 겪고 있음을 보여줍니다.

 

인스턴스 분할에 대한 또 다른 솔루션 제품군 [23, 4, 3, 29]은 의미론적 분할의 성공에 의해 주도됩니다.
픽셀 별 분류 결과(예 : FCN 출력)에서 시작하여 이러한 방법은 동일한 범주의 픽셀을 다른 인스턴스로 잘라내려고 시도합니다.
이러한 방법의 세분화 우선 전략과 달리 Mask R-CNN은 인스턴스 우선 전략을 기반으로 합니다.
앞으로 두 전략의 더 깊은 통합이 연구될 것으로 기대합니다.