EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

2022. 2. 10. 16:56Computer Vision

EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

 

Mingxing Tan, Quoc V. Le

 

Abstract

ConvNets(Convolutional Neural Networks)는 일반적으로 고정된 리소스 예산으로 개발된 다음 더 많은 리소스를 사용할 수 있는 경우 정확도를 높이기 위해 확장됩니다.
이 논문에서 우리는 모델 스케일링을 체계적으로 연구하고 네트워크 깊이, 너비 및 해상도의 균형을 신중하게 조정하면 더 나은 성능으로 이어질 수 있음을 확인합니다.
이러한 관찰을 바탕으로 우리는 간단하지만 매우 효과적인 복합 계수를 사용하여 깊이/너비/해상도의 모든 차원을 균일하게 스케일링하는 새로운 스케일링 방법을 제안합니다.
MobileNets 및 ResNet 확장에 대한 이 방법의 효율성을 보여줍니다.

 

더 나아가, 우리는 신경 아키텍처 검색을 사용하여 새로운 기준 네트워크를 설계하고 EfficientNets라는 모델 제품군을 얻기 위해 확장하여 이전 ConvNets보다 훨씬 나은 정확성과 효율성을 달성한다.
특히, EfficientNet-B7은 ImageNet에서 최첨단 84.3%의 상위 1위 정확도를 달성하는 동시에 최고의 기존 ConvNet보다 8.4배 작고 추론 속도가 6.1배 빠르다.
또한 EfficientNets는 CIFAR-100(91.7%), Flowers(98.8%) 및 3개의 다른 전송 학습 데이터 세트에서 훨씬 적은 매개 변수로도 잘 전송되고 최첨단 정확도를 달성한다.

 

 

1. Introduction

ConvNets 스케일업은 더 나은 정확도를 달성하기 위해 널리 사용된다.
예를 들어, ResNet(He et al., 2016)은 더 많은 레이어를 사용하여 ResNet-18에서 ResNet-200으로 확장할 수 있다. 최근 GPIpe(Huang et al., 2018)는 기준선 모델을 4배 더 크게 확장하여 ImageNet 상위 1 정확도 84.3%를 달성했다.
그러나 ConvNets를 확장하는 프로세스는 잘 이해된 적이 없으며 현재 이를 위한 많은 방법이 있다.
가장 일반적인 방법은 ConvNets를 깊이(He 등, 2016) 또는 너비(Zagoruyko & Komodakis, 2016)로 확장하는 것이다.
흔하지는 않지만 점점 더 인기를 끌고 있는 또 다른 방법은 이미지 해상도로 모델을 스케일업하는 것이다(Huang 등, 2018).
이전 연구에서는 깊이, 너비 및 이미지 크기의 세 가지 차원 중 하나만 축척하는 것이 일반적입니다.
임의로 2차원 또는 3차원을 스케일링할 수 있지만, 임의 스케일링은 지루한 수동 튜닝이 필요하며 여전히 최적의 정확도와 효율성을 제공하지 못하는 경우가 많다.

본 논문에서 우리는 ConvNets를 확장하는 프로세스를 연구하고 다시 생각해 보고자 한다.
특히, 우리는 중심 질문을 조사한다: ConvNets를 더 나은 정확성과 효율성을 달성할 수 있는 원칙적인 방법이 있는가?
우리의 경험적 연구는 네트워크 폭/깊이/분해능의 모든 차원을 균형 있게 조정하는 것이 매우 중요하다는 것을 보여주며, 놀랍게도 그러한 균형은 각각 일정한 비율로 확장하기만 하면 달성될 수 있다.
이러한 관찰을 바탕으로 단순하면서도 효과적인 복합 스케일링 방법을 제안한다.
이러한 요인을 임의로 스케일링하는 기존의 관행과 달리, 우리의 방법은 고정된 스케일링 계수 세트를 사용하여 네트워크 폭, 깊이 및 해상도를 균일하게 스케일링한다.
예를 들어, 2^N배 더 많은 계산 자원을 사용하려면 네트워크 깊이를 α^N만큼, 너비를 β^N만큼, 이미지 크기를 β^N만큼 증가시키면 된다, 여기서 α, β, γ는 원래 작은 모델의 작은 그리드 검색에 의해 결정되는 상수 계수이다.
그림 2는 우리의 스케일링 방법과 기존의 방법의 차이를 보여줍니다.

 

직관적으로 복합 스케일링 방법은 입력 이미지가 클 경우 네트워크가 수용 필드를 증가시키기 위해 더 많은 레이어가 필요하고 더 큰 이미지에 더 미세한 패턴을 캡처하기 위해 더 많은 채널이 필요하기 때문에 타당하다.
사실 이전의 이론적(Raghu 등, 2017; Lu 등, 2018)과 경험적 결과(Zagoruyko & Komodakis, 2016)는 모두 네트워크 폭과 깊이 사이에 특정 관계가 존재함을 보여준다, 그러나 우리가 아는 한, 네트워크 폭, 깊이 및 해상도의 세 가지 차원 사이의 관계를 경험적으로 정량화한 것은 우리가 처음이다.

 

우리는 우리의 스케일링 방법이 기존 MobileNets(Howard 등, 2017; Sandler 등, 2018)와 ResNet(He 등, 2016)에서 잘 작동함을 입증한다.
특히 모델 스케일링의 효과는 기준선 네트워크에 크게 좌우된다; 더 나아가 신경 아키텍처 검색(Zoph & Le, 2017; Tan 등, 2019)을 사용하여 새로운 기준선 네트워크를 개발하고 EfficientNets라는 모델 제품군을 얻기 위해 확장한다.
그림 1은 EfficientNets가 다른 ConvNets를 크게 능가하는 ImageNet 성능을 요약한 것이다.
특히 EfficientNet-B7은 현존하는 최고의 GPIpe 정확도(Huang 등, 2018)를 능가하지만 매개 변수를 8.4배 적게 사용하고 추론에서 6.1배 빠르게 실행한다.
널리 사용되는 ResNet-50(He 등, 2016)과 비교하여 EfficientNet-B4는 유사한 FLOPS로 상위 1위 정확도를 76.3%에서 83.0%(+6.7%)로 향상시킨다.
ImageNet 외에도 EfficientNets는 널리 사용되는 데이터 세트 8개 중 5개에서 전송이 잘되고 최첨단 정확도를 달성하면서 기존 ConvNet보다 매개 변수를 최대 21배까지 줄인다.

 

 

2. Related Work

ConvNet 정확도:

2012년 ImageNet 대회에서 AlexNet(Krizhevsky 등, 2012년)이 우승한 이후 ConvNet의 정확도는 더욱 높아졌습니다: 2014년 ImageNet 우승자 GoogleNet(Szegedy 등, 2015년)은 약 680만 개의 매개 변수로 74.8%의 상위 1위 정확도를 달성했습니다, 2017 ImageNet 수상자 SENet(Hu 등, 2018)은 145M 매개 변수로 82.7%의 상위 1위 정확도를 달성했습니다.

2012년 ImageNet 대회에서 AlexNet(Krizhevsky 등, 2012년)이 우승한 이후 ConvNet의 정확도는 더욱 높아졌습니다.
2014년 ImageNet 우승자 GoogleNet(Szegedy 등, 2015년)은 약 680만 개의 매개 변수로 74.8%의 상위 1위 정확도를 달성했습니다.
2017 ImageNet 수상자 SENet(Hu 등, 2018)은 145M 매개 변수로 82.7%의 상위 1위 정확도를 달성했습니다.
최근 GPIpe(Huang et al., 2018)는 557M 매개 변수를 사용하여 최첨단 ImageNet 최상위 검증 정확도를 84.3%로 더욱 높인다. 이는 네트워크를 분할하고 각 부품을 다른 가속기로 분산시킴으로써 전문 파이프라인 병렬 라이브러리를 통해서만 훈련할 수 있을 정도로 크다.
이러한 모델은 주로 ImageNet용으로 설계되었지만, 최근 연구는 ImageNet 모델이 다양한 전송 학습 데이터 세트(Kornblith 등, 2019)와 객체 감지와 같은 다른 컴퓨터 비전 작업에서도 더 나은 성능을 발휘한다는 것을 보여주었다(He 등, 2016년; Tan 등, 2019년).
많은 애플리케이션에서 더 높은 정확도가 매우 중요하지만 하드웨어 메모리 한계에 도달했기 때문에 더 높은 정확도 획득은 더 나은 효율성을 필요로 합니다.

 

ConvNet 효율성:

Deep ConvNets는 종종 과잉 매개 변수화된다.
모델 압축(Han et al., 2016; He et al., 2018; Yang et al., 2018)은 효율성을 위해 정확도를 거래하여 모델 크기를 줄이는 일반적인 방법이다.
휴대전화가 보편화됨에 따라 효율적인 모바일 크기의 ConvNets를 수공예로 만드는 것도 일반적이다, 예를 들어 SqueezeNets(Iandola 등, 2016년; Gholami 등, 2018년), MobileNets(Howard 등, 2017년; Sandler 등, 2018년), ShuffleNets(장 등, 2018년; Ma 등, 2018년)이다.

최근 신경 아키텍처 검색은 효율적인 모바일 크기 ConvNets(Tan 등, 2019; Cai 등, 2019) 설계에서 점점 인기를 얻고 있으며 네트워크 폭, 깊이, 컨볼루션 커널 유형 및 크기를 광범위하게 조정하여 수작업으로 만든 모바일 ConvNets보다 훨씬 더 나은 효율성을 달성한다.
그러나 설계 공간이 훨씬 크고 튜닝 비용이 훨씬 비싼 대형 모델에 이러한 기법을 적용하는 방법은 불분명하다.
본 논문에서는 최첨단 정확도를 능가하는 초대형 ConvNets에 대한 모델 효율성을 연구하는 것을 목표로 한다.
이 목표를 달성하기 위해 모델 확장에 의존한다.

 

모델 확장:

다양한 리소스 제약에 따라 ConvNet을 확장할 수 있는 방법은 여러 가지가 있습니다: ResNet(예: ResNet-18) 또는 네트워크 깊이(#레이어)를 조정하여 ResNet-200을 축소(예: ResNet-200)할 수 있습니다, 반면 WideResNet(자고루이코 & 코모다키스, 2016)과 MobileNets(Howard 등, 2017)는 네트워크 폭(#채널)으로 확장할 수 있다.

또한 더 큰 입력 이미지 크기가 더 많은 FLOPS의 오버헤드에 대한 정확도에 도움이 된다는 것은 잘 알려져 있다.
이전 연구(Raghu et al., 2017; Lin & Jegelka, 2018; Sharir & Shashua, 2018; Lu et al., 2018)에서 네트워크 깊이와 폭이 ConvNet의 표현력에 모두 중요한 것으로 나타났지만, 더 나은 효율성과 정확도를 달성하기 위해 ConvNet을 효과적으로 확장하는 방법은 여전히 미결 문제로 남아 있다.
우리의 작업은 네트워크 폭, 깊이 및 해상도의 세 가지 차원 모두에 대한 ConvNet 확장을 체계적이고 경험적으로 연구한다.

 

 

3. Compound Model Scaling

이 섹션에서는 스케일링 문제를 공식화하고 다양한 접근 방식을 연구하며 새로운 스케일링 방법을 제안합니다.

 

3.1. Problem Formulation

ConvNet Layer i는 함수로 정의할 수 있다. Y_i = F_i(X_i), 여기서 F_i는 연산자, Y_i는 출력 텐서, X_i는 입력 텐서이며, 텐서 형태는 <H_i, W_i, C_i>이다, 여기서 H_i와 W_i는 공간 차원이고 C_i는 채널 차원입니다.

ConvNet N은 구성된 레이어 목록으로 나타낼 수 있습니다: N = F_k⊙...⊙ F_2⊙ F_1(X_1)=⊙_(j=1...k) F_j(X_1).

실제로, ConvNet 계층은 종종 여러 단계로 분할되고 각 단계의 모든 계층은 동일한 아키텍처를 공유한다: 예를 들어 ResNet (He 등, 2016)은 5개의 단계를 가지고 있으며, 각 단계의 모든 계층은 첫 번째 계층이 다운 샘플링을 수행하는 것을 제외하고 동일한 컨볼루션 유형을 가지고 있다.

따라서 ConvNet을 다음과 같이 정의할 수 있습니다:

그림 2(a)는 공간 치수가 점차 줄어들지만 채널 치수가 레이어에 걸쳐 확장되는 대표적인 ConvNet을 보여줍니다, 예를 들어, 초기 입력 형상 <224, 224, 3>에서 최종 출력 형상 <7, 7, 512>까지입니다.

 

최상의 레이어 아키텍처 F_i를 찾는 데 초점을 맞춘 일반적인 ConvNet 설계와는 달리 모델 스케일링은 기본 네트워크에서 미리 정의된 F_i를 변경하지 않고 네트워크 길이(L_i), 너비(C_i), 해상도(H_i, W_i)를 확장하려고 한다.
F_i를 수정함으로써 모델 스케일링은 새로운 리소스 제약에 대한 설계 문제를 단순화하지만, 여전히 각 계층에 대해 서로 다른 L_i, C_i, H_i, W_i를 탐색할 수 있는 큰 설계 공간으로 남아 있다.
설계 공간을 더욱 줄이기 위해 모든 레이어가 일정한 비율로 균일하게 확장되어야 한다고 제한한다.
우리의 목표는 최적화 문제로 공식화될 수 있는 주어진 자원 제약에 대한 모델 정확도를 최대화하는 것이다:

여기서 w, d, r는 네트워크 폭, 깊이 및 분해능의 배율을 위한 계수이다; ^F_i, ^L_i, ^H_i, ^W_i, ^C_i는 기본 네트워크에서 사전 정의된 매개변수이다(예시 표 1 참조).

 

3.2. Scaling Dimensions

문제 2의 주요 어려움은 최적의 d, w, r이 서로 의존하며 다른 자원 제약에 따라 값이 변한다는 것이다.
이러한 어려움 때문에 기존 방법은 대부분 다음 차원 중 하나로 ConvNets를 확장한다:

 

깊이 (d):

네트워크 깊이 배율은 많은 ConvNets에서 가장 일반적으로 사용되는 방법이다(He 등, 2016; Huang 등, 2017; Szegedy 등, 2015; 2016).
직관은 ConvNet이 더 풍부하고 복잡한 기능을 포착하고 새로운 작업을 잘 일반화할 수 있다는 것이다.
그러나 더 깊은 네트워크는 소멸되는 경사도 문제로 인해 훈련하기가 더 어렵다(자고루이코 & 코모다키스, 2016).
스킵 연결(He et al., 2016) 및 배치 정규화(Ioffe & Szegedy, 2015)와 같은 몇 가지 기술이 훈련 문제를 완화하지만 매우 심층적인 네트워크의 정확도 향상은 감소한다: 예를 들어, ResNet-1000은 훨씬 더 많은 레이어를 가지고 있음에도 불구하고 ResNet-101과 비슷한 정확도를 가지고 있다.
그림 3(가운데)은 깊이 계수 d가 다른 기준 모델 확장에 대한 경험적 연구를 보여주며, 매우 심층적인 ConvNets에 대한 정확도 수익 감소를 시사한다.

 

폭 (w):

네트워크 폭 스케일링은 일반적으로 소형 모델에 사용된다(Howard 등, 2017년; Sandler 등, 2018년; Tan 등, 2019년).
(자고리코 & 코모다키스, 2016)에서 논의된 바와 같이, 더 넓은 네트워크는 더 미세한 특징을 포착할 수 있고 훈련하기 쉬운 경향이 있다.
그러나 매우 넓지만 얕은 네트워크는 더 높은 수준의 특징을 포착하는 데 어려움을 겪는 경향이 있다.
그림 3(왼쪽)의 경험적 결과는 네트워크가 w가 클수록 훨씬 넓어질 때 정확도가 빠르게 포화된다는 것을 보여준다.

 

해상도 (r):

더 높은 해상도의 입력 이미지를 통해 ConvNets는 잠재적으로 더 미세한 패턴을 캡처할 수 있다.
초기 ConvNets의 224x224에서 시작하여, 현대의 ConvNets는 더 나은 정확도를 위해 299x299(Szegedy 등, 2016) 또는 331x331(Zoph 등, 2018)을 사용하는 경향이 있다.
최근 GPIpe(Huang 등, 2018)는 480x480 해상도로 최첨단 ImageNet 정확도를 달성한다.
600x600과 같은 고해상도도 물체 감지 ConvNets에 널리 사용된다(He 등, 2017; Lin 등, 2017).
그림 3(오른쪽)은 네트워크 해상도 스케일링 결과를 보여줍니다. 여기서 높은 해상도는 정확성을 향상시키지만 매우 높은 해상도의 경우 정확도 향상은 감소합니다 (r=1.0은 해상도 224x224를 나타내고 r=2.5는 해상도 560x560를 나타냅니다.

 

위의 분석을 통해 첫 번째 관측치를 확인할 수 있습니다:

 

관찰 1 -

네트워크 폭, 깊이 또는 해상도의 크기를 늘리면 정확도는 향상되지만 대형 모델의 경우 정확도가 저하됩니다.

 

3.3. Compound Scaling

우리는 다른 스케일링 치수가 독립적이지 않다는 것을 경험적으로 관찰한다.
직관적으로 고해상도 이미지의 경우 네트워크 깊이를 높여서 수용 필드가 클수록 더 큰 이미지에 더 많은 픽셀을 포함하는 유사한 기능을 캡처할 수 있도록 해야 한다.
이에 따라 고해상도 이미지에 더 많은 픽셀로 더 미세한 패턴을 캡처하기 위해 해상도가 높을수록 네트워크 폭도 증가해야 한다.
이러한 직관은 우리가 기존의 1차원 스케일링이 아닌 다른 스케일링 차원을 조정하고 균형을 맞출 필요가 있음을 시사한다.

 

직관을 검증하기 위해 그림 4와 같이 다양한 네트워크 깊이와 해상도에서 폭 배율을 비교한다.
깊이(d=1.0)와 해상도(r=1.0)를 변경하지 않고 네트워크 폭 w만 확장하면 정확도가 빠르게 포화된다.
더 깊은(d=2.0) 및 더 높은 해상도(r=2.0)의 경우, 동일한 FLOPS 비용으로 폭 배율이 훨씬 더 높은 정확도를 달성합니다.
이러한 결과는 두 번째 관찰로 이어진다:

 

관찰 2 -

더 나은 정확성과 효율성을 추구하기 위해서는 ConvNet 스케일링 중에 네트워크 폭, 깊이 및 해상도의 모든 차원을 균형 있게 조정하는 것이 중요하다.

 

실제로 몇 가지 이전 작업(Zoph 등, 2018; Real 등, 2019)은 이미 네트워크 폭과 깊이의 균형을 임의로 조정하려고 시도했지만 모두 지루한 수동 조정이 필요하다.

 

본 논문에서, 우리는 네트워크 폭, 깊이 및 해상도를 원칙적으로 균일하게 스케일링하기 위해 복합 계수 ϕ를 사용하는 새로운 복합 스케일링 방법을 제안한다:

, 여기서 α, β, γ는 작은 격자 탐색으로 결정될 수 있는 상수이다.

직관적으로, ϕ는 모델 스케일링에 사용할 수 있는 리소스 수를 제어하는 사용자 지정 계수이며, α, β, γ는 네트워크 폭, 깊이 및 해상도에 각각 이러한 추가 리소스를 할당하는 방법을 지정한다.

특히 일반 컨볼루션 연산의 FLOPS는 d, w^2, r^2, 즉 네트워크 깊이를 두 배로 늘리면 FLOPS가 두 배로 증가하지만 네트워크 폭이나 해상도를 두 배로 늘리면 FLOPS가 네 배로 증가한다.

컨볼루션 연산은 일반적으로 ConvNet에서 계산 비용을 지배하기 때문에 식 (3)으로 ConvNet을 확장하면 총 FLOPS가 대략 (α·β^2·γ^2)^ϕ만큼 증가한다.

본 논문에서 우리는 새로운 ϕ에 대해 총 FLOPS가 대략 2^ϕ만큼 증가하도록 α·β^2·γ^2≒2를 제한한다.

 

 

4. EfficientNet Architecture

모델 스케일링은 기준선 네트워크에서 계층 연산자 ^F_i를 변경하지 않기 때문에 양호한 기준선 네트워크를 갖는 것도 중요하다.
기존 ConvNets를 사용하여 스케일링 방법을 평가할 것이지만 스케일링 방법의 효과를 더 잘 입증하기 위해 EfficientNet이라는 새로운 모바일 크기 기준선도 개발했다.

 

(Tan 등, 2019)에서 영감을 받아 정확성과 FLOPS를 모두 최적화하는 다목적 신경 아키텍처 검색을 활용하여 기준 네트워크를 개발한다.
구체적으로, 우리는 (Tan 등, 2019)과 동일한 검색 공간을 사용하고 ACC(m)X[FLOPS(m)/T]^w를 최적화 목표로 사용한다, 여기서 ACC(m)와 FLOPS(m)는 정확도를 나타내고, T는 대상 FLOPS이고 w=-0.07은 하이퍼 파라미터 제어이다.

(Tan 등, 2019; Cai 등, 2019)와 달리, 여기서는 특정 하드웨어 장치를 목표로 하지 않기 때문에 지연 시간보다는 FLOPS를 최적화한다.
우리의 검색은 EfficientNet-B0이라는 이름의 효율적인 네트워크를 생성한다.
(Tan 등, 2019)와 동일한 검색 공간을 사용하기 때문에 EfficientNet-B0이 더 큰 FLOPS 대상 때문에 약간 더 크다는 점을 제외하면 아키텍처는 MnasNet과 유사하다(FLOPS 대상은 400M이다.
표 1은 EfficientNet-B0의 아키텍처를 보여줍니다.
주요 빌딩 블록은 이동식 역 병목 MBConv(Sandler 등, 2018; Tan 등, 2019)이며, 여기에 압착 및 여기 최적화도 추가한다(Hu 등, 2018).

 

기준 EfficientNet-B0부터 시작하여 복합 스케일링 방법을 적용하여 다음 두 단계로 스케일업한다:

  1단계: 먼저 사용 가능한 자원이 두 배 더 많다고 가정하고 ϕ=1을 수정하고 식 2와 3을 기반으로 α, β, γ의 소규모 그리드 검색을 수행한다. 특히, EfficientNet-B0에 대한 최상의 값은 α·β^2·γ^2≒2의 제약 하에서 α=1.2, β=1.15, β=1.15이다.

  2단계: 그런 다음 α, β, γ를 상수로 고정하고 식 3을 사용하여 다른 ϕ로 기준선 네트워크를 확장하여 EfficientNet-B1부터 B7(표 2의 세부 정보)을 얻는다.

특히 대형 모델을 중심으로 직접 α, β, γ를 검색하면 훨씬 더 나은 성능을 얻을 수 있지만 대형 모델일수록 검색 비용이 엄청나게 비싸다.
우리의 방법은 소규모 기준선 네트워크에서 검색을 한 번만 수행한 다음(1단계) 다른 모든 모델(2단계)에 대해 동일한 스케일링 계수를 사용하여 이 문제를 해결한다.

 

 

5. Experiment

이 섹션에서는 먼저 기존 ConvNets와 새로 제안된 EfficientNets에 대한 확장 방법을 평가할 것이다.

 

5.1. Scaling Up MobileNets and ResNets

 

 

 

 

6. Discussion

EfficientNet 아키텍처에서 제안된 스케일링 방법의 기여를 분리하기 위해, 그림 8은 동일한 EfficientNet-B0 기본 네트워크에 대한 다양한 스케일링 방법의 ImageNet 성능을 비교한다.
일반적으로 모든 스케일링 방법은 더 많은 FLOPS의 비용으로 정확도를 향상시키지만, 우리의 복합 스케일링 방법은 다른 단일 확장 스케일링 방법보다 정확도를 최대 2.5%까지 더 향상시킬 수 있어 제안된 복합 스케일링의 중요성을 시사한다.

우리의 복합 스케일링 방법이 다른 모델보다 나은 이유를 더 잘 이해하기 위해 그림 7은 스케일링 방법이 다른 몇 가지 대표적인 모델에 대한 클래스 활성화 맵(Zhou 등, 2016)을 비교한다.
이 모든 모델은 동일한 기준선에서 스케일링되며, 통계는 표 7에 나와 있다.
이미지는 ImageNet 유효성 검사 세트에서 임의로 선택됩니다.
그림에서 볼 수 있듯이, 복합 스케일링을 사용하는 모델은 더 많은 객체 세부 정보가 있는 관련 영역에 초점을 맞추는 경향이 있는 반면, 다른 모델은 객체 세부 정보가 부족하거나 이미지의 모든 객체를 캡처할 수 없습니다.

 

 

7. Conclusion

본 논문에서 우리는 ConvNet 스케일링을 체계적으로 연구하고 네트워크 폭, 깊이 및 해상도의 세심한 균형 조정이 중요하지만 누락된 부분임을 식별하여 정확성과 효율성을 향상할 수 없다.
이 문제를 해결하기 위해 모델 효율성을 유지하면서 기준 ConvNet을 보다 원칙적인 방식으로 대상 리소스 제약으로 쉽게 확장할 수 있는 간단하고 매우 효과적인 복합 스케일링 방법을 제안한다.
이 복합 스케일링 방법을 통해, 우리는 모바일 크기 EfficientNet 모델을 매우 효과적으로 스케일업하여 ImageNet과 일반적으로 사용되는 5개의 전송 학습 데이터 세트 모두에서 훨씬 적은 매개 변수와 FLOPS로 최첨단 정확도를 능가할 수 있음을 입증한다.