GAN : Generative Adversarial Nets (번역)

2021. 3. 2. 15:37Computer Vision

Generative Adversarial Nets

 

Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley,
Sherjil Ozair, Aaron Courville, Yoshua Bengio

 

Abstract

우리는 적대적 프로세스를 통해 생성 모델을 추정하기 위한 새로운 프레임 워크를 제안합니다, 여기서 두 모델을 동시에 학습시킵니다: 데이터 분포를 캡처하는 생성 모델 G와 G보다 학습 데이터에서 표본이 나올 확률을 추정하는 차별 모델 D입니다.
G에 대한 훈련 절차는 D가 실수를 할 확률을 최대화하는 것입니다.
이 프레임 워크는 미니 맥스 2인용 게임에 해당합니다.
임의의 함수 G와 D의 공간에는 G가 훈련 데이터 분포를 복구하고 D가 모든 곳에서 1/2에 해당하는 고유한 솔루션이 존재합니다.
G와 D가 다층 퍼셉트론에 의해 정의되는 경우 전체 시스템은 역전 파로 훈련될 수 있습니다.
훈련 또는 샘플 생성 중에 Markov 체인 또는 펼쳐진 근사 추론 네트워크가 필요하지 않습니다.
실험은 생성된 샘플의 정성적 및 정량적 평가를 통해 프레임 워크의 잠재력을 입증합니다.

 

1. Introduction

딥러닝의 약속은 자연 이미지, 음성이 포함된 오디오 파형, 자연어 말뭉치의 기호와 같은 인공지능 응용 프로그램에서 발생하는 데이터 종류에 대한 확률 분포를 나타내는 풍부하고 계층적 모델[2]을 발견하는 것입니다.
지금까지 딥러닝에서 가장 눈에 띄는 성공은 차별적 모델, 일반적으로 고차원의 풍부한 감각 입력을 클래스 레이블에 매핑하는 모델입니다[14, 22].
이러한 눈에 띄는 성공은 주로 역 전파 및 드롭 아웃 알고리즘에 기반을 두고 있으며 특히 잘 작동하는 기울기를 갖는 조각 별 선형 단위 [19, 9, 10]를 사용합니다.
심층 생성 모델은 최대 가능성 추정 및 관련 전략에서 발생하는 많은 다루기 힘든 확률 계산을 근사하기 어렵고 생성 컨텍스트에서 부분 선형 단위의 이점을 활용하기가 어렵기 때문에 영향이 적습니다.
우리는 이러한 어려움을 피하는 새로운 생성 모델 추정 절차를 제안합니다.

 

제안된 적대적 그물 프레임 워크에서 생성 모델은 적대자 (표본이 모델 분포 또는 데이터 분포에서 추출되었는지 여부를 확인하는 방법을 학습하는 차별적 모델)에 대해 움푹 들어갑니다.
생성 모델은 가짜 화폐를 생산하고 탐지 없이 사용하려는 위조 팀과 유사하다고 생각할 수 있으며, 차별적 모델은 위조 화폐를 탐지하려는 경찰과 유사합니다.
이 게임의 경쟁은 위조품이 정품과 구별될 수 없을 때까지 두 팀 모두 방법을 개선하도록 유도합니다.

 

이 프레임 워크는 여러 종류의 모델 및 최적화 알고리즘에 대한 특정 학습 알고리즘을 생성할 수 있습니다.
이 논문에서는 생성 모델이 다층 퍼셉트론을 통해 임의의 노이즈를 전달하여 샘플을 생성하고 식별 모델도 다층 퍼셉트론인 특별한 경우를 살펴 봅니다.
우리는 이 특별한 경우를 적대적 그물이라고 부릅니다.
이 경우, 우리는 매우 성공적인 역 전파 및 드롭 아웃 알고리즘 [17]과 순 전파만 사용하는 생성 모델의 샘플만을 사용하여 두 모델을 훈련시킬 수 있습니다.
대략적인 추론이나 마르코프 체인이 필요하지 않습니다.

 

2. Related Work

잠재 변수가 있는 방향성 그래픽 모델의 대안은 제한된 볼츠만 기계 (RBM) [27, 16], 깊은 볼츠만 기계 (DBM) [26] 및 다양한 변형과 같은 잠재 변수가 있는 무방향 그래픽 모델입니다.
이러한 모델 내의 상호 작용은 확률 변수의 모든 상태에 대한 전역 합계/통합에 의해 정규화된 정규화되지 않은 잠재적 함수의 곱으로 표시됩니다.
이 양(분할 함수)과 그 기울기는 Markov chain Monte Carlo (MCMC) 방법으로 추정할 수 있지만 가장 사소한 경우를 제외하고 모두 다루기 어렵습니다.
믹싱은 MCMC에 의존하는 학습 알고리즘에 중요한 문제를 제기합니다 [3, 5].

 

깊은 신념 네트워크 (DBNs) [16]는 단일 무방향 레이어와 여러 방향 레이어를 포함하는 하이브리드 모델입니다.
빠르고 근사한 계층 별 학습 기준이 존재하지만 DBN은 방향이 지정되지 않은 모델과 방향이 지정된 모델 모두와 관련된 계산상의 어려움을 겪습니다.

 

점수 매칭 [18] 및 잡음 대비 추정 (NCE) [13]과 같이 로그 가능성을 근사하거나 제한하지 않는 대체 기준도 제안되었습니다.
이 두 가지 모두 학습된 확률 밀도를 정규화 상수까지 분석적으로 지정해야합니다.
여러 계층의 잠재 변수(예 : DBN 및 DBM)가 있는 많은 흥미로운 생성 모델에서 다루기 쉬운 비정규화 확률 밀도를 도출하는 것도 불가능합니다.
노이즈 제거 자동 인코더 [30] 및 계약적 자동 인코더와 같은 일부 모델에는 RBM에 적용된 점수 일치와 매우 유사한 학습 규칙이 있습니다.
NCE에서는 이 작업에서와 같이 생성 모델에 맞추기 위해 차별적 훈련 기준이 사용됩니다.
그러나 별도의 차별 모델을 맞추는 대신 생성 모델 자체를 사용하여 생성된 데이터를 고정된 노이즈 분포 샘플에서 구별합니다.
NCE는 고정된 잡음 분포를 사용하기 때문에 모델이 관찰된 변수의 작은 하위 집합에 대해 거의 정확한 분포를 학습한 후에는 학습 속도가 크게 느려집니다.

 

마지막으로, 일부 기술은 확률 분포를 명시적으로 정의하는 것이 아니라 원하는 분포에서 샘플을 추출하도록 생성 기계를 훈련시킵니다.
이 접근 방식은 그러한 기계가 역 전파에 의해 훈련되도록 설계될 수 있다는 장점이 있습니다.
이 분야에서 최근의 저명한 작업에는 일반화된 잡음 제거 자동 인코더를 확장하는 생성 확률적 네트워크 (GSN) 프레임 워크[5]가 포함됩니다 [4] : 둘 다 매개 변수화된 Markov 체인을 정의하는 것으로 볼 수 있습니다. 즉, 하나는 기계의 매개 변수를 학습합니다, 생성적 마르코프 체인의 한 단계를 수행합니다.
GSN에 비해 적대적 네트워크 프레임 워크는 샘플링을 위해 Markov 체인이 필요하지 않습니다.
적대적 네트워크는 생성 중에 피드백 루프를 필요로 하지 않기 때문에 역 전파 성능을 향상시키는 부분 선형 단위 [19, 9, 10]를 더 잘 활용할 수 있지만 피드백 루프에서 사용될 때 무제한 활성화에 문제가 있습니다.
역 전파를 통해 생성 머신을 훈련시키는 최근의 예에는 자동 인코딩 변형 Bayes [20] 및 확률적 역 전파 [24]에 대한 최근 작업이 포함됩니다.