Towards real-time photorealistic 3D holography with deep neural networks (번역)

2021. 4. 14. 11:543D Vision

Towards real-time photorealistic 3D holography with deep neural networks

 

Liang Shi, Beichen Li, Changil Kim, Petr Kellnhofer & Wojciech Matusik

 

 

지속적인 깊이 감각으로 3차원 (3D) 장면을 표현하는 기능은 가상 및 증강 현실, 인간-컴퓨터 상호 작용, 교육 및 훈련에 큰 영향을 미칩니다.
컴퓨터 생성 홀로그래피(CGH)는 회절 및 간섭의 수치 시뮬레이션을 통해 높은 공간 각도 해상도의 3D 투영을 가능하게합니다.
그러나 기존의 물리적 기반 방법은 픽셀 당 초점 제어와 정확한 오클루전을 모두 갖춘 홀로그램을 생성하지 못합니다.
계산에 부담이 되는 Fresnel 회절 시뮬레이션은 이미지 품질과 런타임간에 명시적인 절충안을 추가하여 동적 홀로그래피를 비실용적으로 만듭니다.
여기에서는 단일 RGB 깊이 이미지에서 실시간으로 사실적인 컬러 3D 홀로그램을 합성할 수 있는 딥러닝 기반 CGH 파이프 라인을 보여줍니다.
컨볼루션 신경망(CNN)은 메모리 효율성이 매우 높으며 (620KB 미만) 단일 소비자 등급 그래픽 처리 장치에서 1,920×1,080 픽셀의 해상도로 60Hz로 실행됩니다.
저전력 온디바이스 인공지능 가속칩을 활용하는 당사의 CNN은 모바일 (iPhone 11 Pro (1.1Hz)) 및 에지 (Google Edge TPU (2.0Hz))에서도 대화식으로 실행되어 차세대 가상 및 증강 현실 모바일 헤드셋에서 실시간 성능을 약속합니다.
4,000쌍의 RGB depth 이미지와 해당 3D 홀로그램이 포함된 대규모 CGH 데이터 세트 (MIT-CGH-4K)를 도입하여 이 파이프 라인을 활성화합니다.
우리의 CNN은 미분 가능한 파동 기반 손실 함수로 훈련되었으며 물리적으로 Fresnel 회절을 근사합니다.
앤티 앨리어싱 위상 전용 인코딩 방법을 사용하여 우리는 얼룩이 없고 자연스러워 보이는 고해상도 3D 홀로그램을 실험적으로 시연합니다.
우리의 학습 기반 접근 방식과 Fresnel 홀로그램 데이터세트는 홀로그래피의 잠재력을 최대한 활용하고 메타 표면 디자인, 광학 및 음향 핀셋 기반 현미경 조작, 홀로그램 현미경 및 단일 노출 체적 3D 프린팅에서 응용 프로그램을 활성화하는데 도움이 될 것입니다.

 

 

 

홀로그래피는 위상 및 진폭 변화의 간섭 패턴으로 라이트 필드를 인코딩하는 프로세스입니다.
적절하게 조명되면 홀로그램이 입사광을 회절시켜 원래의 빛 필드를 정확하게 재현하여 기록된 3차원 (3D) 물체를 실제와 같이 재현합니다.
재구성된 3D 장면은 기존 디스플레이에서 동시에 달성하기 어려운 정확한 단안 및 양안 깊이 단서를 제공합니다.
그러나 사실적인 컴퓨터 생성 홀로그램(CGH)을 전력 효율적으로 실시간으로 생성하는 것은 계산 물리학에서 해결되지 않은 과제로 남아 있습니다.
주요 과제는 연속 3D 공간에서 모든 물체 지점에 대해 Fresnel 회절 시뮬레이션을 수행하는 데 필요한 엄청난 계산 비용입니다.
빛 폐색 감지를 위한 다양한 디지털 장면 표현 및 알고리즘을 설계하려는 광범위한 노력에도 불구하고 이는 사실입니다.

 

효율적인 Fresnel 회절 시뮬레이션이라는 까다로운 작업은 계산 속도에 대한 물리적 정확성을 명시적으로 거래함으로써 해결되었습니다.
사전 계산된 요소 프린지, 다층 깊이 이산화, 홀로그램 스테레오 그램, 웨이브 프론트 기록 평면 (대체 중간 광선 샘플링 평면) 및 수평/수직 시차 전용 모델링의 룩업 테이블을 기반으로 손으로 만든 수치 근사치가 이미지 품질 손상 비용으로 도입되었습니다.
그래픽 처리 장치 (GPU) 컴퓨팅의 급속한 발전을 활용하는 비근사적 포인트 기반 방법(PBM)은 최근 프레임 당 초의 속도로 픽셀 당 초점 제어를 사용하여 색상 및 질감이 있는 장면을 생성했습니다.
그러나 PBM은 모든 장면 지점에 대해 독립적으로 Fresnel 회절을 시뮬레이션하므로 폐색을 모델링하지 않습니다.
이것은 복잡한 3D 장면의 정확한 재현을 방지하며, 전경이 막히지 않은 배경으로 인해 울리는 인공물에 의해 심각하게 오염될 것입니다 (확장 데이터 그림 1d).
이러한 폐색 부족은 라이트 필드 렌더링으로 부분적으로 해결됩니다.
그러나 이 접근 방식은 상당한 렌더링 및 데이터 저장 오버 헤드를 발생시키고 폐색은 전체 홀로그램의 작은 세그먼트 (홀로그램 요소) 내에서만 정확합니다.
Fresnel 회절 시뮬레이션 중에 광선 별 가시성 테스트를 추가하면 이상적으로 문제가 해결되지만 폐색 테스트, 인접 지점 액세스 및 조건부 분기의 추가 비용으로 인해 계산 속도가 느려집니다.
이러한 품질-속도 절충은 기존의 모든 물리적 기반 접근 방식이 공유하는 특성이며 동적 홀로그램 디스플레이의 실제 배포를 근본적으로 제한합니다.

 

우리는 텐서 홀로그래피라고 불리는 물리 유도 딥러닝 접근 방식으로 이 딜레마를 해결합니다.
텐서 홀로그래피는 Fresnel 회절 및 폐색의 명시적 근사를 피하지만 두 가지 모두에 대한 효율적인 프록시로 컨벌루션 신경망(CNN)을 훈련시키기 위해 기본 물리학을 부과합니다.
파동 장을 다른 거리로 전파하는 것은 동일한 파동 장을 서로 다른 주파수의 Fresnel 영역 플레이트로 컨볼루션하는 것과 동일하다는 사실을 이용합니다.
영역 플레이트가 방사형으로 대칭이고 다른 전파 거리를 사용하는 단일 기저 함수에서 파생되기 때문에 네트워크는 학습된 3×3 컨볼루션 커널 세트를 연속적으로 적용하여 정확하게 근사합니다.
이는 공간적으로 변화하는 큰 커널 컨볼루션에서 분리 가능하고 공간적으로 불변하는 컨볼루션 세트로 회절 시뮬레이션을 줄여주므로 가속화된 CNN 추론을 위해 GPU 및 ASIC (application-specific integrated circuits)에서 훨씬 더 빠르게 실행됩니다.
우리의 네트워크는 CNN에서 비선형 활성화 (즉, ReLU 또는 정류된 선형 단위)를 추가로 활용하여 폐색을 처리합니다.
비선형 활성화는 순방향 전파를 통해 생성된 중간 결과를 선택적으로 분배하여 가려진 파면의 전파를 중지합니다.
우리는 CNN의 수학적 모델이 매력적이지만 대규모 Fresnel 홀로그램 데이터세트와 효과적인 훈련 방법론이 없기 때문에 학습 기반 접근 방식의 개발을 방해했습니다.
최근 위상 검색 및 광학적으로 기록된 디지털 홀로그램에서 초점이 맞은 이미지 또는 확장된 depth 이미지를 복구하기 위해 CNN을 성공적으로 채택 했음에도 불구하고 역 문제인 Fresnel 홀로그램 합성은 더 어렵고 신중하게 조정된 데이터 세트와 CNN의 디자인이 필요합니다. 
지금까지 홀로그램 합성 작업에 대한 CNN의 잠재적 적합성은 고정된 깊이에 위치한 2D 이미지와 사후 압축에 대해서만 입증되었습니다.

 

Fig. 1 Tensor holography workflow for learning Fresnel holograms from RGB-D images. a, 사용자 지정 광선 추적기는 임의의 장면의 RGB-D 이미지를 렌더링합니다. 메쉬는 깊이 축을 따라 기하 급수적으로 분포되며 결과 픽셀 깊이 분포는 통계적으로 균일합니다. b, OA-PBM은 RGB-D 이미지에 의해 정의된 포인트 클라우드에서 삼각형 표면 메시를 재구성합니다. 프레넬 회절 시뮬레이션 동안, 가려진 광선에 의해 전달되는 파면은 홀로그램 계산에서 제외됩니다. c, 완전 컨벌루션 잔차 네트워크는 동일한 RGB-D 이미지에서 프레넬 홀로그램을 합성합니다. 네트워크는 데이터 충실도 손실 및 초점 스택 손실, BN 배치 정규화를 사용하여 대상 홀로그램에 대해 최적화됩니다. 마이너스 기호는 오류 최소화를 나타냅니다. 더하기 기호는 색상 채널 Conv 컨볼루션을 따른 레이어 연결을 나타냅니다. 

Hologram dataset of tensor holography

이 작업을 위한 CNN 학습을 용이하게 하기 위해 4,000쌍의 RGB 깊이 (RGB-D) 이미지와 해당 3D 홀로그램으로 구성된 대규모 프레넬 홀로그램 데이터세트 MIT-CGH-4K를 소개합니다.
우리의 데이터세트는 CNN이 사실적인 3D 홀로그램을 학습할 수 있도록 세 가지 중요한 기능으로 생성됩니다.
첫째, RGB-D 이미지를 렌더링하는 데 사용되는 3D 장면은 CNN이 컴퓨터 렌더링 및 실제 캡처된 RGB-D 테스트 입력 모두에 대해 일반화할 수 있도록 색상, 기하학, 음영, 텍스처 및 오클루전이 매우 복잡하고 다양한 변형으로 구성됩니다.

이는 사용자 지정 임의 장면 생성기 (그림 1a)에 의해 달성됩니다, 이 생성기는 50개가 넘는 메시 풀에서 반복하여 200~250개의 삼각형 메시를 무작위로 샘플링하고 각 메시에 60,000개 이상의 텍스처 풀에서 임의 텍스처를 할당하여 장면을 조립합니다. 확대된 공개적으로 사용가능한 텍스처 합성 데이터 세트에서 (자세한 렌더링 세부 정보는 메서드 참조).
둘째, 결과 RGB-D 이미지의 픽셀 깊이 분포는 전체 view frustum에 걸쳐 통계적으로 균일합니다.
이는 학습된 CNN이 자주 발생하는 깊이로 편향되는 것을 방지하고 균일하지 않은 픽셀 깊이 분포가 발생할 때 드물게 채워진 해당 깊이에서 좋지 않은 결과를 생성하는 데 중요합니다.
이 속성을 보장하기 위해 깊이 축(z축)을 따라 삼각형 메시를 배열하기 위한 폐쇄형 확률 밀도 함수(PDF)를 도출했습니다:

여기서 z_near 및 z_far는 카메라에서 view frustum의 근거리 및 원거리 평면까지의 거리이고, C는 장면의 메시 수이고 α는 실험을 통해 보정된 배율 계수입니다.
이 PDF는 결과 RGB-D 이미지의 픽셀 깊이 분포가 통계적으로 균일하도록 z축(그림 1a, 상단)을 따라 메시를 지수적으로 배포합니다 (그림 1a, 하단, 기존 RGB-D 데이터세트와의 파생 및 비교 방법 참조).
여기서는 광범위한 초점 거리를 수용하기 위해 z_near 및 z_far를 각각 0.15m 및 10m로 설정합니다 (피사계 심도에 대한 대략 6.6-diopter 범위).
셋째, RGB-D 이미지에서 계산된 홀로그램은 각 픽셀을 깊이 이미지로 정의된 위치에 정확하게 초점을 맞추고 오클루전을 적절하게 처리할 수 있습니다.
이는 OA-PBM(Occlusion-aware point-based method)에 의해 수행됩니다.

Fig. 2 Performance evaluation of the OA-PBM and tensor holography CNN. a, CNN 예측 홀로그램에서 다시 초점을 맞춘 시뮬레이션된 피사계 심도 이미지. 토끼의 눈에 초점이 맞춰져 있습니다. 입력 RGB-D 이미지는 Big Buck Bunny에서 가져온 것입니다. 오른쪽 하단 삽입은 깊이 이미지를 시각화합니다. b, a에서 강조 표시된 영역에서 재구성된 초점 스택의 비교. CNN 예측은 시각적으로 OA-PBM 실측과 유사합니다. c, 실제 캡처된 RGB-D 이미지의 CNN 예측 홀로그램에서 재구성 된 시뮬레이션 된 피사계 심도 이미지 및 초점 스택 (확대 된 삽입). d, 다양한 모델 용량을 가진 PBM, OA-PBM 및 CNN의 성능 비교. 기본 CNN 모델은 30개의 컨볼루션 레이어와 레이어 당 24개의 필터로 구성되며, 소형 모델과 미니 모델은 각각 15개 및 8개의 컨볼루션 레이어를 가지고 있습니다. 컨볼루션 레이어의 감소는 재구성된 이미지 품질을 우아하게 저하시킵니다. 미니 모델은 실시간(60Hz)으로 실행됩니다. 오차 막대는 표준 편차입니다. SSIM, 구조적 유사성 지수 측정. e, CNN은 별 테스트 패턴의 홀로그램 및 재구성된 피사계 심도 이미지(확대된 삽입)를 예측했습니다. 다양한 주파수의 라인 쌍이 서로 다른 깊이에서 급격하게 재구성되고 파장에 따른 광분산이 정확하게 재현됩니다. f, 완전 손실 함수의 절제 연구 (첫번째). 주의 마스크 제거(두번째)는 초점이 맞지 않는 기능에 대한 CNN의 주의를 희석시켜 성능을 저하시킵니다. 데이터 손실의 제거(세번째)는 위상 정보의 정규화를 제거하고 보이지 않는 예제에 대한 일반화가 불량하고 초점 스택 오류가 커집니다. 지각 손실의 제거(네번째)는 초점 스택의 가이드를 제거하고 성능을 균일하게 저하시킵니다. 오차 막대는 표준 편차입니다. PSNR, 피크 신호 ​​대 잡음비. g, 6mm 거리 지점 (시각화를 위해 20mm에 대해 전파됨)에 대해 계산된 Ground Truth Fresnel zone plate와 CNN 예측 (레이어 당 30개의 레이어 및 레이어 당 120개의 필터가 있는 모델에 의한)의 비교.
Fig. 3 Experimental demonstration of 2D and 3D holographic projection. a, 위상 전용 홀로그램 디스플레이 프로토타입의 계획. 녹색 레이저만 시각화됩니다. b, 왼쪽 : 프로토타입의 공간 해상도를 테스트 하기 위한 평면 (2D) 대상 이미지. 오른쪽 : 프로토타입에 표시된 CNN 예측 홀로그램 (앤티 앨리어싱 이중 위상 방법으로 인코딩됨) 사진. 오른쪽 상단의 삽입은 확대된 경계 상자를 보여줍니다. c, 그림 2c의 실제 캡처된 3D 소파 장면을 보여주는 프로토타입의 사진. 왼쪽 사진은 마우스 장난감에 초점을 맞추고 오른쪽 사진은 영구 탁상 달력에 초점을 맞추고 있습니다. d, 그림 2a의 컴퓨터 렌더링 3D Big Buck Bunny 장면을 보여주는 프로토타입의 사진. 왼쪽 사진은 토끼 눈에 초점이 맞춰져 있고 오른쪽 사진은 배경 나무 잎에 초점이 맞춰져 있습니다.

OA-PBM은 폐색 감지 기능으로 PBM을 강화합니다.
OA-PBM은 각 3D 포인트를 독립적으로 처리하는 대신 RGB-D 이미지에서 삼각형 표면 메시를 재구성하고 각 꼭지점(포인트)에서 홀로그램 평면으로 레이 캐스팅을 수행합니다 (그림 1b).
표면 메시를 교차하는 광선에 의해 전달되는 파면은 전경 폐색을 설명하기 위해 홀로그램 계산에서 제외됩니다.
실제로, 포인트 광원은 확장된 시야를 위해 홀로그램을 확대하는 데 자주 사용됩니다 (확장 데이터 그림 3a), 따라서 OA-PBM은 구성 가능한 조명 기하학을 구현하여 공간적으로 다양한 회절 원뿔을 향한 레이 캐스팅을 지원합니다.

그림 2b는 OA-PBM으로 계산된 홀로그램에서 초점을 다시 맞춘 초점 스택을 시각화합니다, 여기서 깨끗한 폐색 경계가 형성되고 전경으로 배경 조명이 거의 누출되지 않습니다 (PBM 결과 및 OA-PBM 구현 세부 정보와 비교하는 방법 참조).

 

랜덤 장면 생성기와 OA-PBM을 결합하여 실험 프로토 타입에 배치된 RGB 레이저와 일치하도록 450nm, 520nm 및 638nm의 파장에서 데이터세트를 렌더링했습니다.
MIT-CGH-4K 데이터세트는 다중 공간 광 변조기 (SLM) 해상도에 대해서도 렌더링되며 (자세한 내용은 방법 참조) 공개적으로 사용할 수 있습니다.

 

Neural network of tensor holography

우리의 CNN 모델은 완전 컨벌루션 잔차 네트워크입니다.
4채널 RGB-D 이미지를 수신하고 컬러 홀로그램을 6채널 이미지(RGB 진폭 및 RGB 위상)로 예측합니다, 이를 통해 광학적으로 결합된 3개의 SLM 또는 1개의 SLM을 시간 다중화 방식으로 구동하여 풀 컬러 홀로그래피를 달성할 수 있습니다.
네트워크에는 입력 RGB-D 이미지를 두번째 잔차 블록으로 직접 피드하는 스킵 연결이 있으며 고주파 세부 정보를 보존하기 위한 풀링 레이어가 없습니다 (네트워크 아키텍처의 체계는 그림 1c를 참조하십시오; 성능 분석 방법 및 다른 아키텍처와의 비교 참조). 
W를 홀로그램을 가리키는 가장 먼 물체에 의해 생성된 최대 서브 홀로그램(프레넬 존 플레이트)의 너비라고 합니다.
대상 홀로그램을 물리적으로 정확하게 예측하려면 모든 컨볼루션 레이어에서 집계된 최소 수용 필드가 W와 일치해야 합니다.
그러나 대상 홀로그램의 W는 홀로그램 평면과 3D 볼륨 사이의 상대적 위치에 따라 달라지며 종종 수백 개의 픽셀에 도달할 수 있으며(도출 방법 참조), 결과적으로 회선 계층이 너무 많아지고 추론 속도가 느려집니다.
이 문제를 해결하기 위해 중간 표현(중간 홀로그램)을 계산하는 전처리 단계를 적용하여 유효 W를 줄이고 대상 홀로그램을 무손실로 복구합니다.

 

중간 지점 홀로그램은 파면 기록면의 응용 프로그램입니다.
대상 홀로그램을 view frustum의 중심으로 전파하여 장면 지점까지의 거리를 최적으로 최소화하여 유효 W를 줄입니다.
계산은 확장 데이터 그림 3에 표시된 두 단계를 따릅니다.
먼저, 점 광원에 의해 유도된 발산 절두체 V는 레이저 빔의 배율을 설명하는 얇은 렌즈 공식을 사용하여 유사한 시준 frustum V'로 수학적으로 변환됩니다 (계산 세부 사항은 방법 참조).
표현의 변경은 V에서 인식되는 피사계 심도 이미지의 시뮬레이션을 V'에서 재매핑된 깊이로 대상 홀로그램의 자유 공간 전파로 단순화합니다.
H_target ∈ ℂ^MxN을 대상 홀로그램(여기서는 색상 채널이 생략됨)으로 지정합니다, 여기서 ℂ는 복소수 집합을 나타내고 M과 N은 홀로그램의 너비와 높이를 따른 픽셀 수입니다.
d'_near 및 d'_far를 대상 홀로그램에서 V'의 근거리 및 원거리 클리핑 평면까지의 거리라고합니다.
H_target은 d'_mid=(d'_near+d'_far)/2 거리 동안 V'의 중심까지 전파되어 중간점 홀로그램 H_mid ∈ ℂ^MxN을 형성합니다.
각 스펙트럼 방법(ASM)은 파동 장의 전파를 모델링하는 데 사용됩니다:

여기에서 F와 F^-1은 각각 푸리에 및 역 푸리에 변환 연산자입니다; L_w 및 L_h는 각각 홀로그램의 물리적 너비와 높이입니다; λ는 파장입니다; m=-M/2, …, M/2-1 및 n=-N/2, …, N/2-1.
대상 홀로그램을 중간 지점 홀로그램으로 대체하면 W가 d'_far/Δd'의 계수만큼 감소합니다, 여기서 Δd'=(d'_far-d'_near)/2 입니다.
감소는 모든 지점이 공유하는 자유 공간 전파를 제거한 결과이며, -d'_mid 거리에 대해 중간 지점 홀로그램을 다시 전파하여 대상 홀로그램을 정확하게 복구할 수 있습니다.
시준된 frustum V'의 광학 경로 길이가 6mm인 렌더링 구성에서 CNN의 학습 목표로 중간점 홀로그램을 사용하면 회선 계층이 30으로 최소화됩니다.

 

CNN이 중간 지점 홀로그램을 정확하게 근사하고 프레넬 회절을 배우도록 훈련하는 두 가지 파동 기반 손실 함수를 소개합니다.
첫 번째 손실 함수는 데이터 충실도 측정의 역할을 하며 예측된 홀로그램 H~_mid=A~_mid e^iϕ~_mid ∈ ℂ^MxN과 지상 진실 중간점 홀로그램 H_mid=A_mid e^iϕ_mid 사이의 위상 보정된 ℓ2 거리를 계산합니다:

여기서 A~_mid 및 ϕ~_mid는 예측된 홀로그램의 진폭 및 위상이고, A_mid 및 ϕ_mid는 Ground Truth 홀로그램의 진폭 및 위상, δ(ϕ~_mid, ϕ_mid) = atan2[sin(ϕ~_mid-ϕ_mid), cos(ϕ~_mid-ϕ_mid)], •는 평균을 나타내고 ||⋅||_p는 벡터화된 행렬 출력에 적용된 ℓ_p 벡터 노름을 나타냅니다.
위상 보정은 극좌표에서 부호 있는 최단 각 거리를 계산하고 재구성된 3D 이미지의 강도에 영향을 주지 않는 전역 위상 오프셋을 뺍니다.

 

두 번째 손실 함수는 시청자가 관찰한 재구성된 3D 장면의 지각 품질을 측정합니다.
ASM 기반 파동 전파는 미분할 수있는 작업이므로 손실은 ℓ_1 거리와 동적 초점 스택의 총 변동의 조합으로 모델링되고 훈련 반복마다 다른 두 세트의 초점 거리에서 재구성됩니다

 

여기서 |⋅|^2는 요소 별 제곱 절대값을 나타냅니다; ∇는 총 변동 연산자를 나타냅니다; t는 훈련 반복입니다; D_t′∈ℝ^M×N은 입력 RGB-D 이미지의 깊이 채널(V'로 다시 매핑 됨)이며, 여기서 ℝ는 실수 집합을 나타냅니다; β는 사용자 정의 주의 척도입니다; D_t^fix 및 D_t^float는 다음과 같이 계산되는 두 세트의 동적 초점 거리입니다; (1) V'는 T 깊이 빈으로 균등하게 분할되고, (2) D_t^fix는 D'_t의 히스토그램에서 상위 k_fix 빈을 선택합니다; D_t^float는 나머지 k_float 빈을 무작위로 선택하고 (3) 선택한 각 빈에서 깊이를 균일하게 샘플링합니다.
여기서 D_t^fix는 현재 RGB-D 이미지의 주요 콘텐츠 위치가 항상 최적화되도록 보장하는 반면 D_t^float는 드물게 채워진 위치를 무작위로 탐색하도록합니다.
각 빈 내의 무작위 샘플링은 고정 깊이에 대한 과적합을 방지하여 CNN이 진정한 3D 홀로그램을 학습할 수 있도록 합니다.
주의 마스크는 CNN이 각 피사계 심도 이미지에서 초점이 맞은 특징을 재구성하는데 집중하도록 지시합니다.
그림 2f는 절제 연구를 통해 각 훈련 손실 구성 요소의 효과를 검증합니다.

 

CNN은 NVIDIA Tesla V100 GPU에서 84시간 동안 훈련되었습니다(모델 매개 변수 및 훈련 세부 사항은 방법 참조).
훈련된 모델은 컴퓨터 렌더링 (그림 2a, 확장 데이터 그림 5), 실제 캡처된 (그림 2c, 확장 데이터 그림 6) RGB-D 입력 및 표준 테스트 패턴 (그림 2e, 확장 데이터 그림 4).
CNN에서 예측한 3D 홀로그램의 시뮬레이션된 초점 스윕은 보충 비디오 1, 2, 6에서 찾을 수 있습니다.
참조 OA-PBM 홀로그램과 비교할 때 CNN 예측은 지각적으로 유사하고 (그림 2b) 수치적으로 가깝습니다 (그림 2d, f).
단일 거리 지점 타겟에서 평가한 결과, 충분한 모델 용량을 가진 CNN의 출력은 연속적으로 적용된 3×3 컨볼루션 커널 세트에 의해 제한되는 낮은 순위 솔루션 공간에서 프레넬 존 플레이트(그림 2g)에 충실하게 근사합니다.
모든 알고리즘이 NVIDIA TensorRT의 CNN과 NVIDIA CUDA의 OA-PBM 및 PBM을 사용하여 GPU에서 구현될 때 미니 CNN은 OA-PBM과 비교하여 2배 이상의 속도 향상을 달성합니다 (그림 2d), 단일 NVIDIA Titan RTX GPU에서 실시간 (60Hz)으로 실행됩니다.
엔드 투 엔드 학습 파이프 라인은 논리적으로 복잡한 광선-삼각형 교차 작업을 완전히 방지하므로 CNN 추론을 가속화하기 위해 저전력 ASIC에서 효율적으로 실행됩니다.
Supplementary Video 5에서는 A13 Bionic 칩의 신경 엔진을 활용하여 iPhone 11 Pro에서 대화형 모바일 홀로그램 계산을 시연합니다.
우리 모델은 Float32 정밀도에서 617KB, Float16 정밀도에서 315KB의 극히 낮은 메모리 공간을 가지고 있습니다, Int8 정밀도에서는 단일 Google Edge TPU에서 2Hz로 실행됩니다.
보고된 모든 런타임 성능은 해상도가 1,920×1,080 픽셀인 입력에서 평가됩니다.

 

Display prototype of tensor holography

우리는 CNN을 실험적으로 검증하기 위해 위상 전용 홀로그램 디스플레이 프로토타입 (스킴은 그림 3a, 물리적 설정 버전은 확장 데이터 그림 8 참조)을 구축했습니다.
프로토타입은 해상도가 1,920×1,080 픽셀이고 픽셀 피치가 8μm인 HOLOEYE PLUTO-2-VIS-014 반사 SLM을 사용합니다 (프로토 타입 세부 정보는 방법 참조).
컬러 이미지는 필드를 순차적으로 획득합니다.
CNN 예측 복합 홀로그램을 위상 전용 홀로그램으로 인코딩하기 위해 고주파 물체 및 폐색 경계 주변에 인공물이 없는 3D 이미지를 생성하는 앤티 앨리어싱 이중 위상 방법 (AA-DPM)을 도입합니다 (알고리즘에 대한 방법 참조). 세부 사항 및 원래의 이중 위상 방법 (DPM)과 비교.
그림 3b에서, 우리는 베리의 보풀이 급격하게 재구성된 것을 발견할 수 있는 얼룩 없는 고해상도 및 고대비 2D 투영을 보여줍니다.
그림 3c, d에서는 소파 장면과 Big Buck Bunny 장면에 대해 촬영한 3D 홀로그램을 전면 및 후면 개체에 초점을 맞추고 있습니다.
실제, 컴퓨터 렌더링 및 테스트 장면의 추가 사진은 Extended Data Figs. 9, 10에서 찾을 수 있습니다, 여기서 이미지 세부 사항은 시뮬레이션과 거의 일치합니다.
실시간 계산 및 3D 홀로그램의 초점 스윕에 대한 데모는 보충 비디오 3, 4에서 찾을 수 있습니다.

 

Discussion

우리의 결과는 단일 RGB-D 이미지에서 실시간으로 사실적인 3D CGH 합성을 위해 CNN을 사용했다는 증거를 제시합니다, 이 작업은 전통적으로 기존 컴퓨터 장치의 기능을 넘어서는 것으로 간주되었던 작업입니다.
맞춤형 랜덤 장면 생성기와 OA-PBM에 의해 생성된 당사의 다중 해상도, 대규모 프레넬 홀로그램 데이터세트를 사용하면 광범위한 기존 이미지 관련 애플리케이션을 홀로그래피로 전송할 수 있습니다, 예를 들면 초고해상도, 압축, 홀로그램의 시맨틱 편집 및 중심와 안내 홀로그램 렌더링.
궁극적으로 실시간 고해상도 CGH (예 : 가상 및 증강 현실용 소비자 홀로그램 디스플레이, 홀로그램 기반 단일 샷 볼륨 3D 프린팅, 광학 트래핑)의 이점을 누릴 수 있는 상업 및 학술 연구 분야 모두를 위한 테스트 베드를 제공합니다, 홀로그램 현미경을 위한 초점 및 실시간 시뮬레이션이 크게 증가했습니다.
텐서 홀로그램 자체는 위상 전용 홀로그램을 직접 학습하여 최적의 인코딩을 발견하고 명시적인 복합 위상 전용 변환을 피함으로써 더욱 개선될 수 있습니다.
또한 RGB-D 입력은 계산 및 메모리 효율성이 저렴하지만 단일 관점에서만 정확한 3D 묘사를 제공합니다.
따라서 실제 체적 3D 입력 (복셀 그리드, 조밀한 라이트 필드 및 일반 포인트 클라우드)을 지원하도록 파이프 라인을 확장하면 큰 기준 이동에서 뷰에 따른 효과와 관찰을 지원하는 홀로그램 합성을 촉진할 수 있습니다(확장된 논의 방법 참조).
마지막으로, ASIC의 급속한 발전은 곧 모바일 장치에서 높은 프레임 속도의 텐서 홀로그래피를 가능하게 하여 무제한의 실제 3D 시청 경험을 가능하게 하고 홀로그램 콘텐츠 제작을 위한 비용과 진입 장벽을 크게 낮출 것입니다.