2022. 2. 9. 16:39ㆍ3D Vision
ViSER: Video-Specific Surface Embeddings for Articulated 3D Shape Reconstruction
Gengshan Yang, Deqing Sun, Varun Jampani, Daniel Vlasic, Forrester Cole, Ce Liu, Deva Ramanan
Abstract
단안 비디오에서 굴절된 3D 모양과 조밀한 3D 궤적을 복구하는 방법인 ViSER를 소개합니다.
동적 3D 모양의 고품질 재구성에 대한 이전 작업은 일반적으로 여러 카메라 보기, 강력한 범주별 사전 작업 또는 2D 키포인트 감독에 의존합니다.
2D 개체 마스크와 2프레임 광학 흐름만 입력으로 사용하여 비디오에서 장거리 대응을 안정적으로 추정할 수 있다면 이들 중 어느 것도 필요하지 않음을 보여줍니다.
ViSER는 각 표면 점의 픽셀 모양을 캡처하는 비디오별 표면 임베딩을 통해 2D 픽셀을 표준 변형 가능한 3D 메시에 일치시켜 대응 관계를 추론합니다.
이러한 임베딩은 메시 표면에 대해 정의된 연속적인 키포인트 설명자 세트로 작동하며, 픽셀 간에 조밀한 장거리 대응을 설정하는 데 사용할 수 있습니다.
표면 임베딩은 일관성 및 대조 재구성 손실을 통해 각 비디오에 맞는 좌표 기반 MLP로 구현됩니다.
실험 결과에 따르면 ViSER는 DAVIS 및 YTVOS의 동물 비디오뿐만 아니라 헐렁한 옷과 특이한 포즈를 가진 인간의 도전적인 비디오에 대한 이전 작업과 비교하여 유리합니다.
1. Introduction
일련의 단안 프레임에서 세계를 재구성하는 것은 컴퓨터 비전에서 오랜 작업입니다.
SfM 및 SLAM [7, 38, 42] 또는 신경 렌더링에 기반한 최근 기술 [27]을 통해 경직된 장면을 재구성하는 데 엄청난 진전이 있었지만 관절이 있는 개체로 동적 장면을 재구성하는 것은 여전히 어렵습니다.
예를 들어, 단안 비디오가 주어지면 헐렁한 옷을 입고 움직이는 사람의 일상적인 장면을 재구성하는 것은 여전히 어려운 일입니다.
이 작업에서 우리는 해당 개체의 분할된 단안 비디오가 주어지면 관절 개체의 변형 메쉬를 추정하는 문제를 다룹니다.
우리의 방법은 메쉬 템플릿이나 범주별 사전의 사용을 피하고 야생에서 알려지지 않은 변형 가능한 관절 객체로 일반화합니다.
비강체 형상 복구는 형상, 모양 및 시간에 따른 변형 간의 근본적인 모호성으로 인해 제약이 매우 큽니다.
이러한 문제를 해결하기 위한 현재 접근 방식은 더 나은 데이터 "가능성" 또는 더 나은 "이전"의 두 진영으로 나뉩니다.
첫 번째 캠프는 다중 카메라 스튜디오 설정[15] 또는 깊이 센서[29]를 통해 더 풍부한 센서 데이터를 추출하지만 야생에서 작업하려면 상당한 노력이 필요합니다.
두 번째 진영은 개체 모양보다 범주 수준 사전을 사용하고 [18, 20] 특히 인간 재구성에 효과적입니다.
그러나 이러한 모델을 구축하려면 등록된 3D 스캔[26] 또는 수동 키포인트 주석[12]의 형태로 상당한 오프라인 노력이 필요하며, 둘 다 임의의 개체 범주로 확장하기 어렵습니다.
이 작업에서 우리는 데이터 가능성 캠프의 실용적이지만 덜 탐구된 변형을 사용합니다. 여러 대의 카메라나 깊이 센서가 아닌 비디오의 여러 프레임을 사용합니다.
이는 동적, 비강체 장면에 대한 분석을 상당히 복잡하게 만듭니다.
NRSfM(Nonrigid structure-from-motion)[4, 37]은 2D 포인트 트랙과 같은 모션 대응에 의존하여 문제를 제한하려고 시도합니다.
짧은 시간 규모(즉, 광학 흐름)에 대한 2D 대응은 추출하기에 상대적으로 강력하지만 긴 시간 규모에 대한 대응은 시점 변경, 폐색 및 빠른 움직임으로 인해 발생하는 모양 변화로 인해 추정하기가 매우 어렵습니다.
실제로 이것은 NRSfM 방법을 통제된 실험실 시퀀스에 적용하는 것을 제한합니다.
우리는 장거리 대응을 설정하고 단안 비디오에서 관절형 3D 모양을 재구성하는 ViSER(재건용 비디오 특정 표면 임베딩)을 제안합니다.
그림 1은 샘플 실외 비디오와 해당 ViSER 결과를 보여줍니다.
ViSER의 핵심 통찰력은 각 표면 포인트의 픽셀 모양을 캡처하는 비디오 전용 임베딩을 사용하여 장거리 비디오 픽셀 대응이 기본 표준 3D 메시와 일치하도록 강제하는 것입니다.
이러한 임베딩은 대조 재구성 손실을 통해 각 비디오에 맞는 좌표 기반 MLP로 학습된 표면 메시에 대해 정의된 키포인트 설명자의 연속 세트로 작동합니다.
ViSER는 관찰된 비디오 프레임에 맞도록 이미지 CNN, 표면 MLP 및 3D 형상을 동시에 최적화합니다.
카테고리별 사전 정보를 사용하지 않고 최첨단 관절 3D 모양과 3D 궤적을 재구성하여 동물뿐만 아니라 도전적인 의복과 포즈를 취하는 인간을 포함한 다양한 비디오로 쉽게 확장할 수 있습니다.
마지막으로 ViSER가 비디오에서 의미 있는 부분 분할 및 혼합 스키닝 가중치를 복구하며 일반적으로 3D 아티스트의 상당한 수작업이 필요함을 보여줍니다.
2. Related Work
촘촘한 영상 대응.
광학 흐름은 비디오의 인접 프레임 간의 단기 대응에 대해 잘 연구된 표현입니다.
수십 년에 걸친 연구 끝에 광학 흐름에 대한 최근 CNN 모델[39, 41, 47]은 Sintel 및 KITTI 벤치마크[5, 9]에 의해 입증된 바와 같이 인상적인 수준의 정확도를 달성했습니다.
그러나 오클루전과 강한 외관 변화로 인해 안정적인 장거리 대응을 위해 광류를 연결하는 것은 어렵습니다[32, 36, 40].
ViSER는 광 흐름을 연결하지 않고 장거리 대응을 설정하기 위한 제약으로 사용합니다.
계층화된 접근 방식[6, 14, 44]은 비디오를 일관된 움직임으로 다른 움직이는 물체로 분할하여 공유 계층을 통해 모든 프레임에 대해 장거리 대응을 설정합니다.
초기 계층화 방법은 각 계층에 대한 매개변수 모션을 가정하고 제한된 장면만 처리할 수 있습니다.
Unwrap Mosiacs[31]은 텍스처 맵에서 모든 입력 프레임으로의 조밀한 2D-2D 매핑을 사용하며 텍스처 맵에 대한 편집 작업은 자연스럽게 각 개별 프레임으로 전송됩니다.
그러나 2D 표현은 폐색과 같은 복잡한 3D 현상을 유연하게 모델링할 수 없습니다.
대조적으로 ViSER는 비디오 표면 임베딩을 학습하여 모든 입력 프레임을 표준 3D 모양에 매핑하고 폐색이 있는 비디오에서 작동합니다.
조밀한 포즈와 표면 매핑.
DensePose[12]는 픽셀을 인체 모델의 3D 표면에 직접 매핑합니다.
이는 주석이 달린 이미지와 표면 간의 대응이 포함된 많은 양의 훈련 데이터를 필요로 하며 다른 범주로 일반화하기 어렵습니다.
Articulation-aware Canonical Surface Mapping(A-CSM) [20]은 키포인트 주석을 사용하지 않고 템플릿 모양의 해당 포인트에 픽셀을 매핑하는 방법을 학습하기 위해 기하학적 주기 일관성을 사용합니다.
그러나 각 범주에 대해 미리 정의된 템플릿 모양이 필요합니다.
CSE(Continuous Surface Embeddings)[28]는 2D 이미지의 각 픽셀에 대한 객체 메쉬의 해당 꼭짓점의 임베딩 벡터를 예측하여 이미지 픽셀과 3D 객체 기하학 사이의 조밀한 대응을 설정합니다.
여러 범주에 적용할 수 있지만 CSE에는 주석이 필요하며 훈련 세트의 범주에만 적용됩니다.
ViSER는 템플릿 형태나 주석이 필요하지 않습니다.
비강체 형상 재구성.
관절 모양을 정확하게 재구성하는 한 가지 방법은 다중 뷰 [15] 또는 깊이 센서 [29]와 같은 풍부한 센서 데이터에 의존하는 것입니다, 그런 데이터들은 야생에서 개체를 설정하고 재구성하려면 상당한 노력이 필요합니다.
단안 비디오/이미지의 경우 한 가지 인기 있는 접근 방식은 강력한 3D 모양과 포즈 사전을 채택하는 것이지만 [18, 26, 34, 35, 52, 53] 3D 데이터를 수집하기 쉬운 제한된 범주에서만 잘 작동합니다.
보다 강하지 않은 객체 범주를 다루기 위해 최근 경향은 키포인트 및 객체 실루엣과 같은 2D 주석이 있는 이미지 또는 비디오 컬렉션에서 범주 수준 3D 모양 모델을 학습하는 것입니다[10, 16, 20, 22, 23, 43 , 45, 49].
새와 네 발 달린 동물과 같은 더 많은 개체 범주를 재구성할 수 있지만 재구성에는 일반적으로 세부 정보가 부족하고 복구된 변형 수준이 낮은 경향이 있습니다.
NRSfM(nonrigid structure from motion) 방법[4, 11, 19, 37]과 같은 범주에 구애받지 않는 방법은 2D 점 궤적 세트에서 비강체 3D 모양을 재구성합니다.
그러나 정확한 장거리 통신을 얻기가 어렵기 때문에 [36, 40] 야생의 비디오에는 잘 작동하지 않습니다.
최근 연구인 LASR[48]은 2프레임 광학 흐름을 사용하여 미분 렌더링으로 단안 비디오에서 명확한 모양을 재구성합니다.
유망한 결과에도 불구하고 LASR은 장거리 통신에 대해 추론하지 않으며 짧은 비디오에서 볼 수 있는 것만 안정적으로 재구성할 수 있습니다.
ViSER는 중간 정도의 모양 변화와 모양 변화에 강건한 안정적인 장거리 대응을 확립합니다.
따라서 ViSER는 긴 비디오 또는 범주의 여러 비디오를 사용하여 훨씬 더 높은 품질의 재구성을 얻을 수 있습니다.
3. Approach
그림 2는 미분 가능한 렌더링의 일반적인 프레임워크를 따르는 접근 방식의 개요를 제공합니다[16, 25].
LASR[48]의 표기법을 차용하여 다음과 같이 작업을 공식화합니다.
RGB 픽셀 색상, 분할 마스크 및 광학 흐름 추정값 {I_t, S_t, u_t}_t={0,...,T}를 포함한 일련의 비디오 관찰이 제공됩니다, 우리의 목표는 비디오 관찰과 일치하는 재구성 {^I_t, ^S_t, ^u_t}_t={0,...,T}을 생성하는 일련의 모양 및 모션 매개변수 {S, D_t}를 복구하는 것입니다.
논문에 정의된 표기법의 전체 목록은 보충 자료를 참조하십시오.
3.1 Preliminaries
우리는 물체의 모양을 정준 정점 V^-∈R^(3xN) 및 고정 토폴로지(가장자리 연결성) F∈R^(3xM)가 있는 삼각형 메시 S = {V^-, F}로 나타냅니다.
객체를 렌더링하기 위해 모션 매개변수 D_t를 사용하여 메쉬 정점을 변위하고 카메라 내장 함수 K_t를 사용하여 원근 투영을 적용한 다음 래스터화합니다.
선형 블렌드 스키닝(LBS)을 사용하여 루트 바디 변환 G_0 및 객체 관절 {G_1, ..., G_B}로 정점 모션을 모델링합니다[20, 21].
LBS는 B 강성 "뼈" 변환을 스키닝 가중치 행렬 W ∈ R^(BxN)과 선형적으로 혼합하여 정점 모션을 제한하고 표준 모양을 프레임 t로
로 변환합니다, 여기서 i는 정점 인덱스, b는 뼈 인덱스입니다.
LASR과 유사하게, 루트 바디 및 뼈 변환은 입력 이미지(G_0, ..., G_B) = ψ(I_t)가 주어지면 포즈 CNN의 출력으로 표현됩니다.
정점 3D 좌표, 텍스처 및 기능을 포함하여 렌더링을 위한 표면 속성 세트를 정의하고 미분 방식으로 래스터화합니다[25].
표준 표면에 정의된 속성 C를 이미지에 R(C; V, W, G)로 렌더링하는 미분 가능한 렌더링 함수를 나타냅니다, 그것은 식 (1)에서 블렌딩 스키닝 기능을 수행하고 깊이와 무게중심 좌표에 따라 표면 속성을 부드럽게 블렌딩하는 기능이다[25].
단순화를 위해 모양, 스키닝 및 모션 매개변수를 생략하고 미분 가능한 렌더링 함수를 R(C)로 작성합니다.
광학 흐름을 렌더링하기 위해 두 개의 연속 프레임에서 정점 좌표를 래스터화하고 투영하고 2D 변위를 계산합니다[48].
이러한 렌더링은 모델 매개변수 업데이트를 위한 기울기를 계산하기 위해 비디오 관찰과 비교됩니다.
3.2. Video-specific Surface Embedding
픽셀 표면 임베딩.
다른 프레임의 해당 픽셀을 표준 3D 표면의 동일한 지점에 매핑하는 픽셀 및 표면 임베딩을 학습합니다.
직관적으로 관절이 있는 사람의 "코"인 표준 표면 메쉬의 특정 영역을 고려하십시오.
표면 임베딩은 코에 대한 설명자를 캡처한 다음 각 프레임의 픽셀 수준 설명자와 일치시킬 수 있습니다.
입력 이미지 I_t가 주어지면 픽셀 단위 설명자 임베딩은 U-Net [33] 인코더에 의해 계산됩니다:
여기서 [x, y, t]는 프레임 t의 픽셀 위치입니다.
표면 임베딩은 위치 인코딩된 MLP에 의해 계산됩니다:
여기서 ф_e(·)는 표준 공간의 3D 포인트(X, Y, Z)에 대해 정의된 MLP이며 푸리에 위치 인코딩으로 증가됩니다[27].
두 개의 임베딩은 테스트 비디오에서 최적화되어 서로 다른 프레임에서 동일한 표면 위치를 나타내는 픽셀이 동일한 표준 표면 포인트에 매핑됩니다[20].
soft-argmax 회귀를 통한 대응.
픽셀 및 표면 임베딩이 주어지면 코사인 피쳐 거리
를 고려하여 픽셀 및 표면 점(각 단계에서 N_s = 200개의 표면 점을 무작위로 샘플링)에 대해 크기 H x W x N_s의 프레임당 비용 볼륨 D(F_I, F_S)를 구성합니다.
표면 점 차원에 대해 비용 볼륨을 정규화하면 그림 3(왼쪽)과 같이 픽셀(x, y)과 잠재적으로 일치하는 표면 점에 대한 소프트맥스 "히트맵"이 생성됩니다:
여기서 τ는 피쳐 임베딩과 함께 최적화된 온도 스케일링 매개변수입니다.
픽셀 (x, y)에 대한 단일 표면 점을 출력하기 위해 점 샘플의 3D 위치에 대한 softmax 분포를 예상하여 "soft" argmax [17, 47]를 계산할 수 있습니다,
여기서 (X_i, Y_i, Z_i)는 i번째 샘플링된 표면 점이고 σ(x, y)[i]는 샘플링된 점 i ∈ {1, 2, ..., N_S}에 대한 픽셀 (x, y)의 일치 확률입니다.
또한 각 표면 점(X_i, Y_i, Z_i)과 일치하는 픽셀 위치 분포를 캡처하기 위해 공간 위치에 대한 H x W x N_s 비용 볼륨을 정규화할 수 있습니다:
그림 3(오른쪽)과 같이 픽셀에 대한 표면 점의 유사한 소프트 argmax 매핑을 계산합니다.
키포인트와의 관계.
기존 키포인트 감지기의 출력은 종종 픽셀 그리드에 대한 K-채널 히트맵으로 표시됩니다, 여기서 K는 키포인트의 수입니다.
조밀한 키포인트를 정의하기 위해 계산적으로 많은 채널 수를 늘릴 수 있습니다.
CSE[28]와 유사하게 우리는 조밀한 키포인트를 저차원 픽셀 표면 임베딩으로 표현하는데, 이는 픽셀과 표준 3D 표면 간의 매핑을 설정하지만 훨씬 더 효율적입니다.
DensePose[12]와 CSM[20]은 모든 픽셀에서 표면 좌표를 회귀하는 대체 픽셀-표면 매핑을 사용합니다.
대조적으로, 우리의 픽셀 표면 임베딩은 키포인트에 대한 다중 모드 불확실성을 포착합니다, 예를 들어, σ_(x,y)[i]는 특정 픽셀이 그림 3에 시각화된 것처럼 왼쪽 및 오른쪽 발목 모두에 잘 일치한다는 사실을 캡처할 수 있는 반면 회귀자는 두 개 표면 좌표의 평균으로 "회귀"할 수 있습니다.
3.3 Learning Embeddings and Articulated Shapes
다음으로 미리 정의된 모양 템플릿이나 주석이 달린 대응 없이 단안 비디오에서 임베딩과 관절 모양을 모두 학습할 수 있는 손실 함수를 소개합니다.
판별 및 비퇴행 임베딩을 학습하기 위해 일관성, 대조 및 순환 투영 손실을 신중하게 구성합니다.
일관성 손실.
틀림없이 가장 단순한 손실은 하향식으로 렌더링된 표면 설명자와 상향식 관찰 픽셀 설명자 간의 차이를 최소화합니다:
여기서 cos(·)는 두 개의 정규화된 벡터 사이의 내적을 나타내고 R(F_S)는 미분 가능하게 렌더링된 표면 설명자입니다.
이 용어는 표면 디스크립터가 렌더링된 위치에서 관찰된 픽셀 디스크립터와 유사하도록 강제하지만 모든 픽셀과 표면 기능이 동일한 상수(0 오류 생성)인 사소한 솔루션을 허용합니다.
대조적인 재건 손실.
이 문제를 해결하기 위해 픽셀 임베딩이 픽셀 위치에서 렌더링된 표면 임베딩과만 일치하도록 하는 대조 손실[13, 17]을 추가합니다:
여기서 R(V^-)은 렌더링된 3D 표면 위치이고 ^S[x, y]는 식(6)에서 추정된 픽셀-표면 매핑으로 샘플링을 통해 계산되고 표면 점에 대한 softmax 분포 σ[i]를 계산합니다.
대조적 재구성 손실을 최소화하기 위해 (x, y)로 투영되지 않는 표면 점의 임베딩은 (x, y)의 픽셀 임베딩에서 제거됩니다.
주기 재투영 손실.
위의 일관성 및 대비 손실은 비디오 프레임에서 일관되고 서로 다른 표면 위치에 대해 판별적인 픽셀 표면 임베딩을 학습하는 것을 목표로 합니다.
그러나 관절 매개변수를 최적화하는 측면에서 미분 가능한 렌더링을 기반으로 하는 일관성 및 대비 손실은 로컬 최적이 좋지 않은 경향이 있습니다.
예를 들어, 신체 일부의 렌더링이 실제 물체 실루엣 외부에 있을 때 관절 매개변수의 그라디언트 업데이트는 더 낮은 손실을 초래하지 않을 가능성이 높습니다.
학습된 픽셀 표면 임베딩을 사용하여 관절형 3D 모양 학습을 안내하기 위해 키포인트[3] 및 표준 표면 매핑[20]을 사용한 3D 모델 피팅의 이전 접근 방식에서 영감을 얻은 주기 기반 재투영 손실을 추가로 정의합니다.
입력 이미지가 주어지면 상향식으로 픽셀 임베딩을 추출하고 이를 표면 임베딩과 일치시켜 2D-3D 매핑을 설정합니다.
그런 다음 식 (6)을 사용하여 모든 픽셀에서 예상되는 표면 좌표 ^S[x, y]를 계산하고 미분 가능하게 렌더링된 표준 표면 좌표가 원래 픽셀 좌표(x; y)에 다시 도달하는지 확인합니다,
재건 손실.
마지막으로, 생성된 이미지, 마스크 및 흐름이 추정된 이미지와 일치하는지 확인하기 위해 재구성 손실을 사용합니다,
여기서 {β _1, ..., β _4}는 경험적으로 선택한 가중치이고, σ_t는 흐름 측정을 위한 정규화된 신뢰 맵이고, pdist(·, ·)는 ImageNet 사전 훈련된 AlexNet에 의해 측정된 지각 거리[50]입니다.
재구성 손실은 렌더링 및 관찰된 광학 흐름, 텍스처 및 실루엣 이미지 간의 일치를 보장합니다.
Regularization.
변형된 모양을 피하기 위해 메쉬 Laplacian regularization[16, 48]을 사용하여 복구된 모양을 매끄럽게 만들고 ARAP(as-rigid-as-possible) 정규화를 사용하여 변형을 국부적으로 강성으로 만듭니다[43].
관절 후에 모서리의 길이만 보존하는 기존 작업과 달리 관절 후에는 면의 면적과 길이가 동일하도록 권장합니다.
면적 보존 항은
로 정의되며 여기서 |E| 는 에지의 수이고 N_i는 인접 에지의 인덱스입니다.
3.4 Representing Surface Properties with MLPs
추가 차원으로 표면 임베딩 MLP를 확장하여 텍스처 및 표면 기반 기하학적 변형을 포함한 다른 표면 속성을 모델링할 수 있습니다.
명시적으로 정의된 텍스처와 비교할 때 이러한 연속 암시적 표현은 임의의 양의 세부 사항을 인코딩할 수 있는 능력을 가지며 경험적으로 최적화하기 쉽습니다.
표면 모습.
객체의 모양은 표준 메쉬 표면의 점에서 쿼리된 좌표 MLP로 표시됩니다.
뷰 종속적 모양(예: 그림자 및 조명)을 처리하기 위해 (X, Y, Z) 좌표의 푸리에 기능을 텍스처 MLP에 대한 입력으로 프레임 모양 코드와 추가로 연결합니다,
여기서 V^-_i는 NeRF[27]에서 사용되는 푸리에 인코더 F(·)를 통해 전달되고 각 이미지 프레임 t와 관련된 64차원 프레임 모양 코드인 ω_t와 연결되는 i번째 정규 메시 정점입니다, ω_t = ψ_tex(I_t)로 ResNet-18에서 예측됩니다.
인스턴스 모양 변형 필드.
섹션 4.3의 실험과 같이 동일한 범주의 여러 인스턴스에 대한 비디오를 처리하기 위해 표준 표면에 정의된 연속 표면 변형 필드에 의해 인스턴스 전체의 모양 변화를 모델링합니다.
표면 텍스처와 유사하게 표면 변형 필드를 모양 MLP로 표현합니다,
여기서 V_k는 인스턴스 k의 나머지 모양이고 α_k는 모양 MLP와 함께 무작위로 초기화 및 최적화되는 비디오 전용 64차원 모양 코드입니다.
4. Experiments
우리는 물체가 매우 명확하게 표현되어 장거리 대응을 재구성하고 추정하기 어려운 세 가지 시나리오에서 ViSER를 평가합니다.
먼저 헐렁한 옷과 특이한 포즈가 있는 긴 휴먼 비디오를 고려합니다.
다음으로 정확한 모양 템플릿이 누락된 관절 동물의 비디오를 평가합니다.
마지막으로 동일한 카테고리의 여러 비디오에서 단일 모델을 학습하는 ViSER의 다중 비디오 변형을 분석합니다.
모든 시나리오는 공동으로 장거리 대응을 설정하고 관절이 있는 3D 모양을 동시에 재구성해야 합니다.
4.1. Athletic Video Reconstruction
데이터 세트.
긴 비디오에서 ViSER를 평가하기 위해 헐렁한 옷과 비정상적인 신체 포즈로 인해 도전적인 운동 비디오 데이터 세트를 구성합니다.
DAVIS[30]의 4개의 비디오와 3개의 발레 비디오로 구성됩니다.
모든 비디오는 MSCOCO 형식[24]에 따라 키포인트로 분할되고 수동으로 주석이 달립니다.
평가 목적으로만 키포인트 주석을 사용합니다.
측정항목.
5. Conclusions
단안 비디오에서 명확한 모양, 조밀한 궤적 및 물체 부분을 재구성하는 방법인 ViSER를 도입했습니다.
ViSER는 학습된 비디오 특정 표면 임베딩을 통해 2D 픽셀을 표준 3D 메시에 일치시켜 장거리 대응을 설정합니다.
실험 결과에 따르면 템플릿 모양이나 키포인트 주석이 없는 ViSER는 도전적인 인간 및 동물 비디오에 대한 이전 작업과 비교하여 유리합니다.
ViSER는 야생에서 범주에 대한 명확한 모양을 재구성하는 것이 유익할 수 있음을 보여주며 우리는 이 방향에서 더 많은 작업을 보기를 바랍니다.
더 광범위한 영향.
ViSER는 로봇 공학, AR/VR 및 영화 산업과 같은 많은 잠재적 응용 프로그램을 가지고 있지만 사전 동의 없이 가짜 비디오를 제작하거나 생체 정보를 추출하는 것과 같은 악의적인 목적으로 사용될 수 있습니다.
ViSER는 하나의 NVIDIA P100 GPU에서 80프레임 비디오를 처리하는 데 몇 시간 정도 걸리므로 오프라인 애플리케이션에만 적합합니다.