전체 글(220)
-
Projected GANs Converge Faster
Projected GANs Converge Faster Axel Sauer, Kashyap Chitta, Jens Müller, Andreas Geiger AbstractGenerative Adversarial Networks (GAN)은 고품질 이미지를 생성하지만 학습하기가 어렵습니다. 신중한 정규화, 방대한 양의 계산 및 값비싼 하이퍼 파라미터 스위프가 필요합니다. 저희는 생성된 실제 샘플을 고정된 사전 학습된 피쳐 공간에 투영하여 이러한 문제를 크게 발전시켰습니다. 판별기가 사전 학습된 모델의 더 깊은 레이어의 피쳐를 완전히 활용할 수 없다는 발견에 영감을 받아 채널과 해상도에 걸쳐 피쳐를 혼합하는 보다 효과적인 전략을 제안합니다. 저희의 Projected GAN은 이미지 품질, 샘플 효율성 및 수..
2024.06.15 -
Make-A-Video: Text-to-Video Generation without Text-Video Data
Make-A-Video: Text-to-Video Generation without Text-Video Data Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, Yaniv Taigman Abstract저희는 최근 Text-to-Image (T2I) 생성의 엄청난 발전을 Text-to-Video (T2V)로 직접 변환하기 위한 접근 방식인 Make-A-Video를 제안합니다. 저희의 직관은 간단합니다: 짝을 이룬 text-image 데이터로부터 세상이 어떻게 보이고 어떻게 설명되는지를 배우고, ..
2024.06.04 -
2) FastNeRF: High-Fidelity Neural Rendering at 200FPS (ICCV 2021)
FastNeRF 아키텍처는 동일한 작업을 캐싱할 수 있는 두 개의 신경망으로 나눔. 위치 종속 네트워크 F_pos는 D 구성 요소로 구성된 딥 래디언스 맵(u, v, w)을 출력하고 F_dir는 ray 방향이 주어진 해당 구성 요소(β_1, ..., β_D)의 가중치를 입력으로 출력합니다. Caching단일 픽셀을 렌더링하기 위해 평가되어야 하는 많은 수의 샘플을 고려할 때, F 계산 비용은 NeRF 렌더링의 총 비용을 지배합니다. 따라서 NeRF를 가속화하기 위해 장면의 공간을 덮는 입력 세트에 대한 출력을 캐싱하여 F의 테스트 시간 비용을 줄이려고 시도할 수 있습니다. 그런 다음 캐시는 F를 계산하는 데 걸리는 시간의 몇 분의 일로 평가될 수 있습니다. 학습된 NeRF 모델의 경우 NeRF에 의해 캡..
2024.06.03 -
1) NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (ECCV 2020)
https://hsejun07.tistory.com/78 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (번역)NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng Abstract 희소한 입력 뷰 세트를 사용하여 기본 연속 체적 장면 함hsejun07.tistory.com Goal : 보이지 않는 뷰의 이미지를 합성 (a) 카메라 ray를 따라 5D 좌표 (위치 x,y,z 및 뷰..
2024.06.03 -
LRM: Large Reconstruction Model for Single Image to 3D
LRM: Large Reconstruction Model for Single Image to 3D Yicong Hong, Kai Zhang, Jiuxiang Gu, Sai Bi, Yang Zhou, Difan Liu, Feng Liu, Kalyan Sunkavalli, Trung Bui, Hao Tan Abstract저희는 단일 입력 이미지에서 객체의 3D 모델을 단 5초 이내에 예측하는 최초의 Large Reconstruction Model (LRM)을 제안합니다. 카테고리별 방식으로 ShapeNet과 같은 소규모 데이터 세트에서 학습하는 이전의 많은 방법과 달리, LRM은 5억 개의 학습 가능한 매개 변수가 있는 확장성이 높은 트랜스포머 기반 아키텍처를 채택하여 입력 이미지에서 neural radia..
2024.05.29 -
DreamGaussian4D: Generative 4D Gaussian Splatting
DreamGaussian4D: Generative 4D Gaussian Splatting Jiawei Ren, Liang Pan, Jiaxiang Tang, Chi Zhang, Ang Cao, Gang Zeng, Ziwei Liu Abstract최근 4D 콘텐츠 생성에서 괄목할 만한 진전이 있었습니다. 그러나 기존 방법은 최적화 시간이 길고, 모션 제어 가능성이 부족하며, 세부 정보 수준이 낮다는 어려움을 겪고 있습니다. 이 논문에서는 4D Gaussian Splatting 표현을 기반으로 하는 효율적인 4D 생성 프레임워크인 DreamGaussian4D를 소개합니다. 저희의 핵심 통찰력은 Gaussian Splatting에서 공간 변환을 명시적으로 모델링하면 암시적 표현에 비해 4D 생성 설정에 더 적..
2024.05.20