Diffusion(11)
-
Adding Conditional Control to Text-to-Image Diffusion Models
Adding Conditional Control to Text-to-Image Diffusion Models Lvmin Zhang, Anyi Rao, Maneesh Agrawala Abstract저희는 사전 학습된 대규모 text-to-image 디퓨전 모델에 공간 조건화 제어를 추가하기 위한 신경망 아키텍처인 ControlNet을 소개합니다. ControlNet은 프로덕션 준비가 된 대규모 디퓨전 모델을 잠그고, 수십억 개의 이미지로 사전 학습된 심층적이고 강력한 인코딩 레이어를 강력한 백본으로 재사용하여 다양한 조건부 제어 세트를 학습합니다. 신경망 아키텍처는 매개 변수를 0에서 점진적으로 확장하고 유해한 노이즈가 파인튜닝에 영향을 미치지 않도록 하는 "zero convolution"(제로 초기화 컨..
2024.07.30 -
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, Wei Yang Abstract최근 몇 년 동안 고충실도 이미지를 생성하는 인상적인 생성 기능에 대한 대규모 text-to-image 디퓨전 모델의 강력한 힘을 목격했습니다. 그러나 복잡한 프롬프트 엔지니어링이 수반되는 경우가 많기 때문에 텍스트 프롬프트만으로 원하는 이미지를 생성하는 것은 매우 까다롭습니다. 텍스트 프롬프트의 대안은 "an image is worth a thousand words"는 말처럼 이미지 프롬프트입니다. 사전 학습된 모델을 직접 파인튜닝하는 기존 방법은 효과적이지..
2024.07.08 -
Improving Diffusion Models for Authentic Virtual Try-on in the Wild
Improving Diffusion Models for Authentic Virtual Try-on in the Wild Yisol Choi, Sangkyung Kwak, Kyungmin Lee, Hyungwon Choi, Jinwoo Shin Abstract이 논문에서는 사람과 옷을 각각 묘사하는 한 쌍의 이미지가 주어지면, 큐레이팅된 옷을 입은 사람의 이미지를 렌더링하는 이 확산 모델[13, 41]은 데이터에 가우시안 노이즈를 점진적으로 추가하는 순방향 프로세스와 무작위 노이즈를 점진적으로 제거하여 샘플을 생성하는 역방향 프로세스로 구성된 생성 모델입니다. x_0이 데이터 포인트(예: 자동 인코더[37]의 출력에서 이미지 또는 잠재)라고 가정합니다. 미지 기반 virtual try-on을 고려합니다...
2024.06.27 -
Projected GANs Converge Faster
Projected GANs Converge Faster Axel Sauer, Kashyap Chitta, Jens Müller, Andreas Geiger AbstractGenerative Adversarial Networks (GAN)은 고품질 이미지를 생성하지만 학습하기가 어렵습니다. 신중한 정규화, 방대한 양의 계산 및 값비싼 하이퍼 파라미터 스위프가 필요합니다. 저희는 생성된 실제 샘플을 고정된 사전 학습된 피쳐 공간에 투영하여 이러한 문제를 크게 발전시켰습니다. 판별기가 사전 학습된 모델의 더 깊은 레이어의 피쳐를 완전히 활용할 수 없다는 발견에 영감을 받아 채널과 해상도에 걸쳐 피쳐를 혼합하는 보다 효과적인 전략을 제안합니다. 저희의 Projected GAN은 이미지 품질, 샘플 효율성 및 수..
2024.06.15 -
On Distillation of Guided Diffusion Models
On Distillation of Guided Diffusion Models Chenlin Meng, Robin Rombach, Ruiqi Gao, Diederik Kingma, Stefano Ermon, Jonathan Ho, Tim Salimans Abstract Classifier-free guided diffusion 모델은 최근 고해상도 이미지 생성에 매우 효과적인 것으로 나타났으며 DALL·E2, Stable Diffusion 및 Imagen을 포함한 대규모 diffusion 프레임워크에서 널리 사용되고 있습니다. 그러나 classifier-free guided diffusion 모델의 단점은 클래스-조건적 모델과 무조건적 모델이라는 두 가지 diffusion 모델을 수십에서 수백 번 평가해야..
2023.07.20 -
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, Mark Chen Abstract Diffusion 모델은 최근 고품질 합성 이미지를 생성하는 것으로 나타났는데, 특히 충실도를 위해 다양성을 절충하는 지침 기술과 결합할 때 그렇습니다. 텍스트-조건적 이미지 합성 문제에 대한 diffusion 모델을 탐색하고 두 가지 다른 지침 전략을 비교합니다: CLIP 지침 및 classifier-free 지침. 우리..
2023.05.30