Stable Diffusion簡(jiǎn)介

2023-08-09 1,556

Stable Diffusion

類(lèi)型：人工智能

簡(jiǎn)介：基于AI的繪畫(huà)生成工具，主要用于根據(jù)文本描述生成詳細(xì)圖像。

百科詞條訪問(wèn)網(wǎng)站

什么是Stable Diffusion

Stable Diffusion是一種在潛在空間擴(kuò)散(latent diffusion)的模型。它不是在高維圖像空間中操作，而是首先將圖像壓縮到潛空間(latent space)中。然后，通過(guò)在潛空間中應(yīng)用擴(kuò)散過(guò)程來(lái)生成新的圖像。

Stable Diffusion能夠從文本描述中生成詳細(xì)的圖像，它還可以用于圖像修復(fù)、圖像繪制、文本到圖像和圖像到圖像等任務(wù)。簡(jiǎn)單地說(shuō)，我們只要給出想要的圖片的文字描述，Stable Diffusion就能生成符合你要求的逼真的圖像！

Stable Diffusion將“圖像生成”過(guò)程轉(zhuǎn)換為逐漸去除噪聲的“擴(kuò)散”過(guò)程，整個(gè)過(guò)程從隨機(jī)高斯噪聲開(kāi)始，經(jīng)過(guò)訓(xùn)練逐步去除噪聲，直到不再有噪聲，最終輸出更貼近文本描述的圖像。然而，這個(gè)過(guò)程的缺點(diǎn)是去噪過(guò)程的時(shí)間和內(nèi)存消耗都非常大，尤其是在生成高分辨率圖像時(shí)。為了解決這個(gè)問(wèn)題，Stable Diffusion引入了潛在擴(kuò)散，潛在擴(kuò)散通過(guò)在較低維度的潛在空間上應(yīng)用擴(kuò)散過(guò)程而不是使用實(shí)際像素空間來(lái)減少內(nèi)存和計(jì)算成本。

Stable Diffusion是stability.ai開(kāi)源的圖像生成模型，可以說(shuō)Stable Diffusion的發(fā)布將AI圖像生成提高到了全新高度，其效果和影響不亞于Open AI發(fā)布的ChatGPT。

Stable Diffusion的核心概念

Stable Diffusion的核心概念包括：自動(dòng)編碼器、U-Net、文本編碼器等。

1、自動(dòng)編碼器

自動(dòng)編碼器(VAE)由兩個(gè)主要部分組成：編碼器和解碼器。編碼器將圖像轉(zhuǎn)換為低維潛在表示，該表示將作為輸入傳遞給 U_Net。解碼器則相反，它將潛在表示轉(zhuǎn)換回圖像。

2、U-Net

U-Net是一種全卷積網(wǎng)絡(luò)，用于語(yǔ)義分割，它由兩個(gè)分支組成：編碼器和解碼器。編碼器將輸入圖像分成大小相等的補(bǔ)丁，然后將這些補(bǔ)丁傳遞到下一級(jí)處理，解碼器將這些補(bǔ)丁重新組合成輸出圖像。U-Net的優(yōu)點(diǎn)是它可以在不同的尺度上進(jìn)行預(yù)測(cè)，并且可以使用較少的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練模型。

3、文本編碼器

文本編碼器會(huì)將輸入提示轉(zhuǎn)換為 U-Net 可以理解的嵌入空間，一般是一個(gè)簡(jiǎn)單的基于Transformer的編碼器，它將標(biāo)記序列映射到潛在文本嵌入序列。

廣告合作
QQ群號(hào)：4114653

點(diǎn)贊 (0)

溫馨提示：

1、本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享網(wǎng)絡(luò)內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。郵箱：2942802716#qq.com（#改為@）。 2、本站原創(chuàng)內(nèi)容未經(jīng)允許不得轉(zhuǎn)裁，轉(zhuǎn)載請(qǐng)注明出處“站長(zhǎng)百科”和原文地址。

Stable Diffusion