什麼是stable diffusion

文本到圖像生成模型

Stable diffusion 是一種基於潛在擴散模型(Latent Diffusion Models)的文本到圖像生成模型。

Stable diffusion 的核心原理包括以下幾個步驟：

使用文本編碼器將文本輸入轉換爲一箇向量表示，這個向量表示能夠捕捉文本的語義信息，並與圖像空間對齊。

利用擴散模型將一箇隨機噪聲圖像逐漸變換爲目標圖像。擴散模型是一種生成模型，可以從訓練數據中學習出一箇概率分佈，並從中採樣出新的數據。

在擴散過程中，結合文本向量和噪聲圖像作爲條件輸入，給出每一步變換的概率分佈，從而根據文本指導噪聲圖像向目標圖像收斂，並保持圖像的清晰度和連貫性。

使用超分辨率放大器將生成的低分辨率圖像放大到更高的分辨率，這個放大器也是一箇擴散模型，可以從低分辨率圖像中恢復出細節信息，並增強圖像質量。

Stable diffusion 能夠處理任意領域和主題的文本輸入，並生成與之相符合的多樣化和富有創意的圖像，可以生成高達2048x2048或更高的分辨率的圖像，並且保持了良好的視覺效果和真實感，還可以進行深度引導和結構保留的圖像轉換和合成。