文本到圖像生成模型
Stable diffusion 是一種基於潛在擴散模型(Latent Diffusion Models)的文本到圖像生成模型。
Stable diffusion 的核心原理包括以下幾個步驟:
使用文本編碼器將文本輸入轉換爲一箇向量表示,這個向量表示能夠捕捉文本的語義信息,並與圖像空間對齊。
利用擴散模型將一箇隨機噪聲圖像逐漸變換爲目標圖像。擴散模型是一種生成模型,可以從訓練數據中學習出一箇概率分佈,並從中採樣出新的數據。
在擴散過程中,結合文本向量和噪聲圖像作爲條件輸入,給出每一步變換的概率分佈,從而根據文本指導噪聲圖像向目標圖像收斂,並保持圖像的清晰度和連貫性。
使用超分辨率放大器將生成的低分辨率圖像放大到更高的分辨率,這個放大器也是一箇擴散模型,可以從低分辨率圖像中恢復出細節信息,並增強圖像質量。
Stable diffusion 能夠處理任意領域和主題的文本輸入,並生成與之相符合的多樣化和富有創意的圖像,可以生成高達2048x2048或更高的分辨率的圖像,並且保持了良好的視覺效果和真實感,還可以進行深度引導和結構保留的圖像轉換和合成。