發布時間:2023-05-05 22:55:37 來源:本站 作者:admin
Stability AI 與其人工智能研究實驗室 DeepFloyd 合作,發布了一項名為 DeepFloyd IF 的新技術。 這種先進的文本到圖像模型旨在從文本輸入中生成高質量圖像。
DeepFloyd IF 模型使用 T5-XXL-1.1 語言模型作為文本編碼器來幫助理解文本提示。 交叉注意層也被用來更好地對齊文本提示和生成的圖像。
DeepFloyd IF 最令人印象深刻的功能之一是它能夠準確地應用文本描述來生成具有不同空間關系的各種對象的圖像,這對其他文本到圖像模型來說一直是一個挑戰。
此外,該模型生成的圖像具有高度的真實感,這反映在其在 COCO 數據集上令人印象深刻的零樣本 FID 得分 6.66 上。 該模型還可以生成具有非標準縱橫比的圖像,包括垂直或水平方向和標準方形縱橫比。
DeepFloyd IF 模型的圖像到圖像的轉換
除了文本到圖像的生成,DeepFloyd IF 還提供零樣本圖像到圖像的轉換。 這是通過將原始圖像的大小調整為 64 像素,通過前向擴散添加噪聲,并使用帶有新提示的后向擴散來對圖像進行去噪來實現的。
可以通過提示文本描述通過超分辨率模塊修改樣式。 這種方法允許修改輸出圖像中的樣式、圖案和細節,同時保持源圖像的主要形式,而無需微調。
生成高質量圖像的過程
DeepFloyd IF 模型分三個階段工作,根據文本提示生成高質量圖像。 凍結的 T5-XXL 語言模型在第一階段將文本提示轉換為定性表示。 然后,在第二階段,應用基礎擴散模型將定性文本轉換為 64×64 圖像,然后使用兩個文本條件超分辨率模型將其放大到 256×256。
在該過程的第三階段,使用最終模型將圖像增強為清晰、高質量的 1024×1024 分辨率。 IF 模型包括不同版本的基礎模型和超分辨率模型,它們具有其他參數。
雖然第三階段模型尚未可用,但可以使用其他高級模型,如 Stable Diffusion x4 Upscaler。
穩定性 AI DeepFloyd IF
Stability AI DeepFloyd IF 能夠將輸出圖像擴展到更高分辨率 - 圖片由 Stability AI 提供
訓練數據集和許可
DeepFloyd IF 在名為 LAION-A 的高質量自定義數據集上進行了訓練,該數據集包含 10 億對(圖像、文本)。 該數據集是 LAION-5B 數據集英語部分的美學子集,并且使用自定義過濾器過濾數據以刪除不適當的內容。
該模型最初是根據研究許可發布的,創建者歡迎反饋以提高模型的性能和可擴展性。 該模型可用于各種領域,例如藝術、設計、講故事、虛擬現實和可訪問性。
DeepFloyd IF 模型在文本到圖像生成領域提供了一個有前途的進步。 其令人印象深刻的功能和潛在應用使其成為各個行業研究人員和專業人士的寶貴資產。
該模型在非商業、研究許可許可下的可用性以及創建者在未來開源該模型的承諾符合 Stability AI 與更廣泛的研究社區共享創新技術的目標。
創建者歡迎與模型的技術、學術和倫理方面相關的反饋和公開討論,這些可以通過模型的權重、模型卡片和 GitHub 上可用的代碼以及通過為每個人提供的 Gradio 演示來訪問。