發布時間:2023-03-15 22:13:04 來源:本站 作者:admin
文本到圖像的擴散模型通常在生成圖像時對世界做出隱含的假設。雖然一些假設是有用的(例如,天空是藍色的),但它們也可能是過時的、不正確的,或者反映了培訓數據中存在的社會偏見。因此,需要控制這些假設,而不需要明確的用戶輸入或昂貴的重新訓練。在這項工作中,我們旨在編輯預先訓練的擴散模型中的給定隱式假設。我們的文本到圖像模型編輯方法,簡稱TIME,接收一對輸入:在指定提示下的“源”,模型對此進行隱式假設(例如,“一束玫瑰”),以及描述相同設置但具有指定所需屬性的“目的地”提示(例如“一束藍色玫瑰”)。然后,TIME更新模型的交叉關注層,因為這些層為文本標記分配視覺意義。我們編輯這些層中的投影矩陣,以便將源提示投影到目標提示附近。我們的方法效率很高,因為它只在一秒鐘內修改了2.2%的模型參數。為了評估模型編輯方法,我們引入了TIMED(TIME數據集),其中包含來自不同域的147個源和目標提示對。我們的實驗(使用穩定擴散)表明,TIME在模型編輯中是成功的,很好地概括了編輯過程中看不到的相關提示,并對不相關的世代施加了最小的影響。