共同開發文本到圖像AI模型Stable Diffusion的研究實驗室Runway ML推出了一種新的視頻到視頻模型:Gen-1,它可以從現有視頻生成新視頻。
Gen-1是一種內容引導的視頻傳播模型。它根據基于所需輸出的視覺或文本描述來編輯視頻。
例如,用戶可以上傳白色皮毛狗的視頻,輸入文本提示“白色皮毛上有黑色斑點的狗”,模型將生成具有所需輸出的現有視頻的新版本。
Runway聲稱其新模式類似于“拍攝新事物,但根本不拍攝任何東西。沒有燈。沒有相機。所有的行動。”
Runway宣稱其最新的生成模型能夠生成視頻,同時保留原始視頻的質量和靈活性。
根據Runway的說法,Gen-1“能夠真實、一致地將圖像或文本提示的構圖和風格應用到目標視頻中。”
視頻到視頻的方法是通過在圖像和視頻上聯合訓練模型來實現的。此類訓練數據使Gen-1能夠在推理時完全進行編輯,而無需額外的每個視頻訓練或預處理,因為它使用示例圖像作為指導。
根據Runway的說法,Gen-1可以部署的用例包括定制、渲染和遮罩
目前,只有少數受邀用戶獲得了Gen-1的訪問權限,盡管Runway將在幾周內公開發布該模型。想要訪問Gen-1的用戶必須加入候補名單。
“Runway Research致力于構建多模態AI系統,以實現新形式的創造力。Gen-1代表了我們在這一使命中向前邁出的又一關鍵步驟,”Stable Diffusion制造商爭辯道。
可通過arXiv獲得全面概述該模型的論文。
用于視頻的生成AI并不是什么新鮮事。去年9月,當全世界開始對文本到圖像的AI模型著迷時,Meta的研究人員推出了Make-A-Video,這是一種能夠根據文本提示生成視頻的AI系統。Make-A-Video還可以從圖像創建視頻,或使用現有視頻創建類似的新視頻。