站長之家(ChinaZ.com)4月20日 消息:你相信嗎?只要輸入16句簡單描述,AI就能生成11分鐘的動畫了。
(資料圖片)
近日,微軟亞洲研究院推出了NUWA-XL超長視頻生成模型,采用創(chuàng)新的Diffusion over Diffusion架構(gòu),通過「從粗到細」的生成過程,可以并行生成高質(zhì)量的超長視頻,為多模態(tài)大模型提供了新的解題思路。
論文地址:https://arxiv.org/abs/2303.12346
NUWA-XL「從粗到細」的生成方法具有三個優(yōu)勢:
分層結(jié)構(gòu)使模型能夠直接在長視頻上進行訓(xùn)練,從而消除了訓(xùn)練和推理之間的差距。
模型包含多個局部擴散模型,自然支持并行推理,可以顯著提高生成長視頻時的推理速度。例如在相同的硬件設(shè)置下,當生成1024幀時,NUWA-XL 使平均推理時間從7.55分鐘減少到26秒,速度提升了94.26%。
由于視頻的長度可以相對于深度 m 呈指數(shù)級擴展,因此模型可以很容易地擴展出更長的視頻。
目前,長視頻生成的多數(shù)方法是采用「Autoregressive over X」架構(gòu),這種方法存在訓(xùn)練-推理差距的問題,導(dǎo)致不真實的、扭曲的鏡頭變化。
NUWA-XL的推出填補了長視頻生成領(lǐng)域的空白,為人工智能在視頻生成方面的應(yīng)用提供了新的可能性。
微軟亞洲研究院首席研究員段楠表示,目前人工智能多模態(tài)大模型的研發(fā)仍停留在文字生成階段。即使GPT-4已經(jīng)在理解方面加入了視覺信息,但僅限于圖片,輸出依舊是文字或代碼。因此,當前和未來的研究方向非常明確,就是將語言和視覺的理解和生成融入到一個基礎(chǔ)大模型中,以增強圖像、視頻和音頻的生成。他希望未來可以使用一套結(jié)構(gòu)來融合支持語言和視覺的生成算法,使人工智能模型更加通用。
(舉報)
標簽: