亚瑟在线中文影院官方网站_农村女妓女野外bbw_国产无矿码直接进入_亚洲AV中文字字幕乱码软件久久国产亚洲AV无码麻软件_亚洲人成伊人成综合网小说

當前位置:首頁 > 百科 > 正文
微軟亞洲研究院推出NUWA-XL超長視頻生成模型
來源:站長之家  時間:2023-04-20 11:44:18
字號:

站長之家(ChinaZ.com)4月20日 消息:你相信嗎?只要輸入16句簡單描述,AI就能生成11分鐘的動畫了。


(資料圖片)

近日,微軟亞洲研究院推出了NUWA-XL超長視頻生成模型,采用創(chuàng)新的Diffusion over Diffusion架構(gòu),通過「從粗到細」的生成過程,可以并行生成高質(zhì)量的超長視頻,為多模態(tài)大模型提供了新的解題思路。

論文地址:https://arxiv.org/abs/2303.12346

NUWA-XL「從粗到細」的生成方法具有三個優(yōu)勢:

分層結(jié)構(gòu)使模型能夠直接在長視頻上進行訓(xùn)練,從而消除了訓(xùn)練和推理之間的差距。

模型包含多個局部擴散模型,自然支持并行推理,可以顯著提高生成長視頻時的推理速度。例如在相同的硬件設(shè)置下,當生成1024幀時,NUWA-XL 使平均推理時間從7.55分鐘減少到26秒,速度提升了94.26%。

由于視頻的長度可以相對于深度 m 呈指數(shù)級擴展,因此模型可以很容易地擴展出更長的視頻。

目前,長視頻生成的多數(shù)方法是采用「Autoregressive over X」架構(gòu),這種方法存在訓(xùn)練-推理差距的問題,導(dǎo)致不真實的、扭曲的鏡頭變化。

NUWA-XL的推出填補了長視頻生成領(lǐng)域的空白,為人工智能在視頻生成方面的應(yīng)用提供了新的可能性。

微軟亞洲研究院首席研究員段楠表示,目前人工智能多模態(tài)大模型的研發(fā)仍停留在文字生成階段。即使GPT-4已經(jīng)在理解方面加入了視覺信息,但僅限于圖片,輸出依舊是文字或代碼。因此,當前和未來的研究方向非常明確,就是將語言和視覺的理解和生成融入到一個基礎(chǔ)大模型中,以增強圖像、視頻和音頻的生成。他希望未來可以使用一套結(jié)構(gòu)來融合支持語言和視覺的生成算法,使人工智能模型更加通用。

(舉報)

標簽: