VideoPoet 是由谷歌研究團(tuán)隊(duì)開(kāi)發(fā)的一款創(chuàng)新的 AI 視頻生成模型,旨在通過(guò)多模態(tài)大模型技術(shù)實(shí)現(xiàn)高質(zhì)量視頻內(nèi)容的生成。該模型的核心優(yōu)勢(shì)在于其多模態(tài)大模型架構(gòu),能夠處理和轉(zhuǎn)換不同類(lèi)型的輸入信號(hào),包括文本、圖像、視頻和音頻,從而實(shí)現(xiàn)多種風(fēng)格和動(dòng)作的視頻輸出。
VideoPoet官網(wǎng)入口網(wǎng)址:https://sites.research.google/videopoet/

VideoPoet 的主要功能包括文本到視頻、圖像到視頻、視頻風(fēng)格化、編輯與擴(kuò)展、視頻音頻化和跨模態(tài)學(xué)習(xí)等。它采用僅解碼器的 Transformer 架構(gòu),通過(guò)預(yù)訓(xùn)練和任務(wù)特定適應(yīng)兩個(gè)階段進(jìn)行訓(xùn)練。預(yù)訓(xùn)練階段融合了多種多模態(tài)生成目標(biāo),使其能夠應(yīng)用于多種視頻生成任務(wù)。此外,VideoPoet 還支持生成長(zhǎng)達(dá) 10 秒的視頻,并且無(wú)需特定數(shù)據(jù)集或擴(kuò)散模型。
VideoPoet 的應(yīng)用場(chǎng)景非常廣泛,適用于電影制作、動(dòng)畫(huà)片、廣告制作、虛擬現(xiàn)實(shí)等多個(gè)領(lǐng)域。用戶只需輸入文本描述,即可生成高質(zhì)量的視頻內(nèi)容,無(wú)需視覺(jué)或音頻指導(dǎo)。例如,谷歌團(tuán)隊(duì)曾利用 VideoPoet 根據(jù)文本提示生成了一段浣熊旅行的故事視頻,總時(shí)長(zhǎng)為 1 分鐘。
VideoPoet 的官網(wǎng)地址為:https://sites.research.google.com/view/videopoet/ 。用戶可以通過(guò)官網(wǎng)體驗(yàn)入口快速上手使用該工具,無(wú)論是行業(yè)專(zhuān)家還是初學(xué)者,都能輕松創(chuàng)作滿足不同場(chǎng)景需求的視頻內(nèi)容。
VideoPoet 為視頻創(chuàng)作提供了無(wú)限可能,無(wú)論是專(zhuān)業(yè)制作人還是普通愛(ài)好者,都能通過(guò)簡(jiǎn)單的操作實(shí)現(xiàn)創(chuàng)意表達(dá)。其強(qiáng)大的多模態(tài)處理能力和靈活的視頻生成功能,使其成為未來(lái) AI 視頻生成技術(shù)的主流方向。