MuseTalk 是一個(gè)由騰訊團(tuán)隊(duì)開發(fā)的實(shí)時(shí)高質(zhì)量音頻驅(qū)動(dòng)唇形同步模型,旨在實(shí)現(xiàn)數(shù)字人視頻生成和虛擬人解決方案。該模型基于深度學(xué)習(xí)技術(shù),能夠根據(jù)輸入音頻自動(dòng)調(diào)整數(shù)字人物的面部口型,使面部動(dòng)作與音頻高度同步,從而提升視頻的真實(shí)感和觀看體驗(yàn)。MuseTalk 支持多種語言輸入,包括中文、英文和日文,并且能夠在 NVIDIA Tesla V100 GPU 上實(shí)現(xiàn) 30fps 以上的實(shí)時(shí)推理速度。
MuseTalk開源項(xiàng)目官網(wǎng)入口網(wǎng)址:https://github.com/TMElyralab/MuseTalk

MuseTalk 的核心技術(shù)基于 ft-mse-vae 潛在空間訓(xùn)練,結(jié)合了 Stable Diffusion 的 U-Net 架構(gòu),通過多尺度特征融合和選擇性信息采樣策略,實(shí)現(xiàn)了高效的音頻-視覺特征融合和唇形同步。該模型不僅在視覺保真度和身份一致性方面表現(xiàn)出色,還在唇形同步精度方面優(yōu)于現(xiàn)有方法。此外,MuseTalk 支持多種應(yīng)用場(chǎng)景,包括虛擬人視頻生成、視頻配音、數(shù)字人直播和在線教育等。
MuseTalk 由騰訊音樂娛樂實(shí)驗(yàn)室開源,其代碼和模型可通過 GitHub 和 Hugging Face 平臺(tái)獲取,用戶可以通過 WebUI 界面進(jìn)行操作,支持上傳音頻和參考視頻素材,進(jìn)行參數(shù)調(diào)整和生成視頻。MuseTalk 的開源特性鼓勵(lì)社區(qū)合作,推動(dòng)了數(shù)字內(nèi)容創(chuàng)作和虛擬人技術(shù)的發(fā)展。
MuseTalk 是一個(gè)強(qiáng)大的實(shí)時(shí)唇形同步模型,為數(shù)字人視頻生成和虛擬人技術(shù)提供了高效、高質(zhì)量的解決方案。



