谷歌 DeepMind 新研究:利用 AI 模型為無聲視頻配音
來源:IT之家?
據谷歌 DeepMind 新聞稿,DeepMind 近日公布了一項利用 AI 為無聲視頻生成背景音樂的 "video-to-audio" 技術。
IT 之家獲悉,當前 DeepMind 這款 AI 模型依然存在局限性,需要開發者使用提示詞為模型預先 " 介紹 " 視頻可能的聲音, 暫時不能直接根據視頻畫面添加具體音效 。
據悉,該模型首先會將用戶輸入的視頻進行拆解,此后結合用戶的用戶文字提示,利用擴散模型反復運算,最終以生成與視頻畫面協調的背景聲音,例如輸入一條 " 在黑暗中行走 " 的無聲視頻,再添加 " 電影、恐怖片、音樂、緊張、混凝土上的腳步聲 " 等文字提示,相關模型就能生成恐怖風格的背景音效。
DeepMind 同時表示,該 "video-to-audio" 模型可以為任何視頻生成無限數量的音軌, 還能夠通過提示詞內容判斷生成的音頻 " 正向性 " 或 " 反向性 ",從而令生成的聲音更貼近某些特定場景 。
展望未來,DeepMind 表示研究人員正進一步優化這款 "video-to-audio" 模型,計劃未來能夠讓模型直接根據視頻內容,無須通過提示詞即可生成視頻背景音,同時還將改善視頻中人物對白的口型同步能力。