谷歌開發全新監督學習模型區分講話者聲音,準確率達92.4%
雷鋒網消息,將含有多人語音的音頻流分割為與每個人相關聯的同類片段的過程,是語音識別系統的重要部分。通過解決“誰在講話”的問題,區分講話者的能力可以應用于許多重要場景,例如理解醫療對話和視頻字幕等。
這個過程對人類來說相當容易,但對于計算機而言則完全不同,它需要先進的機器學習算法來訓練它們以便挑選出每個人的聲音,使用監督學習方法訓練這些系統非常具有挑戰性。
谷歌的人工智能研究科學家Chong Wang在一篇博客文章中說,他們最近開發出了一種名為“全監督講話者區分”的新模型,該模型試圖以更有效的方式使用受監督的講話者標簽。這里的“全”意味著講話者區分系統中的所有模塊,包括統計講話者數量,都以受監督的方式進行訓練,以便它們可以從增加可用的標記數據量中受益。
與標準監督區分任務不同,強大的區分模型需要能夠將新個體與不參與訓練的不同語音段相關聯,這極大的限制了在線和離線區分系統的質量,且在線系統通常會受到更多影響,因為它們需要實時的分揀結果。
在NIST SRE 2000 CALLHOME基準測試中,該系統的DER(Diarization Error Rate,區分錯誤率)低至7.6%,優于之前基于聚類的方法的8.8%,以及基于DNN嵌入方法的9.9%。此外該系統基于在線解碼,特別適用于實時應用。為了加速沿此方向的更多研究,谷歌選擇了開源核心算法。
聚類與交錯態RNN
現代講話者區分系統通常基于聚類算法,如k均值或譜聚類。這些聚類方法是無監督的,無法充分利用數據中可用的監督講話者標簽。而在線聚類算法通常在具有流式音頻輸入的實時應用中區分質量較差。
(雷鋒網注1:k均值聚類是一種矢量量化方法,最初來自信號處理,是數據挖掘中聚類分析的常用方法。 k均值聚類的目的是將n個觀測值劃分為k個聚類,其中每個觀測值屬于具有最近均值的聚類,作為聚類的原型。)
(雷鋒網 (公眾號:雷鋒網) 注2:譜聚類技術利用數據相似矩陣的譜(特征值)進行降維,然后在更小的維數下聚類,提供相似性矩陣作為輸入,并且包括對數據集中每對點的相對相似性的定量評估。)
谷歌的新模型和常見聚類算法的關鍵區別在于,所有講話者的嵌入都是通過參數共享RNN建模的,并且使用了不同的RNN狀態在時域內交錯區分不同的講話者。
為了了解其工作原理,谷歌制作了以下示例,其中有藍、黃、粉、綠四種可能的講話者,每個講話者以其自己的RNN實例(在所有講話者之間共享的公共初始狀態)開始,并且在給定來自該講話者的新嵌入的情況下保持更新RNN狀態。
在示例中,藍色講話者不斷更新其RNN狀態,直到另一個講話者黃色進入。如果藍色稍后再說,它將恢復更新其RNN狀態。(這只是下圖中語音段y7的可能性之一,如果新的講話者綠色進入,它將以新的RNN實例開始。)
將講話者表示為RNN狀態使模型能夠學習使用RNN參數在不同講話者和話語之間共享的高級知識,這保證了更多標記數據的可用性。相比之下,常見的聚類算法幾乎總是獨立處理每個單獨的話語,難以從大量標記數據中受益。
所有這一切的結果是,可以通過給定時間標記的講話者標簽(即知道誰在什么時候講話),用標準的隨機梯度下降算法訓練模型,訓練好的模型可以對沒有聽過的講話者的新話語進行區分。此外,使用在線解碼使其更適合對延遲敏感的應用程序。
(雷鋒網注3:隨機梯度下降算法也稱為增量梯度下降算法,是用于優化可微分目標函數的迭代方法,是梯度下降優化的一種隨機近似。被稱為隨機是因為樣本是隨機選擇(或混洗)而不是作為單個組(如標準梯度下降)或按訓練集中出現的順序選擇的。)
未來的工作
Constellation Research的分析師Holger Mueller表示,人類的說話速度比打字速度快,語音是一種更為自然的輸入法。
“在嘈雜的環境中進行語音識別很難,特別是在多人說話時。”Holger Mueller說,“這個領域的任何進展都將進一步推動語音交互的應用,谷歌這套系統的出現,似乎正在嘗試打破用戶與智能設備的互動極限。”
盡管已經通過該系統取得了令人印象深刻的性能,谷歌仍在持續改進這一模型,希望可以整合上下文信息并執行離線解碼,進一步降低DER,這對延遲不敏感的應用程序更有用。其次谷歌還想直接模擬聲學特征而不是使用d向量,通過端到端的方式訓練整個講話者區分系統。
與此同時,Chong Wang的團隊還決定將新算法開源并提供給 GitHub ,以便其他人參與并作出貢獻。
。