聲音更自然!谷歌新語音系統(tǒng)可像人類一樣說話
【環(huán)球網(wǎng)科技綜合報道】 據(jù)英國《每日郵報》12月28日報道,谷歌將推出新款文語轉(zhuǎn)換(TTS)系統(tǒng)Tacotron 2,可讓AI語音助手的聲音更加自然。
不同于其他以復(fù)雜語言學(xué)和聲學(xué)特征為輸入的TTS系統(tǒng),Tacotron 2通過學(xué)習(xí)人類對話和文本記錄并進(jìn)行訓(xùn)練,以生成更貼近人聲的語音。研究團(tuán)隊(duì)表示,聽眾評價Tacotron 2的語音水平與專業(yè)錄音相當(dāng)。
基于之前的研究成果Tacotron和WaveNet,Tacotron 2使用序列-序列模型,該模型將字母映射到編碼音頻的特征上。該過程結(jié)合了發(fā)音、音量、速度和語調(diào)。然后,這些特征被轉(zhuǎn)換成24 kHz的波形。
一項(xiàng)系統(tǒng)演示展示了Tacotron 2如何節(jié)奏流利地朗讀不同的文本(包括繞口令)。但是,一些較難的詞語仍然絆住了它。
研究團(tuán)隊(duì)稱,雖然該系統(tǒng)在聽眾試驗(yàn)中取得了不錯的反響,但還不夠完美。“我們的樣本聽起來不錯,但仍有一些棘手的問題有待解決。例如,我們的系統(tǒng)在復(fù)雜詞語發(fā)音上存在困難,在極端情況下甚至?xí)S機(jī)產(chǎn)生奇怪的噪音。而且,它還無法生成實(shí)時音頻。我們還不能控制它所產(chǎn)生的語音,無法引導(dǎo)它具有高興或悲傷的情緒。”(實(shí)習(xí)編譯:陳倩云 審稿:李宗澤)
責(zé)編:黎曉珊