Deepmind語音生成模型正式商用于Google Assistant：效率提高1000倍

雷鋒網(wǎng) ? 7年前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個廣告，點(diǎn)擊進(jìn)來看看。

雷鋒網(wǎng) (公眾號：雷鋒網(wǎng)) 消息：2017年10月4日，Google Deepmind發(fā)表博客稱，其一年前提出的生成原始音頻波形的深層神經(jīng)網(wǎng)絡(luò)模型WaveNet已正式商用于Google Assistant中，該模型比起一年前的原始模型效率提高1000倍，且能比目前的方案更好地模擬自然語音。

以下為Deepmind博客所宣布的詳細(xì)信息，雷鋒網(wǎng)摘編如下

一年之前，我們提出了一種用于生成原始音頻波形的深層神經(jīng)網(wǎng)絡(luò)模型WaveNet，可以產(chǎn)生比目前技術(shù)更好和更逼真的語音。當(dāng)時，這個模型是一個原型，如果用在消費(fèi)級產(chǎn)品中的計(jì)算量就太大了。

在過去12個月中，我們一直在努力大幅度提高這一模型的速度和質(zhì)量，而今天，我們自豪地宣布，WaveNet的更新版本已被集成到Google Assistant中，用于生成各平臺上的所有英語和日語語音。

新的WaveNet模型可以為Google Assistant提供一系列更自然的聲音。

為了理解WaveNet如何提升語音生成，我們需要先了解當(dāng)前文本到語音（Text-to-Speech，

TTS）或語音合成系統(tǒng)的工作原理。

目前的主流做法是基于所謂的拼接TTS，它使用由單個配音演員的高質(zhì)量錄音大數(shù)據(jù)庫，通常有數(shù)個小時的數(shù)據(jù)。這些錄音被分割成小塊，然后可以將其進(jìn)行組合以形成完整的話語。然而，這一做法可能導(dǎo)致聲音在連接時不自然，并且也難以修改，因?yàn)槊慨?dāng)需要一整套的改變（例如新的情緒或語調(diào)）時需要用到全新的數(shù)據(jù)庫。

另一方案是使用參數(shù)TTS，該方案不需要利用諸如語法、嘴型移動的規(guī)則和參數(shù)來指導(dǎo)計(jì)算機(jī)生成語音并進(jìn)行語音拼接。這種方法即便宜又快捷，但這種方法生成的語音不是那么自然。

WaveNet采取完全不同的方法。在原始論文中，我們描述了一個深層的生成模型，可以以每秒處理16000個樣本、每次處理一個樣本黨的方式構(gòu)建單個波形，實(shí)現(xiàn)各個聲音之間的無縫轉(zhuǎn)換。

Deepmind語音生成模型正式商用于Google Assistant：效率提高1000倍

WaveNet使用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建，在大量語音樣本數(shù)據(jù)集上進(jìn)行了訓(xùn)練。在訓(xùn)練階段，網(wǎng)絡(luò)確定了語音的底層結(jié)構(gòu)，比如哪些音調(diào)相互依存，什么樣的波形是真實(shí)的以及哪些波形是不自然的。訓(xùn)練好的網(wǎng)絡(luò)每次合成一個樣本，每個生成的樣本都考慮前一個樣本的屬性，所產(chǎn)生的聲音包含自然語調(diào)和如嘴唇形態(tài)等參數(shù)。它的“口音”取決于它接受訓(xùn)練時的聲音口音，而且可以從混合數(shù)據(jù)集中創(chuàng)建任何獨(dú)特聲音。與TTS系統(tǒng)一樣，WaveNet使用文本輸入來告訴它應(yīng)該產(chǎn)生哪些字以響應(yīng)查詢。

原始模型以建立高保真聲音為目的，需要大量的計(jì)算。這意味著WaveNet在理論上可以做到完美模擬，但難以用于現(xiàn)實(shí)商用。在過去12個月里，我們團(tuán)隊(duì)一直在努力開發(fā)一種能夠更快地生成聲波的新模型。該模型適合大規(guī)模部署，并且是第一個在Google最新的TPU云基礎(chǔ)設(shè)施上應(yīng)用的產(chǎn)品。

Deepmind語音生成模型正式商用于Google Assistant：效率提高1000倍

（新的模型一秒鐘能生成20秒的音頻信號，比原始方法快1000倍）

WaveNet團(tuán)隊(duì)目前正在準(zhǔn)備一份能詳細(xì)介紹新模型背后研究的論文，但我們認(rèn)為，結(jié)果自己會說話。改進(jìn)版的WaveNet模型仍然生成原始波形，但速度比原始模型快1000倍，每創(chuàng)建一秒鐘的語音只需要50毫秒。該模型不僅僅速度更快，而且保真度更高，每秒可以產(chǎn)生24,000個采樣波形，同時我們還將每個樣本的分辨率從8bit增加到16bit，與光盤中使用的分辨率相同。

這些改進(jìn)使得新模型在人類聽眾的測試中顯得發(fā)聲更為自然。新的模型生成的第一組美式英語語音得到的平均意見得分（MOS）為4.347（滿分5分），而真實(shí)人類語音的評分只有4.667。

Deepmind語音生成模型正式商用于Google Assistant：效率提高1000倍

新模式還保留了原始WaveNet的靈活性，使我們能夠在訓(xùn)練階段更好地利用大量數(shù)據(jù)。具體來說，我們可以使用來自多個語音的數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò)。這可以用于生成高質(zhì)量和具有細(xì)節(jié)層次的聲音，即使在所需輸出語音中幾乎沒有訓(xùn)練數(shù)據(jù)可用。

我們相信對于WaveNet來說這只是個開始。我們?yōu)樗惺澜缯Z言的語音界面所能展開的無限可能而興奮不已。

（Via Deepmind ，雷鋒網(wǎng)編譯）

。

Deepmind語音生成模型正式商用于Google Assistant：效率提高1000倍

隨意打賞

google assistant deepmind alphago google deepmind 谷歌收購deepmind deepmind lab deepmind創(chuàng)始人 deepmind 開源 deepmind算法谷歌deepmind deepmind團(tuán)隊(duì)

欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

Deepmind語音生成模型正式商用于Google Assistant：效率提高1000倍