AWS 最新的文本轉(zhuǎn)換語(yǔ)音已經(jīng)有播音員的感覺了

文本語(yǔ)音轉(zhuǎn)換引擎因?yàn)闄C(jī)器學(xué)習(xí)技術(shù)的發(fā)展而取得了巨大進(jìn)步。我們以前很容易分辨出計(jì)算機(jī)合成的聲音,現(xiàn)在完全不一樣了。亞馬遜云計(jì)算部門 AWS 今天發(fā)布了全新的自然文本轉(zhuǎn)換語(yǔ)音模型,和模仿新聞播報(bào)員的語(yǔ)音風(fēng)格。
亞馬遜在發(fā)布會(huì)上表示:“語(yǔ)音質(zhì)量很重要,但要讓機(jī)器合成的語(yǔ)音聽起來更真實(shí)、更有吸引力,我們還有很長(zhǎng)的路要走。談到語(yǔ)音的風(fēng)格,毫無疑問,人類的耳朵可以分辨新聞節(jié)目、體育節(jié)目、大學(xué)課程等等; 事實(shí)上,大多數(shù)人在適當(dāng)?shù)恼Z(yǔ)境下使用適當(dāng)?shù)恼Z(yǔ)音風(fēng)格,這有助于別人去理解他們的表達(dá)?!?/p>
這種全新的新聞播報(bào)員語(yǔ)音風(fēng)格目前有兩種美式口音,亞馬遜已經(jīng)和《今日美國(guó)》、加拿大的《環(huán)球郵報(bào)》以及其他一些公司取得合作,來幫助他們實(shí)現(xiàn)文本語(yǔ)音化。
你可以聽一下這段:
這項(xiàng)全新服務(wù)官方稱之為 Amazon Polly Newscaster,它是多年來對(duì)文本轉(zhuǎn)換語(yǔ)音的研究成果。這款全新的轉(zhuǎn)換引擎共有 11 種口音,其中 3 種是英式英語(yǔ),8 種是美式英語(yǔ),與谷歌的 WaveNet 等類似的自然語(yǔ)音引擎沒有什么不同。
這段是女聲:
在這個(gè)充斥著假新聞的時(shí)代,使用這種聽起來像真正的新聞播音員一樣的合成語(yǔ)音,一開始會(huì)有點(diǎn)難以接受。不過換個(gè)角度想,以前用人工讀的文本現(xiàn)在可以用合成的也是好事一件。電腦合成聲音有很多不錯(cuò)的用途,而且從 AWS 提供的示例來看,新的合成音色比之前的要更加耐聽。
AWS’ new text-to-speech engine sounds like a newscaster