里程碑!谷歌語音識別出錯率降低30%以上
【騰訊科技編者按】 據國外媒體報道稱, 谷歌 ( 微博 )高級研究員杰夫-迪恩(Jeff Dean)當地時間周三在于加州圣克拉拉召開的人工智能前沿峰會(AI Frontiers Conference)上表示,谷歌自2012年以來已經將語音識別的錯誤率降低了30%以上,這對于如今AI當道的科技領域來說可謂意義非凡。
在這兒,迪恩所說的語音識別錯誤率是指“谷歌將一個詞語從語音轉錄成為文字時的錯誤率”。迪恩表示,谷歌自2012年以來已經成功將這一錯誤率降低了30%以上。與此同時,一名谷歌發言人也同科技媒體VentureBeat證實了這一數據的準確性。
迪恩表示,這一語音識別錯誤率的下降得益于神經網絡的應用。目前,包括谷歌和其他企業均在深度學習中使用了這一神經網絡技術,研究人員通過使用大量數據對神經網絡進行訓練。比如通過大量的語音片段練習,然后讓他們基于已經獲悉的內容對新數據作出推斷。
消息稱,谷歌最早在2012年,也就是Android“果凍豆”系統發布的時候首次將神經網絡技術應用于語音識別領域。具體來說就是,當用戶向Android“果凍豆”系統的語音識別軟件說話時,聲音頻譜會被分解并發送到谷歌全球服務器“大軍”中的八臺電腦,隨后由負責開發這個項目的谷歌研究 科學 家文森特-凡毫克(VincentVanhoucke)及其團隊開發的“神經網絡”模型進行處理。
凡毫克在當時就表示,與此前版本的Android系統相比,“果凍豆”語音識別系統的誤差率要低25%左右,而這能讓用戶更加愿意使用語音命令。
在此之后,盡管這一技術的發展影響著越來越多的谷歌產品,但該公司卻鮮有公開討論自己在語音識別技術上取得的進展。2015年,谷歌CEO桑德加-皮查伊(SundarPichai)曾表示“谷歌語音識別的錯誤率約為8%”。
蘋果 Siri團隊資深總監、前 微軟 語音識別項目高管亞歷克斯-阿賽洛(Alex Acero)在去年8月接受Backchannel主編史蒂芬-列維(StevenLevy)采訪時透露,Siri在所有語言中的錯誤率降低了兩倍,甚至在許多情況下超過了兩倍。此外,微軟也在去年9月份表示,旗下語音識別技術的出錯率已經降至6.3%,打破了 IBM 超級電腦沃森之前保持6.9%的出錯率紀錄。
事實上,為了能在這場技術革命中處于領先位置,包括 亞馬遜 、蘋果、谷歌和IBM在內的科技企業都已經開始面向消費者提供語音識別技術。比如,蘋果不久前在Siri中添加了第三方整合功能,允許它與第三方應用通訊,這意味著用戶將可以利用Siri服務直接呼叫Uber專車。
然而,如果要想成為消費者最主要的計算平臺,語音助手仍需迎來進一步改進。凱鵬華盈分析師、被巴倫雜志冠以“互聯網女王”稱號的瑪麗-米克爾(Mary Meeker)就表示,語音識別的準確率必須達到99%左右才有可能成為最有效的計算輸入形式。(綜合/湯姆)
推薦:人工智能洶涌而來,未來已變!關注“AI世代”微信號(tencentAI),關注未來。