遠場識別、場景數據獲取……語音識別還面臨多少技術難題?

【編者按】 語音識別 是 人機交互 的基礎。目前市面上的機器語音識別錯誤率超過15%甚至30%,一些公司宣傳的機器識別準確率過高,真正的語音識別需要結合具體場景,解決遠場語音識別、數據獲取等問題。
曾轟動一時的電影《她》,講述了男主人公與 人工智能 虛擬助手相愛的故事,這個人工智能對話系統能夠同時與數百人進行對話。現實中,蘋果Siri能夠有目的地模仿人類,并擁有了不同的人類風格,像Siri這類智能軟件助手正在與數以億計的人類用戶互動。
“語音識別現在已經有很多的產品,包括維語到漢語的翻譯等等。人工智能目前落地最成功的就是語音識別技術。”中科院自動化研究所所長徐波告訴《瞭望》新聞周刊記者,要讓機器理解人的語言,還面臨很多挑戰。
人機交互的基礎
近日,全國首家互聯網法院揭牌,案件庭審記錄由語音輸入系統即時完成。“互聯網法院是遠程的,原告、被告、法官不在同一個地方,將庭審麥克風接入語音識別的云端,就能夠實時生成速記。 它使用的就是阿里云語音在線識別技術 。”阿里巴巴iDST智能語音團隊負責人鄢志杰告訴《瞭望》新聞周刊記者。
語音識別是人機交互的基礎,主要解決讓機器聽清楚人說什么的難題。早在1970年代,IBM沃森實驗室的弗雷德里克·賈里尼克(Frederick Jelinek)就提出了 語音識別框架:聲學模型和語言模型。
語音識別取得的重大突破,就在于引入了 深度神經網絡 技術。“深度神經網絡的方法,是通過大量的語音數據,訓練出高精度的聲學模型和語言模型,從而提升識別率。”浪潮集團人工智能與高性能計算總經理劉軍告訴記者,淺層神經網絡方法,是提取語音的特征,識別率比較低。
“教會機器聽懂人話的過程,就是通過深度神經網絡訓練聲學模型和語言模型的過程。”科大訊飛股份有限公司(簡稱科大訊飛)工程師丁瑞告訴記者,聲學模型訓練是教會機器哪個字詞發什么音、該怎么連在一起讀,有點像我們小學時候跟著老師讀拼音。而語言模型訓練則要教會機器什么樣的命令或文字組合是合理的、更常見的。
在完成模型訓練后,需要將其送入語音識別系統的解碼引擎。“ 解碼引擎的工作是在一個巨大的網絡里進行搜索,這個網絡由數億節點及弧組成,并且里邊已經糅合了訓練好的聲學模型和語言模型信息,搜索出來的最優路徑上所攜帶的信息就是對應的語音識別結果了。 ”丁瑞介紹,解碼引擎的運算效率至關重要,直接影響到用戶體驗。目前,科大訊飛的解碼引擎可以在用戶說完話40毫秒之內給出結果。
“一般的深度學習算法只能看到上下文的一點點,我們試驗最成功的是BLSTM算法(雙向長短時記憶神經網絡)。通常一句話講完才能出識別結果,但BLSTM算法理論上可以看到無窮遠的上下文,可以更好地理解人類的語言。”鄢志杰說,BLSTM算法是深度學習中的一種,對單位時間內的計算量要求很高,他們研發出的LC—Blstm系統,將語音解碼速率提升了三倍,并在業界最先大規模上線了基于這一技術的語音識別系統。
提高識別準確率有多難
目前,國外一些大公司提出,他們研發的語言識別系統已經十分接近人類聽力水平。國內也有多家公司提出,他們的語音識別系統達到90%以上的正確率。
鄢志杰認為,脫離了應用場景講識別準確率并不現實。“比如一個IT方面的會議,會場上演講嘉賓的語音識別準確率基本能達到95%,但如果突然邀請一個醫療領域的講演者,就很難達到同樣高的識別率,因為現有模型在醫療領域的知識積累不夠。”
“正常人際交流情況下, 機器語音識別錯誤率超過15%甚至30%,而一些公司宣傳的機器識別準確率過高,速記員都達不到這一水平 。”鄢志杰認為,這樣的宣傳會讓公眾誤認為語音識別問題得到了完全解決。
“語音識別要進入到機器語音識別錯誤率超過15%甚至30%,而一些公司宣傳的機器識別準確率過高,速記員都達不到這一水平,還有很多相關的工作需要去完成,不能單靠深度神經網絡的方法來實現。”劉軍說,語音識別準確率涉及多方面原因,例如遠場精確識別就是業界難題。
遠場語音識別基本采用麥克風陣列方案,通過波束成形和精準定位的技術方案,解決遠場拾音、噪聲、混響等問題。“目前科大訊飛的語音識別距離已經達到5米,同時有國際領先的回音消除技術,消除量可以達到50db。”丁瑞說。
受訪專家認為, 應用麥克風陣列做定位和聚焦可解決遠場識別問題,識別率較之前有了大幅提高。 例如在落下車窗的快速行駛汽車中,可成功喚醒車載語音識別功能。
“現在有很多大量近講的數據,例如手機、錄音棚中的數據,將其放在一個房間內播放,就能測得房間的沖擊響應,可以模擬遠場數據。由此建立代表近講信號與遠場信號的不同模型。”鄢志杰介紹道。
受訪專家表示,遠場識別在一些場景中的應用并不理想,例如機場、火車站、大型會場等環境嘈雜的地方。徐波告訴記者,現在用的麥克風陣列,能辨別人說話的方位,但如果多個聲源在相近的方位還是難以識別。
語音識別應用推廣的另一短板表現在場景數據的獲取。 場景是用戶群體、語言風格、語音信道、使用環境等綜合性的描述。“中文語法的隨意性比較大,還有場景中的方言因素,解決這一問題的方法主要是靠數據訓練模型,我們需要一個很大的數據庫。”徐波說。
“數據獲取的成本非常高,需要收集全國各地的各種口音數據,并使用人工把發音和文字一句一句地標注對應好,變成所謂的熟數據,才能交由機器學習。我們已經做了幾萬小時的這種聲音。”徐波提到,用目前的方法,機器有多少智能,背后一定賦予了多少人力投入。
劉軍認為,雖然現在使用互聯網服務,數據很容易上傳到云端,標注后就可以用,但目前還沒有很好的方法替代“人工標注”這一工作。
“ 數據是燃料,云計算背景下,怎樣做大規模低成本的定制化語音服務非常重要,如果成本不能控制,生意就做不下去。 ”鄢志杰說,為節省成本,阿里iDST采用了數據模型自適應的一系列算法。例如為電話客服場景做語音識別訓練模型就需要用大量的數據,但這個模型就可以遷移到保險公司客服的模型中去,而不需要用大量數據重新訓練保險公司的客服模型。
“自然語言理解”難題待解
“在計算機的世界里,理解對話系統不再是什么古怪的創新,而是一種逐漸成為主流的交互方式。”《紐約時報》高級科技記者、普利策獎得主約翰·馬爾科夫(John Markoff)在其著作《與機器人共舞》中提出。
與機器對話是人與計算機之間的雙向信息交換,即人傳達給機器一個信息,機器會反饋給人一個信息。語音的交互已經廣泛應用于智能硬件、智能家居、智能機器人等領域。隨著亞馬遜打開智能音箱的市場,各巨頭公司爭相逐鹿,打響了“百箱大戰”,如谷歌推出了Google Home、蘋果上線了HomePod等。國內來看,科大訊飛推出了“叮咚智能音箱”,阿里發布了智能音箱“天貓精靈X1”等。
受訪專家認為, 語音識別屬于感知智能,而讓機器從簡單的識別語音到理解語音,則上升到了認知智能層面,機器的自然語言理解能力如何,也成為了其是否有智慧的標志。
在機器理解人的語言方面,專家的意見非常一致,即 自然語言理解是人工智能的難點 。機器對語言理解本身的準確率非常低,并不是非常聰明。但在馬爾科夫看來,人機交互是機器的終極智慧。
“全世界基于自然語言理解的人機對話領域,還沒有萬流歸宗的方法論,在工業界無法形成應用。”鄢志杰說,相比之下,基于深度神經網絡學習的語音識別技術已經形成固定的流派,只是互相之間用的聲學模型、語言模型各有特色。
“語言的理解非常困難,需要知識的儲備,而機器缺乏常識。”徐波舉例說,“張三吃食堂”、“能穿多少穿多少”。這樣的句子機器理解不了。“因為它包含了我們生活中的很多常識。比如說‘張三吃食堂’,實際上是說張三在食堂吃飯,不是把食堂吃下去。不同季節說‘能穿多少穿多少’意思也是不一樣的:在夏天說,意思就是太熱了盡量少穿;在冬天說,意思則是多穿點別著涼。”徐波告訴記者,常識是我們從小到大、通過與現實物理世界不斷交互感知和學習產生的,而 計算機怎么去表示、獲取、學習常識,并將常識與數據結合是個挑戰,全世界都還沒有解決這個問題。
徐波告訴記者,目前機器服務多為簡單查詢,不涉及“推理”查詢類信息服務,而且缺乏基本語言理解能力。“你問機器明天這個天氣狀況會造成航班延誤嗎?機器回答不了。你讓機器推薦一個附近的餐廳,不要日本菜,機器推薦的沒準就是日本餐廳。
專家認為,機器基本不具有的上下文功能,也讓人機交互之間難以順暢進行。目前開放領域的聊天系統,會根據用戶輸入的語句生成系統的回答語句。 這種系統采用單輪的一問一答方式訓練,而對于多輪交互才能完成的對話,機器無法將聊天中的上下文信息關聯起來,導致交流不暢。
“ 人與人之間的交流,最重要的就是持續、雙向、可打斷。 為實現自然流暢的交互,科大訊飛采用了一個全鏈路的貫穿過程,需要包括持續的語音喚醒、人聲檢測、智能斷句、無效語音拒識等各個模塊相互配合才能完成。”丁瑞說,智能斷句主要是在識別過程中,用語義信息來預測和判定。以點歌為例,用戶經常會說,我想聽……周杰倫的歌,中間會有思考過程。此時后端的斷句引擎必須等待后續的有效音頻,給出完整的理解內容。但如果用戶停頓時間過長,后端引擎也會給出響應,比如會問:您要聽誰的歌,以做出更好的引導提示。
雖然各方在積極探索機器的自然語言理解實現路徑,但要實現電影《她》中的強人工智能,還有待時日。
2018年8月24日,億歐將在北京舉辦“ 科技落地 物鏈未來——GIIS 2018物流產業創新峰會 ”,就傳統物流企業、制造企業、物流科技應用場景及實操、物流科技新暢想等議題,攜行業人士一同探討新機遇下物流科技如何更好落地及發展走向。
報名鏈接: https://www.iyiou.com/post/ad/id/638