從谷歌到搜狗,為什么科技企業都在玩“唇語識別”?
2016年底,研發出AlphaGo的谷歌DeepMind工作室,與牛津大學合作推出了一款能夠閱讀唇語的軟件,在人工智能領域引發關注。通過測試,這款軟件的識別準確率達到46.8%,雖然還不完美,但已經遠超人類的唇讀準確率(12.4%)數倍之多。DeepMind工作室的負責人稱,這款軟件可以幫助到聽力受損的人,未來,他們的努力方向是從識別單詞到可以識別句子,進一步提高唇讀的準確率。
科技 的進步往往比我們預想中更快。在谷歌發布了唇讀軟件一年之后,搜狗公司在今年的烏鎮 互聯網 大會上,帶來了全球首個公開演示的唇語識別系統。在會場,許多嘉賓都測試了這一全新的科技成果,其中還包括來自央視和多個地方臺的記者,無論是“今天天氣怎么樣”這樣的短句,還是“吃葡萄不吐葡萄皮”這樣的繞口令,記者們只需要動動嘴唇,系統都可以準確識別。
根據公開資料顯示,谷歌唇讀軟件支持的詞匯量只有17500個,而搜狗唇讀系統可以支持的中文詞匯超過十萬個,在車載、智能家居等垂直應用領域,準確率超過90%。不得不承認,在唇讀這個具體的領域,中國制造已經領先于大洋彼岸的科技巨頭了。
有人或許好奇,唇讀系統的技術難度在什么地方?為什么從谷歌到搜狗,科技公司都在這個領域進行研究,其發展和應用前景又在哪里?
唇讀系統的技術難度
簡而言之,唇語系統都是由“看——聽——同步——寫”四個人工智能板塊組合而成的。首先,它要求系統要能夠對人的嘴唇運動進行捕捉記錄,然后將記錄下來的內容輸入為圖像序列,根據圖像信息,機器學習進行相應的圖像文字解碼,經過復雜的運算得出結果,再將內容同步至書寫設備上。
此前,谷歌的方式是使用卷積神經網絡對靜止的圖像進行分析,目的是辨認語言當中的最小單位,之后再逐步嘗試去識別單詞和詞組。而搜狗采用的方式,是他們首創的復雜端到端深度神經網絡技術,他們的優勢是可以根據語言序列建模,直接識別整句話,不僅提升了識別速度,準確度也更高。
唇讀系統的應用前景
讀唇術看上去很科幻,許多人還不了解這項技術的 商業 潛力在什么地方。而根據目前業內人士的分析,其應用場景至少在以下幾個方面:
首先,是對語音識別的進一步強化。唇語識別可以在環境嘈雜,語音識別受到干擾的情況下判斷語音內容,這樣就可以把語音識別的準確率提升到一個全新的水平,例如最基礎的語音輸入、車載指令、同聲傳譯等方面的用戶體驗都可以隨之得到提升。
其次,是在安保領域,可以判斷無聲指令。目前,我們國家的天網系統已經普及,但是只有攝像頭,沒有麥克風,對于許多治安問題的管理和偵破仍然是一個挑戰。有了成熟的唇語識別系統之后,我們不僅可以拍下犯罪分子的容貌,甚至可以了解到他說了什么,這對于維護社會治安秩序是很用的幫助;
另外,在商業領域,唇語識別可以幫助進行殘疾人教育,以及介入硬件產品,比如助聽器的改進。對聽力受損的殘疾人來說,可以說是為他們架起了一座溝通的橋梁。
總結
無論是谷歌還是搜狗,他們的實踐都證明唇語識別作為一項重要的人工智能技術,其應用場景極為廣泛。牛津大學唇語技術研究團隊的Yannis Assael就曾經向 媒體 表示,這一技術不僅有著前沿的技術意義,也具備著難以估量的商業可能,從軍事到公益,從支付到智能家庭,眾多行業都會因這項技術發生改變。而從行業內部看,這些提前進入唇語識別研究的公司與團隊,將有更大的機會筑起屬于自己的技術壁壘,這相當于為他們的商業版圖打下了一個堅實的基礎。