從語音產(chǎn)業(yè)的拓荒者到領(lǐng)頭羊,科大訊飛智能語音的探索和突破

編輯 ?|?岑峰
語言是作為最自然便捷的交流方式,是人類社會的瑰寶,傳承文明,承載文化。 讓機(jī)器聽懂語言,延伸人類的能力,實(shí)現(xiàn)人和機(jī)器交互直至萬物互聯(lián),一直是人類的遠(yuǎn)大夢想。
而語音在未來人機(jī)交互中則起到關(guān)鍵性的作用。 1952年,貝爾研究所Davis等人研究成功了世界上第一個(gè)能識別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng);70年代以后,在小詞匯量、孤立詞的識別方面取得了實(shí)質(zhì)性的進(jìn)展;80年代,逐漸由孤立詞識別轉(zhuǎn)向連接詞識別;90年代以后,大詞匯量連續(xù)語音識別得到優(yōu)化。
科大訊飛便是這個(gè)時(shí)間創(chuàng)立的。1999年以前的中文語音市場幾乎全部掌握在跨國公司手中。當(dāng)時(shí)微軟、IBM等國際巨頭紛紛在中國設(shè)立語音研究基地,國內(nèi)語音技術(shù)人才畢業(yè)后基本外流。從中國語音產(chǎn)業(yè)的拓荒者,到如今成為國際知名的智能語音與人工智能上市公司,從追趕到領(lǐng)跑,科大訊飛成功改寫了由外國巨頭控制的中國語音市場格局。
“ 做屬于中國人自己的核心技術(shù),用頂尖的技術(shù)引領(lǐng)世界變革” 的夢想也一直藏在熊世富的心底。在技術(shù)理想主義者熊世富看來,科大訊飛便是實(shí)現(xiàn)自己夢想最好的舞臺。
在智能語音和人工智能產(chǎn)業(yè)中,技術(shù)革新很快,想要贏得領(lǐng)跑局面就必須從源頭技術(shù)上保持領(lǐng)先。而保持領(lǐng)先的秘密是“甘坐十年冷板凳“的決心,是對企業(yè)科研人員反復(fù)實(shí)驗(yàn),去窮盡每一種可能,推動技術(shù)上的微小改變的耐心,也是直面失敗的恒心。
正如創(chuàng)立22年的科大訊飛在探索人工智能實(shí)現(xiàn)路徑上的曲折,作為“年輕后浪“的熊世富在接下科大訊飛語音識別技術(shù)這個(gè)接力棒以來,失敗也是他最常面對的事情。
人工智能被很多人稱之為改變未來的顛覆性技術(shù),而深度學(xué)習(xí)則是加速人工智能發(fā)展的顛覆性創(chuàng)新。
2010年以前,語音識別的主流方式是使用高斯混合模型(GMM)來建模,雖然語音識別的錯(cuò)誤率有效的降低了,但GMM在自然場景下卻無法達(dá)到實(shí)用的級別。想要實(shí)現(xiàn)語音識別技術(shù)更廣泛的商用,必須有新的突破。2010年,微軟通過研究如何利用深層神經(jīng)網(wǎng)絡(luò)改善大詞匯量語音識別,成功地使得大規(guī)模的語音識別得到突破性進(jìn)展,而這一研究也改變了世界語音識別業(yè)界格局。
而科大訊飛也成為除了微軟總部以外,第一批接觸深度學(xué)習(xí)并著手開始研究的團(tuán)隊(duì)。一年后,科大訊飛已經(jīng)將深度神經(jīng)網(wǎng)絡(luò)(DNN)成功應(yīng)用到中文語音識別領(lǐng)域,并通過語音云平臺提供給廣大開發(fā)者使用。
熊世富便是在那個(gè)技術(shù)引領(lǐng)變革的時(shí)代,開啟了對 人工智能語音領(lǐng)域的深入探索,從一個(gè)代碼小白一步步蛻變?yōu)樾袠I(yè)專家。
孤身一人來到一個(gè)雖不算陌生的領(lǐng)域,但這里的一切規(guī)則都要重新學(xué)習(xí)、探尋,岔路曲徑通幽,沿途也有驚喜的收獲。
初識深度學(xué)習(xí)是熊世富在科大訊飛實(shí)習(xí)的期間。從最開始的跨語言遷移學(xué)習(xí)的任務(wù)到提升深度學(xué)習(xí)的訓(xùn)練效率,帶著升級打怪的快樂,熊世富總在語音方向里探索最前瞻的技術(shù)領(lǐng)域。
而魄力,則是他個(gè)人在探索深度學(xué)習(xí)技術(shù)上的優(yōu)勢和個(gè)人特色。從職業(yè)生涯的開始即選擇了一條大規(guī)模深度學(xué)習(xí)探索之路,而這種選擇也一直延續(xù)至今。
2013年,當(dāng)業(yè)界詬病深度學(xué)習(xí)的訓(xùn)練效率之時(shí),還是實(shí)習(xí)生的熊世富隨即想到了多卡訓(xùn)練這條路徑,多卡背后的代名詞是計(jì)算資源,大資源加持實(shí)驗(yàn)才能找到答案。“也是幸運(yùn),當(dāng)時(shí)我的導(dǎo)師是現(xiàn)今已為我們首席科學(xué)家的魏思,跟著他一起探索了很多前沿的方向。當(dāng)時(shí)要申請計(jì)算資源,研究院都會批準(zhǔn),雖然我只是一個(gè)實(shí)習(xí)生。”熊世富每次回憶,都感嘆AI研究院對于前瞻研究重視,對于技術(shù)的包容以及對人才的支持。也正是研究院的這種氛圍,讓這位中科大高材生畢業(yè)之后留了下來。
科大訊飛董事長人劉慶峰曾經(jīng)不止一次講過這樣一段話: “一 定要對未來人工智能的核心技術(shù)突破,不能抱著急功近利的想法。基礎(chǔ)理論的創(chuàng) 新,源頭技術(shù)的創(chuàng)新,往往是具有最大的不確定性的。人家說三年不鳴,一鳴驚人,事實(shí)上真正做原創(chuàng),可能你要坐十年冷板凳、甚至一輩子冷板凳的心理準(zhǔn)備 。”
這也是中國科研工作者需要攀越的下一座高山:如果不知道哪一年看到曙光,那么做技術(shù)的人還會用盡全力么?
“甘坐十年冷板凳這句話對我們這些科研人員的影響力是巨大的,這也是我們對技術(shù)的追求,因?yàn)槲覀兿嘈趴萍紕?chuàng)新才能真正引領(lǐng)未來。”熊世富說到。
2018年,科大訊飛提出了引領(lǐng)性的全新語音識別框架——深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN),進(jìn)一步提高語音轉(zhuǎn)寫的準(zhǔn)確率,引領(lǐng)語音識別技術(shù)的發(fā)展。而在此之前,最好的語音識別系統(tǒng)采用雙向長短時(shí)記憶網(wǎng)絡(luò)(LSTM),但是,這一系統(tǒng)存在訓(xùn)練復(fù)雜度高、解碼時(shí)延高的問題,尤其在工業(yè)界的實(shí)時(shí)識別系統(tǒng)中很難應(yīng)用。
相比傳統(tǒng)語音系統(tǒng),端到端系統(tǒng)具有結(jié)構(gòu)簡潔、通用性強(qiáng)、不依賴語言學(xué)知識等優(yōu)點(diǎn)。進(jìn)一步它能夠通過縮減人工預(yù)處理和后續(xù)處理,盡可能使模型從原始輸入到最終輸出,給模型更多可以根據(jù)數(shù)據(jù)自動調(diào)節(jié)的空間,增加模型的整體契合度,避免了多個(gè)模型間的誤差傳導(dǎo)。更通俗一些,端到端技術(shù)即針對需要多階段的或多步解決的問題,模型可以堆在一起優(yōu)化。因此它也被認(rèn)為是未來智能語音的主流技術(shù)框架。
思想很簡單,但簡潔背后總逃不過“字越少,事越大”定律。該技術(shù)思想原本在翻譯任務(wù)中發(fā)揮重要作用,而將端到端技術(shù)運(yùn)用語音方面的研究也是一個(gè)個(gè)頂尖團(tuán)隊(duì)嘗試的方向,然而其效果始終沒有敵過非端到端技術(shù)。
構(gòu)建端到端智能語音系統(tǒng),熊世富花了整整兩年半的時(shí)間。
“確實(shí)啃下了不少硬骨頭,尤其是項(xiàng)目后半段在區(qū)分性訓(xùn)練技術(shù)上,明明已經(jīng)在大數(shù)據(jù)上驗(yàn)證了,但仍然無法達(dá)到想要的效果”。為了突破這項(xiàng)技術(shù),熊世富就花了整整三個(gè)月時(shí)間攻關(guān)。
沒有結(jié)果的時(shí)候,自我質(zhì)疑是常態(tài)。“其實(shí)這三個(gè)月有一個(gè)半月是無用功。從科研的角度來看,做任何事情都可能面臨失敗,十個(gè)項(xiàng)目能夠成功兩個(gè)已經(jīng)是非常了不起的成績了,我們要接受做的大部分事情都可能是失敗的結(jié)局。”
“可是從前期的實(shí)驗(yàn)結(jié)果和我過多年做語音識別的經(jīng)驗(yàn)來看,我相信端到端語音識別技術(shù)一定是有前景的,可能真的會比上一代更好。”熊世富一邊沉淀數(shù)據(jù)、一邊迭代算法的系統(tǒng),繼續(xù)尋找問題所在。
2018年,科大訊飛端到端技術(shù)初露鋒芒,就在國際口語機(jī)器翻譯評測比賽(International Workshop on Spoken Language Translation,簡稱IWSLT)中,以在英德方向語音翻譯任務(wù)上端到端模型(End-to-End Model)顯著優(yōu)勢,獲得世界第一。
如果說 2010年深度學(xué)習(xí)的引入,是語音識別領(lǐng)域上一次 顛覆性創(chuàng)新,那么新一代端到端語音識別的研究,無疑標(biāo)志著語音識別新一輪創(chuàng)新的里程碑。
新一代端到端語音識別系統(tǒng)帶來的效果提升非常顯著 —— 識別效果相比傳統(tǒng)語音識別系統(tǒng)提升了15%-30%,在特定場景下,特別是時(shí)下的應(yīng)用熱點(diǎn)端側(cè)語音識別場景上,新系統(tǒng)能實(shí)現(xiàn)效果不降,系統(tǒng)資源占用大幅下降。
同時(shí),科大訊飛也成為使用這項(xiàng)技術(shù)最廣泛的一家公司,系統(tǒng)于2019年在業(yè)界首次全網(wǎng)上線,并在訊飛輸入法、翻譯機(jī)、語音轉(zhuǎn)寫等重點(diǎn)業(yè)務(wù)上使用,并為語音識別帶來了更大的想象空間和更豐富的產(chǎn)品形態(tài),如方言免切換、多語種統(tǒng)一建模、中英隨心說等。
回憶起端到端語音識別系統(tǒng)成功的原因,熊世富認(rèn)為:“當(dāng)時(shí)業(yè)界大部分團(tuán)隊(duì)包括公司內(nèi)部也有團(tuán)隊(duì)都在做小數(shù)據(jù)的訓(xùn)練,而我認(rèn)為只能用大數(shù)據(jù),才有成功的可能性,而這后來也證明是成功的關(guān)鍵突破。另外的難點(diǎn)在于算法框架的參數(shù)調(diào)整難度非常高,而這卻是我個(gè)人的優(yōu)勢所在,在科大訊飛,我經(jīng)歷了一代代最新語音識別框架的迭代和更新,也可以說一直在接觸業(yè)界最前沿的技術(shù)。”
從研發(fā)到一項(xiàng)技術(shù)真正的落地,人們對它的要求通常是苛刻的。這一點(diǎn)從Gartner技術(shù)曲線便可以看出:一項(xiàng)新技術(shù)剛出現(xiàn)的時(shí)候是萌芽期,然后進(jìn)入期望膨脹期,然后再回落到低谷期。在低谷期,各種各樣的困難逐步找到解決方式,才能夠進(jìn)入穩(wěn)步的爬升期,再形成一個(gè)生產(chǎn)成熟期。
開發(fā)的新一代端到端語音識別系統(tǒng),是熊世富和他團(tuán)隊(duì)所做努力的第一步。“端到端語音識別技術(shù)一個(gè)難點(diǎn)在于它非常依賴數(shù)據(jù),在通用領(lǐng)域數(shù)據(jù)積累豐富,但在垂直領(lǐng)域里,會有各種面向行業(yè)的專有名詞,端到端的效果還不夠好。所以端到端系統(tǒng)現(xiàn)在面臨的是如何深入各個(gè)領(lǐng)域,去解決一個(gè)領(lǐng)域的效果問題。只有攻克這一難題,端到端模型才能真正‘走出去’。”
或許,可以將聲學(xué)模型和語言建模能力結(jié)合可以打破數(shù)據(jù)的限制,來解決垂直領(lǐng)域的一個(gè)個(gè)定制問題。“比如我想去看西虹市首富,模型非常容易直接輸出食物品種的西紅柿,想要達(dá)到精準(zhǔn)的轉(zhuǎn)化非常難。上一代深度學(xué)習(xí)只是進(jìn)行聲學(xué)建模,而目前我們在嘗試將聲學(xué)和語言解耦,雖然是聯(lián)合訓(xùn)練,但是可以達(dá)到把特定領(lǐng)域的詞語單獨(dú)拎出來替換為我們想要的語言。”
熊世富創(chuàng)新性提出的熱詞整詞建模方法,顯著的提升了熱詞識別效果,也為攻克端到端語音識別的領(lǐng)域定制問題奠定了關(guān)鍵的基礎(chǔ)。
不過,伴隨著人工智能技術(shù)門檻的降低,核心技術(shù)領(lǐng)先的窗口期也在逐步縮短。 帶領(lǐng)團(tuán)隊(duì)持續(xù)提升公司語音識別的領(lǐng)先水平,屹立于世界的前沿 是熊世富和他團(tuán)隊(duì)持續(xù)在做的努力。“壓力一直都在,不敢有絲毫松懈。 始終保持每年技術(shù)進(jìn)步30%,這是我們對技術(shù)的要求,也是科大訊飛每一位科研人員的自我要求。 ”
而隨著萬物互聯(lián)的時(shí)代到來,物理空間和現(xiàn)實(shí)空間融合共生,每一次科技的技術(shù)突破,都是為了讓人們可以使用更為貼近“自然”的方式與機(jī)器進(jìn)行溝通。“未來不管是我們和人工之智能,還是和機(jī)器人之前,都應(yīng)該是自然的交互。如智能汽車、智能家居,都能和你對話和交流,并能夠理解你所講的話,從而提供服務(wù)。“
尋找下一代人機(jī)交互的方式,則是熊 世富和團(tuán)隊(duì)的終極使命。
從面對國內(nèi)語音市場的一片空白到如今技術(shù)實(shí)力代表著全球領(lǐng)先水平,科大訊飛智能語音發(fā)展的歷程也在一定程度上代表了科大訊飛的一路走來的創(chuàng)業(yè)歷程。
可以說,在智能時(shí)代,科大訊飛就是一面中國智能 語音 的旗幟。中國語音產(chǎn)業(yè)聯(lián)盟剛剛發(fā)布的《2020-2021 中國智能語音行業(yè)白皮書》引用德勤數(shù)據(jù)顯示,作為大型智能語音科技企業(yè)的代表,科大訊飛憑借較強(qiáng)的研發(fā)優(yōu)勢,以60%的市場份額穩(wěn)居第一,競爭優(yōu)勢明顯。
而科大訊飛的理想也從讓機(jī)器開口說話到讓機(jī)器能聽會說,能理解會思考,用人工智能建設(shè)美好世界。
我們曾經(jīng)將科大訊飛比喻為一個(gè)很寬、很深的生成式神經(jīng)網(wǎng)絡(luò)。
一個(gè)典型的生成式神經(jīng)網(wǎng)絡(luò)包括了輸入層、編碼層、輸出層,對于一個(gè)AI企業(yè)而言,輸入是AI三要素:算力、數(shù)據(jù)、算法,輸出是技術(shù)和產(chǎn)品,編碼層則是企業(yè)的組織方式和技術(shù)方法論,以及企業(yè)的人才。
在《 不一樣的科大訊飛,他們把計(jì)算機(jī)視覺踢進(jìn)“世界杯” 》這篇文章中,我們了解了科大訊飛對人才的重視,以及獨(dú)特的組織方式。而在《 科大訊飛認(rèn)知智能,從場景中來,到行業(yè)中去 》這篇文章中,我們則窺探了這個(gè)無限拓寬的神經(jīng)網(wǎng)絡(luò)的秘密——如何定義并建立對不同行業(yè)的真正認(rèn)知。
這其中保證這個(gè)很寬、很深的生成式神經(jīng)網(wǎng)絡(luò)發(fā)展張力的源泉,或許可以從創(chuàng)業(yè)之初的故事來的探尋——在公司歷史上著名的“半湯會議”上,當(dāng)團(tuán)隊(duì)聚集在一起對于公司未來議論紛紛之際,最終創(chuàng)始人劉慶峰拍板,“繼續(xù)做語音,誰不樂意直接走人”,堅(jiān)定了“智能語音”的戰(zhàn)略方向。 “燃燒最亮的火把,要么率先燎原,要么最先熄滅”, 劉慶峰在當(dāng)年的年度大會上說的話至今仍被掛在科大訊飛大廈的墻上,激勵著公司在智能語音與人工智能道路上不忘初心,堅(jiān)守前行。
如今科大訊飛已經(jīng)在這個(gè)領(lǐng)域深耕了22年,這其中保證這個(gè)很寬、很深的生成式神經(jīng)網(wǎng)絡(luò)發(fā)展張力的源泉就是——源于熱愛的初心堅(jiān)守。因?yàn)闊釔郏艜?2年不斷堅(jiān)守,從未改變初心;因?yàn)橄嘈牛艜首昀浒宓实木駨脑搭^創(chuàng)新持續(xù)突破,讓人工智能多項(xiàng)核心技術(shù)世界領(lǐng)先,在國際競爭中擁有話語權(quán),或許這也是科大訊飛創(chuàng)業(yè)22年來最大的財(cái)富。而他們一路走來,在引領(lǐng)中國人工智能行業(yè)的變革中,也讓世界更加美好。
不一樣的科大訊飛,他們把計(jì)算機(jī)視覺踢進(jìn)“世界杯”
2021-11-01

科大訊飛認(rèn)知智能,從場景中來,到行業(yè)中去
2021-12-03

雷峰網(wǎng)雷峰網(wǎng) (公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見。