百度繼續(xù)力推人工智能,對外輸出語音技術(shù)
早在9月份的百度大會上,李彥宏就曾經(jīng)表示,“語音和圖像正在取代文字成為表達(dá)需求的主流方式”,百度大腦也成為了大會上的絕對主角。之后,不管是模仿張國榮唱歌,還是高調(diào)的公關(guān)無人駕駛汽車,都能看出百度將重拾曾經(jīng)輝煌的賭注,壓在了人工智能上,尤其是在烏鎮(zhèn),李彥宏還發(fā)出了“移動互聯(lián)網(wǎng)的時代已經(jīng)結(jié)束了”的言談。
百度昨日(22日)還舉行了語音開放平臺三周年活動,并在大會現(xiàn)場開放了四項全新語音技術(shù)的接口——情感合成、遠(yuǎn)場方案、喚醒二期技術(shù)和長語音方案,而且這些技術(shù)將會免費開放給用戶和開發(fā)者共享。百度首席科學(xué)家吳恩達(dá)對此表示,
“這些技術(shù)有很大的潛力,去徹底改變?nèi)藱C(jī)交互的效率和辦法。未來語音技術(shù)在很多應(yīng)用場景有很好的機(jī)會,將為人機(jī)交互帶來巨大的改變。”
而這次四項全新語音技術(shù)的開放,也能看出在使用場景上,百度所作出一些探索,比如在語音技術(shù)上的情感和成,既是將機(jī)械、古板的生硬轉(zhuǎn)換成具有情感的聲音,意在提升用戶主管體驗;遠(yuǎn)場方案,使語音距離為3-5米的遠(yuǎn)場的情況下,識別率能夠達(dá)到93-94%,意在聲控智能設(shè)備的使用場景;至于長語音方案,比較明顯的則是在速記等文字工作者的領(lǐng)域做試探。
吳恩達(dá)接受鈦媒體的專訪時表示:“人工智能現(xiàn)在的技術(shù),有一些領(lǐng)域還在研究階段,還需要一兩年才能取得進(jìn)步,而語音技術(shù)在很多方面已經(jīng)很成熟。”
從百度方面公開的資料可知,百度語音識別準(zhǔn)確率達(dá)到了97%,而在百度語音的開發(fā)平臺上,現(xiàn)在已經(jīng)有超過14萬的開發(fā)者共同。而對于人工智能的未來,吳恩達(dá)表示,
“現(xiàn)在人工智能已經(jīng)為很多公司,包括百度帶來了非常大的價值,而且我們已經(jīng)看到了一條比較清楚的路,使用人工智能改變很多不同的行業(yè)。”
僅僅是語音識別技術(shù),便有很多的使用場景,有很多的機(jī)會能夠看清楚了。這些機(jī)會百度沒有能力自己全部探索,所以要提供給第三方公司或者開發(fā)者使用百度的語音技術(shù)。
作為人工智能最為重要的交互技術(shù),我們能看到越來越多的巨頭都在語音識別的領(lǐng)域,投入了很多的資源。今年8月初,微軟在北京發(fā)布的第四代小冰產(chǎn)品,除了在功能上進(jìn)行了一定的升級,還讓小冰有了更多的“社會角色”。
比如升級了情感計算框架,讓小冰在與人的對話中更占主動;比如在日本“出道”,發(fā)布首支原創(chuàng)單曲;比如開發(fā)“卡槽”技能,讓小冰在更多垂直領(lǐng)域中,有更專業(yè)的表現(xiàn)。
曾經(jīng)一直克制小冰商業(yè)化的微軟團(tuán)隊,卻在今年將自家的語音技術(shù)在各種各樣的領(lǐng)域中,進(jìn)行了嘗試。而微軟全球執(zhí)行副總裁陸奇的一番話,也許能夠從一方面解釋微軟在語音交互上的思考,
微軟在過去二十多年積累的,在人工智能、搜索引擎和大數(shù)據(jù)方面的技術(shù)儲備,也都放在小冰身上。在微軟的理念中,對話不僅是一個基礎(chǔ),對話更是一個核心平臺,作為一個核心基礎(chǔ)可以把人工智能時代引入到現(xiàn)實世界。
而在今年的3月,谷歌在Nest云計算大會上,也宣布開發(fā)了其語音識別的API,即谷歌語音搜索和語音輸入的技術(shù)支持。Google Cloud SPeech API 這一應(yīng)用包括了80多種語言,適用于各種實時語音識別與翻譯應(yīng)用。
還有依靠蘋果手機(jī),擁有了千萬級別忠實用戶的SIRI;從2011年就開始收購語音公司Yap的亞馬遜,在2014年推出的Echo;以及那無數(shù)的創(chuàng)業(yè)公司,奮力尋找突破點,想要進(jìn)行行業(yè)的顛覆。
也許正如吳恩達(dá)所講,人工智能領(lǐng)域的道路越來越清晰,更使得各方企業(yè)愿意在這個領(lǐng)域上進(jìn)行一搏。而作為技術(shù)相對比較成熟的語音識別,又是人工智能天然的入口,自然競爭也就難免這么激烈。(本文首發(fā)鈦媒體,張霖/文)
以下為吳恩達(dá)在大會現(xiàn)場的演講,略經(jīng)鈦媒體編輯:
大家好,非常高興大家今天來參加我們的語音開放平臺3周年發(fā)布會。
我是百度大腦的負(fù)責(zé)人吳恩達(dá),百度大腦的項目中一部分非常重要的工作,就是把最領(lǐng)先的技術(shù)輸出給大家使用。在我們的百度大腦開放平臺(ai.baidu.com)上,我們不僅輸出人工智能技術(shù),也放了很多有關(guān)人工智能技術(shù)的培訓(xùn)資料。
百度大腦到底是什么呢?最核心的幾個技術(shù)部分為:語音、圖像、自然語言處理、用戶畫像、機(jī)器學(xué)習(xí)平臺。
我發(fā)現(xiàn)很多人使用百度的語音技術(shù)有兩大原因,第一個原因,我們有非常領(lǐng)先的技術(shù)為他們的用戶提供更好的體驗;第二個原因,我個人做了好幾十年有關(guān)人工智能的項目,通常發(fā)現(xiàn)當(dāng)你開始做一個項目的時候,有時候只是需要語音技術(shù),做了幾個月以后,你發(fā)現(xiàn)還需要圖像技術(shù)或者自然語言處理技術(shù)等等,如果你是使用百度的技術(shù)可以比較容易的選擇你真正需要的技術(shù)部分把它放進(jìn)來,把它融合,為你做到最好的效果。
比如說你想做一個智能客戶,你開始的時候只是覺得只需要語音識別、語音合成,但是做了幾個月以后,發(fā)現(xiàn)你需要最領(lǐng)先的自然語言處理技術(shù)。如果你是使用百度的平臺,希望你比較容易拿到這些技術(shù)放到你自己的產(chǎn)品中。
我個人對人工智能的未來充滿信心,我希望未來我們會有陪伴機(jī)器人、個性化私教、音樂作曲、機(jī)器人醫(yī)生等等。這些年人工智能技術(shù)發(fā)展的非常快,這給我們,也給你們很多新的機(jī)會,有這么多機(jī)會,在百度是沒有辦法探索這么多非常有潛力的機(jī)會,所以我們的目標(biāo)就是把我們的人工智能技術(shù)輸出給大家,希望可以支持你們在非常有潛力的項目上探索,而且支持你在這些項目中獲得非常好的結(jié)果。
今天的主題就是語音技術(shù)。大家可能已經(jīng)知道,在很多最重要的百度產(chǎn)品中,我們已經(jīng)支持語音輸入,包括手機(jī)百度、百度地圖、百度輸入法,如果你還沒有試過百度輸入法,我希望你試一試,當(dāng)我輸入什么信息時我喜歡用百度輸入法,它支持語音輸入,還有度秘,最近我們發(fā)現(xiàn)把度秘放進(jìn)各類的硬件,比如小度機(jī)器人放到KFC,這個度秘系統(tǒng)可以為客戶點餐,我發(fā)現(xiàn)把度秘和機(jī)器人融合,也可以讓各種用戶有新的體驗。
這幾年來,我們的團(tuán)隊是不斷的優(yōu)化語音識別系統(tǒng),在2012年開始使用DNN模型,后來有比較好的特征,之后開使用Sequence Discriminative Training,也開始使用LSTM模型,加上CTC,今年我們的團(tuán)隊開發(fā)了Deep CNN模型,效果在不斷進(jìn)步,這就是我們的語音識別系統(tǒng)。 我們的語音合成模型也變得越來越好,這幾年來我們在好幾個技術(shù)方面有比較大的突破,我們的語音合成效果也是變得越來越好。
現(xiàn)在在中國語音合成的能力是遠(yuǎn)遠(yuǎn)超過其他公司的,今天下午我們的語音團(tuán)隊負(fù)責(zé)人也會和大家分享更多細(xì)節(jié)。 因為我們的語音技術(shù)和自然語言處理技術(shù)和我們的人機(jī)交互技術(shù)進(jìn)步的這么快,2016年MIT科技評論我們的技術(shù)是2016年十大突破性技術(shù)之一,我們覺得這些技術(shù)有很大的潛力,可以改變?nèi)藱C(jī)交互的效率和辦法。 未來語音技術(shù)在很多應(yīng)用場景有很好的機(jī)會,為人機(jī)交互帶來巨大的改變。
舉個例子,在智能家居的場景,我們希望未來你回家以后可以使用語音跟你的電視、搖控器、音箱、窗簾講話,比如說希望你未來可以向你的電燈說,“電燈請打開”,它就明白你的命令,或者對遙控器說話,它就能非常方便的滿足你的需求。
其實智能家居只是一個應(yīng)用場景,我覺得在很多應(yīng)用場景中,語音技術(shù)都可以帶來人機(jī)交互非常大的改變,這包括手機(jī)、音箱、電視等等。希望語音能讓你做更好的智能客服中心。在汽車領(lǐng)域語音也是一個非常重要的人機(jī)交互的場景,我們有很多合作伙伴正在使用我們的語音技術(shù)探索這些應(yīng)用場景。
最后,今天我們已經(jīng)知道,尤其是在手機(jī)端,我們知道語音輸入比鍵盤打字更快、更方便、更準(zhǔn)確。下一位進(jìn)行演講的是我的好朋友,也是斯坦福大學(xué)James Landay教授,他也會為大家分享有關(guān)這方面的研究,就是使用百度的語音識別系統(tǒng),如果你使用這個系統(tǒng),在手機(jī)端輸入就可以更快、更方便、更自然。 語音輸入這么方便,希望未來語音輸入會變得更普及。
大家想一想,如果你跟我想交流,最自然的辦法就是你跟我講一句話,或者我跟你講一句話,所以人和人交流最自然的辦法還是語音。這幾年來,語音和自然語言處理和度秘這種技術(shù)進(jìn)步這么快,今天很多場景,人機(jī)交互最自然的辦法已經(jīng)是語音。
人機(jī)交互不只是你跟電腦或者和設(shè)備講話,你的電腦和設(shè)備也需要告訴你它的意見,所以我們的語音技術(shù)也可以讓這些設(shè)備非常自然的告訴你它的意見。
最后,因為人工智能,尤其是語音技術(shù)這幾年發(fā)展的很快。在百度大腦已經(jīng)有好幾種不同的人工智能技術(shù),其中比較成熟的,就是我們的語音技術(shù)。所以語音技術(shù)已經(jīng)給我們,也給大家,也給你們,給你的公司,給開發(fā)者很多新的機(jī)會。
所以,我希望我們輸出語音技術(shù),希望它可以為大家提供非常好的服務(wù),也希望我們可以使用我們的技術(shù)支持你們探索這些新機(jī)會,希望你們可以使用這些技術(shù),支持你們在這些新機(jī)會中獲得非常好的成果。
謝謝大家!