加速人工智能產業化落地 搜狗語音技術實力開始爆發
作為記者最害怕的事情并不是沒有選題或者沒有好的故事,也不是薪水太少或者工作太辛苦,而是整理錄音,它幾乎是每一個記者的噩夢之一。每一句都要反反復復去聽,去用人肉的方法轉成文字。在一些大的媒體機構可能會有專門的團隊去整理錄音,而像創見這樣的小機構,那么之后自己去整理。一個約有 2 個小時的采訪錄音,整理錄音的時間可能就得畫上兩三倍,甚至比寫報道的時間還要長。
我想很多文字工作者也有這樣的痛苦,幾個小時的會議錄音整理起來也是要人命的。實際上,語音記錄,是記者、編輯、作家等文字工作者們常用的記錄方式。但是,對于記錄者來說,語音并不方便后期的整理、分享和追溯,這也導致聽語音記錄的過程耗時耗力,影響信息的溝通。
后來國內也出現了語音轉文字的付費服務,從某種意義上大大減輕了負擔,但對于這部分收入不高的群體來說也是一個不小的負擔,不過近日,搜狗公司正式推出語音實時變文字的速記工具「搜狗聽寫」,解決會議、采訪、寫作等場景下長語音內容轉寫難題,而這一服務是全免費的。
實現復雜場景下的精準轉寫
創見記者一開始就參與了搜狗聽寫產品的內部測試,逐漸地就成為我工作中必備的一款產品,也見證了搜狗對這款產品細細打磨,不斷改進的過程,及時轉寫的準確度也越來越高,不管是在嘈雜的會場還是一對一的靜距離專訪都能夠很好地表現。
據搜狗方面介紹,為了保證在各種復雜場景下都能精準轉寫,搜狗聽寫采用了大量的前沿技術。在轉寫方面, 搜狗聽寫使用了搜狗知音獨家研發的長時語音轉寫技術,并與業內領先的端到端深度神經網絡技術深度整合,使得語音識別準確率保持在較高水平。
經過近幾個月的使用,記者發現搜狗聽寫的功能相當強大,可以支持寫文章、采訪錄音、會議記錄、筆記整理 、日常記事等場景,幫助用戶實現高效記錄和信息輸入。而且針對不同場景和需求,搜狗聽寫可以支持「聽寫」和「轉寫」兩種模式。
在「聽寫」模式下,錄音的同時即可實時給出識別結果,話音落文字出,幾乎沒有時間差;而「轉寫」模式下則可以離線錄音,錄音完成后一次性獲取文字結果。同時,為了提高文字整理效率, 搜狗聽寫還貼心的加入了邊聽邊改、無線標重點、多端同步、信息分享等人性化功能,大幅度提升記錄效率,讓文字編輯更輕松。
此外,在針對圖書館、咖啡廳等不便于大聲說話而又有使用語音的場景,搜狗聽寫提供耳語識別技術,在人的說話音量低至 30 分貝時,依然可以準確識別。
搜狗聽寫可以說是一款相當實用的產品,但如果只是面對文字工作者這個人群的話可能會有點太窄,那么搜狗公司為什么要花大力氣做這樣一款看起來有些「小眾」的產品呢。

搜狗語音交互技術中心總經理王硯峰在接受創見記者采訪時表示搜狗的產品觀是要幫用戶解決問題。在互聯網的產品的競爭中,產品需要有不可替代性,要考慮怎么幫助用戶解決痛點,怎么把你的產品和用戶的痛點結合起來,哪怕是在垂直市場上形成殺手锏級的應用,也會比你做一個很廣泛的產品,說這個產品有五項功能,但你說不出每項功能在這個市場上有怎樣的勢能要成功地多。作為一個產品,一定要找到殺手锏是什么,然后在這個點上取得單點突破。哪怕你的用戶群體不是那么大,但如果我能夠給這個用戶群體帶來足夠大的價值,就是一個好的產品。
同時王硯峰也否認了記者聽寫是「小眾產品」的觀點,實際上所有的用戶都可以使用這個產品來記錄自己生活的方方面面。比如,語音分享的功能、記事的功能、管理的功能,其實就是語音版的有道云筆記,以及語音版的錘子便簽。
簡單的聽寫 雄厚的實力
實際上,在搜狗公司的拳頭產品搜狗輸入法當中,語音輸入的能力就已經被眾多用戶頻繁使用,而搜狗聽寫這款產品則無疑是把「語音輸入」這個功能在更高的難度和更復雜的場景下更好地表現了出來,它看起來簡單,但這并不是隨便一個公司都能做出來的產品,它需要公司有很強的技術實力。
王硯峰對創見記者表示,現在語音識別走到今天,未來我們要解決的問題,一是怎么樣解決遠場的問題。人與人之間的遠距離喊話,大家可以聽得很清楚,但機器的遠距離識別是不好的。二是在噪聲的情況下,我們三個人在一起說話,其中一個人對另一個人說話,大家知道他是對我說的,我旁邊有人在說話的時候,他也能夠區分聲音,把自己想知道的聲音提取出來,機器是達不到的。未來我們希望可以在這個方面取得突破。在這個時候,我們就真的可以說語音識別的能力是可以達到人類的水平的。

搜狗公司作為國內 AI 能力最強的互聯網公司之一,搜狗已經建立了強大的語音自研團隊,擁有目前互聯網規模最大的語音數據。大約在一年以前的這個時候,搜狗推出了搜狗知音引擎,提出了自然交互+知識計算的戰略布局,在雄厚的語音技術實力下,搜狗公司在這方面的表現也越來越突出,在過去的一年搜狗公司推出了眾多語音識別技術來服務更多的用戶。2015 年 5 月份,每年會有 5500 萬的語音 DAU。2016 年 1 月份,增長到 1.25 億。現在已經達到了 2.6 億的規模。
王硯峰表示搜狗聽寫作為一款多場景的語音聽寫工具,其產品的關鍵在于語音識別準確率,而通過大規模的優質語音訓練數據和深度學習的技術能力積累,搜狗也將這種語音識別的技術優勢轉化到了更多的適用場景中。基于每天超過 2.6 億次的語音請求為搜狗智能語音系統提供了海量的真實語料數據,使得機器不斷學習,識別準確率越來越高,可應用的場景也越來越廣泛。
此次推出搜狗聽寫產品,是搜狗語音深入用戶垂直場景下的又一個全新探索,通過更加專注于特定的場景和人群,去理解用戶需求、解決實際問題,從而讓語音技術為更多人所用。綜合搜狗在人工智能上的產品布局,我們可以清晰的發現,讓人工智能更「接地氣」,已經成為搜狗在人工智能領域的獨特標志。
搜狗語音產品開始爆發
王硯峰表示,未來語音產品的進一步落地將會成為搜狗未來的工作重點。搜狗很早就開始做語音識別,很早就做 NRP 和搜索,通過雄厚的語音技術儲備,在去年語音產品開始爆發的情況下開始對外輸出,并且也開始逐步進行產品落地。從去年開始到今年,已經有些產品使用搜狗的 AI 能力。未來,會有更多的產品獲得 AI 技術結合的能力。
比如在可穿戴產品,在兒童產品領域,以及現在炒得非常火的智能家居、后裝領域的車載產品,自主研發更多的硬件中 AI 就有很大的表現和變現機會,搜狗也開始進行布局。
王硯峰透露從今年年底開始,搜狗會推出更多自主研發的硬件產品,同時,搜狗會積極推廣 AI 云平臺、AI 云服務,服務更多的行業伙伴。在更多的垂直產品場景下,做更多好的產品,服務垂直行業的用戶群體。

利用對話技術,搜狗上個月發布了一款產品「智能副駕」,它主打的模式就是通過多輪對話、地圖知識和對話能力的結合,把它變成更好的對話引擎,讓機器更自然的跟人交流、更自然的幫你完成導航。通過對話技術和車內知識的整合,就可以告訴用戶更加復雜的發生在車內的語音交流,比如去清華大學的哪個門,你去清華大學的逸夫樓,還是主樓,是走三環還是四環。怎么把更多的結構化信息用到對話技術當中,幫用戶進行對話的引導。搜狗表示會把這個產品更多的推向后裝的方案商到前裝的車廠,跟用戶的實際駕駛感受結合起來。

搜狗在去年年底推出了一款答提機器人「汪仔」,它跟最頂尖的人類選手進行知識益智類的問答 PK,這個在江蘇衛視的《一站到底》當中表現地非常耀眼。IBM 的沃森是基于封閉的知識庫進行搜索,搜狗的「汪仔」就是面向搜索引擎,實時的抓取海量信息,根據問題的上下文,通過文本的分析、自然語言處理的能力,把用戶想要的答案提取出來。目前搜狗搜索已經有這樣的功能,你在搜索引擎、搜索 APP 上問很多問題,有些問題是能夠以直接答案的形式呈現出來的。搜狗希望未來給出答案的比例越來越高,現在是百分之幾,未來能到百分之十幾、百分之二十、百分之三十。
另外,搜狗也表示從去年開始搜狗進行了 AI 技術的輸出,與小米、魅族、創維、海爾等硬件廠商進行合作。
王硯峰在采訪中表示,去年的這個時候搜狗提出,如果把語音放在智能硬件的場景里可以做出更好的產品,但很少有只能硬件廠家有同樣的觀點。但從去年年底到今年上半年,這個觀點已經成為大家的共識。