百度大腦升級至5.0,發布遠場語音交互芯片“鴻鵠”
百度AI開發者大會中,百度CTO王海峰博士開場就帶來了一段機械臂倒蓋碗茶的現場演示。
這個機械臂既會茶藝絕活兒,還能說會道——它主要融合了機器人視覺、語音、自然語言處理等多種人工智能技術。此外,王海峰也宣布百度大腦升級至5.0,形成了包括基礎層、感知層、認知層、平臺層和AI安全五大部分的核心架構。
“百度大腦”這個名詞最初是在2014年從李彥宏口中說出的,他當時對外透露說:“百度大腦大約已經相當于2~3歲孩子的智力水平。”2016年的百度世界大會上,百度首次向外界全面展示了組成“百度大腦1.0”的全貌。
如今,“百度大腦” 進入5.0階段,成為軟硬件一體的AI大生產平臺,核心算法再獲重大突破,首次公布端到端AI計算架構,并實現了AI計算、計算架構與應用場景的創新融合。
●?語音識別速度大幅提升,準確率提15%-20%
百度語音技術部高級總監高亮,在開發者大會現場說了一段Rap:Hello Everyone,中英混合說是我們的everyday work,Explore技術的depth和scope是我們的responsibility……這段中英夾雜的話被百度輸入法流暢、精準、及時地識別出來。
這背后是百度大腦流式多級的截斷注意力模型(SMLTA),它能讓語音識別速度大幅提升,準確率提15%-20%,是首個基于流式注意力的語音識別線上服務。
● 基于語音、視覺技術,自動合成虛擬形象
浦發銀行的數字人是怎么“煉”成的?它實際上是結合語音和視覺技術,機器自動合成的虛擬形象。
王海峰介紹,實時合成虛擬形象技術,首先需要對語音信號和視頻信號進行實時識別與理解,再通過唇動生成,以及語音、面部和肢體的合成,實時合成一個虛擬形象。這波操作背后,是百度大腦多項AI技術能力的體現。
● 視頻語義理解技術實現精準解析
王海峰展示了關于中國民間藝術的音樂紀錄片《大河唱》中的片段,影片中的角色、人物關系、音樂種類、取景地、影片主題等信息,都被精準解析。這背后是基于知識圖譜的視頻語義理解技術。
●?推出知識增強的語義理解框架ERNIE
百度大腦語音、視覺、語言和知識等核心算法法再度重磅升級,發布6大技術突破。
包括業界領先的流式多級的截斷注意力模型(SMLTA)和風格遷移的語音合成技術;知識增強的語義理解框架ERNIE和基于知識圖譜的視頻語義理解技術;業界首創的高準確、低時延的機器同傳技術。
值得關注的是,在語言方面,百度大腦推出知識增強的語義理解框架——ERNIE,再次全面刷新了中文自然語言處理任務效果,超越谷歌BERT。
● 發布遠場語音交互芯片“鴻鵠”
繼去年開發者大會發布“昆侖”芯片后,今年,王海峰發布了一款新的芯片——遠場語音交互芯片“鴻鵠”。鴻鵠芯片使用了HiFi4自定義指令集,雙核DSP核心,平均功耗僅100mW。這款芯片是根據車規級標準打造,將為車載語音交互、智能家具等場景帶來巨大的便利。
●?百度飛槳與華為麒麟芯片合作
今年開發者大會最大的亮點來了。王海峰與華為消費者BG軟件總裁王成錄博士聯合宣布,百度飛槳與華為麒達成深度合作。中國人自己的深度學習平臺將運行在中國人自研的全球領先的芯片上,兩大國貨之光將充分發揮各自在軟、硬件方面的優勢,走出中國智能之路!
AD:還在為資金緊張煩惱嗎?獵云銀企貸,全面覆蓋京津冀地區主流銀行及信托、擔保公司,幫您細致梳理企業融資問題,統籌規劃融資思路,合理撬動更大杠桿。填寫只需兩分鐘,剩下交給我們!