從“ Hey Siri ”到“ Siri ”這一小步,是蘋果語音識別的一大步
來源:三易生活
盡管只是很小的一個改變,卻意味著 Siri 將迎來更多調整。
"Hey Siri,講個笑話 ",相信許多 iPhone 用戶都嘗試過這樣與 蘋果 的智能語音助手 Siri 對話,但在未來,大家與 Siri 聊天時可能就要換一個詞了。日前有消息顯示,蘋果方面計劃將智能語音助理 Siri 的喚醒詞從 "Hey Siri" 簡化為 "Siri",這一變化預計將在 2023 年某個時候或 2024 年推出,同時蘋果正在將 Siri 整合至第三方 APP,來為用戶提供更多語境和幫助。
作為蘋果推出的智能語音助手,早在 2011 年就已亮相的 Siri,無疑是這十余年來 手機 廠商在 AI 領域探索的代表之一。別看蘋果未來僅僅只是去掉了 "Hey" 這個單詞,但這一微小變化的背后卻代表著蘋果 AI 技術的長足進步,同時也意味著蘋果在智能語音助手領域已經追上了競爭對手亞馬遜的腳步。畢竟在很長一段時間里,盡管作為智能語音助手領域的先行者,Siri 卻一直被用戶吐槽 " 有點蠢 "、" 不智能 "。
從 "Hey Siri" 到 "Siri",反映的是蘋果在語音識別技術上有了重大的突破。就像每個人都有自己的名字一樣,智能語音助手其實也需要特定的詞匯來讓它知道用戶是在喊自己。從某種程度上來說,喚醒詞同時也是智能語音助手品牌形象的一大組成部分,通過每一次激活語音助手時說出的喚醒詞,消費者關于這個品牌的記憶就在這樣日復一日的復讀中不斷被強化。
那么為什么智能語音助手一定需求一個喚醒詞呢?這是因為智能語音助手如今還不可能 24 小時時刻保持在線狀態,需要保證只有在用戶需要時才進入工作狀態,其他時間則保持休眠。相比于按專屬按鍵喚醒、點擊圖標喚醒這類觸摸喚醒機制,使用特定的喚醒詞來激活智能語音助手,也更契合這一產品的特質。
語音喚醒被稱之為 keyword spotting(下文簡稱為 KWS),即在連續語流中實時檢測出說話人的特定片段,而這個特定片段就是喚醒詞。通常來說,如果不是手動禁用語音助手,后者作為系統級服務會長時間駐留在后臺,然而智能語音助手作為一個需要大量 AI 算力支撐的功能,在工作狀態下需要不低的性能開銷,同時也會相應的提升功耗。
面對這一問題,開發者想出的辦法是通過專用于語音喚醒的低功耗協處理器來實時監聽麥克風,一旦監聽到類似 "Hey Siri"、" 小愛同學 "、"Hey Google" 這類關鍵喚醒詞時,就會將語音助手從休眠狀態轉換到工作狀態。這個策略的好處除了降低對設備的續航壓力外,也會避免一直處于工作狀態的語音助手,處理并不是發送給自己的音頻信息。
其實語音喚醒的難點,主要就是低功耗與用戶臨時需求之間的矛盾,一個既能有效喚醒語音助手,又不至于讓系統誤判的喚醒詞也是整個 KWS 機制的核心。大家想必已經發現,目前國內市場的智能語音助手喚醒詞往往是 4 個字,比如 " 天貓精靈 "、" 小愛同學 "、" 小度小度 "。這是由于漢語發音與音節的關系,大家可以簡單的把字數理解為音節。
為什么喚醒詞普遍是 4 音節,而不是中國人更習慣的 3 音節或 2 音節?這是因為音節越短,誤喚醒的問題就會越嚴重,可如果音節再長,就從短語變成了句子,會降低用戶的交流體驗。同理,"Hey" 作為一個英文語氣詞,就像在中文語境中使用 " 你好 " 一樣,是為了增加喚醒詞的音節,讓系統能更準確的判斷監聽到的聲音到底是對誰說的。
反過來說,省略掉 "Hey" 就意味著蘋果的 KWS 技術有了巨大的進步,已經能夠實現只需要一個單詞即可判斷用戶意圖的水平。之所以能夠實現這一效果,技術原理其實并不復雜,蘋果方面大概率是利用聲紋識別技術實現定向人聲分離,再通過卷積神經網絡搭配聲紋識別編碼器,在復雜的聲學環境下準確捕捉到目標用戶的聲音。
到目前為止,谷歌相關設備依然需要通過 "OK Google" 與 "Hey Google" 來喚醒 Google Assistant,其中一個很重要的原因,就是 "Google" 一詞本身由于谷歌已經深入到了用戶的日常生活中,所以并不算冷門,只有這個詞作為喚醒 Google Assistant 的 " 鑰匙 ",會不可避免的導致頻繁誤喚醒。作為對比,Siri 這個被生造出來的詞匯適用范圍就很窄了,iPhone 只需監聽到契合 "Siri" 發音的聲紋,即可判斷用戶有使用智能語音助手的需求。
并且值得一提的是,據悉蘋果還計劃允許 Siri 與第三方應用結合,而這對于 Siri 的易用性將有著極大的促進作用。要知道,此前曾有前 Siri 團隊的成員表示,領導力的缺乏和管理層的不斷變化拖累了 Siri 前進的腳步,其中最關鍵的原因,就是蘋果方面一直以來堅持的封閉模式并沒有對 Siri 破例,也未能讓第三方開發者有更多機會創造更多有用的 Siri 應用。
在 Siri 還沒有被登錄 iPhone 或被收購前,其創始團隊的預想其實是希望能夠擁有一個第三方的開發生態,而這一點也被后來的一眾智能語音助手陸續實現。比如說,最初 Siri 被希望實現的預約餐飲功能,是包含著日期、地點、菜品等多方位要素,而非簡單地搜索一個餐廳的訂餐電話。
未來 Siri 能夠接入第三方應用,也就意味著蘋果的智能語音助手可以借助第三方的力量,來為自己賦予更多的功能、完成更多的任務。如果這一消息屬實,也就意味著在被忽視了多年后,Siri 或許將要雄起了。