智能家居的突圍:什么樣的NLP數(shù)據(jù)讓語音交互更智慧
近幾年,得益于物聯(lián)網(wǎng)、人工智能、5G等新型技術的飛速發(fā)展,智能家居在短短數(shù)年間就已經(jīng)相繼渡過了“自動化”、單品智能化”、“物聯(lián)網(wǎng)+家居場景”三個階段,進入了當前的“人工智能+家居場景”的“智能”階段,開啟了智能家居對人的思維和意識的學習與探索。
一方面,AI技術與家居生活應用的進一步結合,更催化了眾多行業(yè)標桿企業(yè)的飛速發(fā)展,諸如小米、百度等公司;另一方面,從嚴格意義上智能家居產(chǎn)品分類涵蓋了 家電 、娛樂、能源供暖、廚房用品、安全健康等,中國作為全球智能家居市場的發(fā)展重心,人們對于生活品質與家居產(chǎn)品體驗的追求也將不斷增加。由于智能家居多以房屋、住宅、社區(qū)為載體,應用場景相對更具集中性和確定性。例如小愛音箱一類的智能音箱產(chǎn)品,用戶可以與之進行多輪對話,同時可以對其發(fā)出語音指令控制,從而實現(xiàn)點歌、查天氣等操作。
某智能家居企業(yè) 營銷 策略總監(jiān)表示,語音是最自然的人機接口,它可執(zhí)行觸控及手勢做不到的免持操作,因此成為控制智能家居裝置的理想方式。除此之外,與繁忙的辦公室或嘈雜的街道相比,家庭是一個相當私人、安靜而封閉的場所,因而也較適合語音控制的使用環(huán)境,因此在家庭中采用語音控制可以說是順理成章。
這不得不提智能音箱背后的支撐——NLP(自然語言處理)技術。作為人工智能的一個分支,狹義的NLP(自然語言處理)是至使用計算機來完成以自然語言為載體的非結構化信息為對象的各類信息處理任務,比如文本的理解、分類、摘要、信息抽取、知識問答、生成等的技術。簡單來說NLP實際上就是人類語言和機器語言之間順暢溝通的橋梁。
場景化AI數(shù)據(jù)成NLP技術落地核心需求
應用于智能家居場景的NLP技術的兩大關鍵分別是算法和數(shù)據(jù),算法往往是公開的,差異化更多地來自于場景化的高質量訓練數(shù)據(jù),AI大牛沈向洋在演講中也強調:“在任何時候,構建AI都離不開數(shù)據(jù),如何設計和構建負責任的AI,數(shù)據(jù)的來源至關重要”,可見AI訓練數(shù)據(jù)對技術落地的重要性。
事實上,越來越多的智能家居企業(yè)已經(jīng)意識到了高質量NLP數(shù)據(jù)的重要性,并對AI技術和NLP數(shù)據(jù)提出了更高的要求。云測數(shù)據(jù)總經(jīng)理賈宇航在接受采訪時曾表示“圖像采標有很強的規(guī)則性,按照規(guī)范化的指導文檔工作即可,但NLP數(shù)據(jù)對應的是語言的豐富性,需要結合上下文等背景去理解和處理。”在高位提升這件事上,NLP數(shù)據(jù)更難。
尤其是智能家居頭部企業(yè),為了保持自身的競爭優(yōu)勢,就必須追求更高質量的、符合業(yè)務需求的NLP數(shù)據(jù)。因此,在AI產(chǎn)業(yè)蓬勃發(fā)展、市場競爭愈發(fā)激烈的倒逼下,符合企業(yè)需求的高標準NLP數(shù)據(jù)服務已成為行業(yè)頭部企業(yè)的剛需。
以智能家居領域頭部AI數(shù)據(jù)服務商云測數(shù)據(jù)的“場景化”服務模式為例,其專精于場景化、高質量數(shù)據(jù)服務模式,正契合當下智能家居“大規(guī)模、小場景”的落地趨勢。
“大規(guī)模” 是指隨著B端和C端功能應用、渠道開拓、項目落地與場景應用逐步成熟,智能家居正步入大范圍爆發(fā)期;“小場景”是指體驗場景愈加聚焦。
具體到NLP,云測數(shù)據(jù)的數(shù)據(jù)采集核心能力包括喚醒詞采集、控制詞采集、指定語料采集、人臉采集、情緒類型采集、中英文、國內各地方言、東南亞及歐洲、非洲小語種等采集類型,支持智能音箱、智能電視、智能掃地機器人等場景數(shù)據(jù)采集;數(shù)據(jù)標注核心能力包括人物語音轉寫、行為意圖、聲紋識別、領域識別、語句泛化、語義分割等標注類型,支持智能音箱、智能電視、智能掃地機器人等場景數(shù)據(jù)標注。
目前,云測數(shù)據(jù)的人工智能數(shù)據(jù)服務團隊已經(jīng)形成了一套包含任務分配、需求分析、需求確認、數(shù)據(jù)清洗、試標確認、進度控制、質量保障等流程的完整作業(yè)體系。比如云測數(shù)據(jù)在語音、文本、圖片、視頻等類別標注上都設置了底層規(guī)則,并設有多次審核機制,再加上專業(yè)標注邏輯、思維和思考能力以及相關領域知識,從而高效輸出成一套高質、精準的智能家居數(shù)據(jù)解決方案。
以智能音箱為例。在云測數(shù)據(jù),以單個場景的意圖標注就分為10-20個大類,上百個子類,根據(jù)業(yè)務需求可能還會有進一步的標注細分。
除了對NLP數(shù)據(jù)進行對話意圖、領域、槽位等進行判斷和標注,多角度的泛化也必不可少。也就是說,無論用戶說的是地方話還是普通話,有沒有出現(xiàn)口誤,還是以不同的句子表達同一個意思,AI都能夠讀懂句子并給出正確的回答,這就要求NLP數(shù)據(jù)標注員對句子進行泛化,以不同的描述方式重組或擴充句式、標簽等,以提升AI對話的準確度。
除了業(yè)務能力的專業(yè)能力,云測數(shù)據(jù)在軟硬件設施的持續(xù)投入、數(shù)據(jù)安全隱私方面也有自己的原則和技術保障。
強者恒強,頭部更多的選擇與頭部AI數(shù)據(jù)服務商合作
在云測數(shù)據(jù)服務的眾多智能家居相關企業(yè)中,頭部企業(yè)占比達90%。這表明,在龐大的市場規(guī)模和市場需求下,與場景化、更高質量、更高準確度的AI數(shù)據(jù)服務商合作,已成為頭部智能家居企業(yè)推動應用落地的必然趨勢;
另一方面也表明,AI 商業(yè) 化對NLP數(shù)據(jù)的要求還在繼續(xù)提高,無論是在數(shù)據(jù)采集的樣本多樣性、場景多樣性方面,還是在數(shù)據(jù)標注的數(shù)據(jù)精度、領域知識方面,數(shù)據(jù)服務商都面臨不斷升級的業(yè)務難度。所以形成了企業(yè)和高質量的數(shù)據(jù)服務業(yè)務粘性來往很高。以云測數(shù)據(jù)為例,一個項目在建立合作之后,往往會帶來長達2-3年的持續(xù)合作,這就產(chǎn)生了馬太效應,強者恒強。
如今,智能家居產(chǎn)業(yè)在政策紅利和藍海市場的雙重利好中迎來快速發(fā)展。咨詢公司A T Kearney的一項預測顯示,到2022年,亞洲的智能家居市場將增長到260億美元,到2030年將增長到1150億美元,占全球市場的30%以上。中國將成為亞洲增長的關鍵。而就智能家居現(xiàn)階段而言,“人工智能+家居場景”的智能化階段將呈現(xiàn)持續(xù)且長期的發(fā)展后勁。AI數(shù)據(jù)助力下,智能家居行業(yè)必定迎來強勁的增長,迸發(fā)出絢麗的火花。