知識圖譜工程師:為人工智能“塑造大腦”

獲取數據、清洗數據、挖掘數據、存儲數據、更新數據并最后應用數據,是 知識圖譜 工程師 張凱每天的工作內容,用他自己的話說,他是在給 人工智能 “塑造大腦”。
2017年碩士畢業后,張凱通過校招進入深圳狗尾草智能科技有限公司人工智能研究院,成為狗尾草知識圖譜團隊中的一員。“2017年以前,公司的人工智能研發崗位統稱為語義工程師,在我入職的那一年,隨著團隊規模的擴大,以及戰略研發投入的加大,公司對人工智能崗位開始細分,設立了知識圖譜工程師、自然語言處理工程師、 深度學習 工程師等崗位。”
近幾年,人工智能研究形成了一個場,匯集了屬于人工智能工程師們的信仰、夢想與狂熱。2017年,人工智能一詞首次被寫入政府工作報告。作為人工智能的一個分支,知識圖譜也成為近兩年火熱起來的新賽道。
“深度學習在處理感知、識別和判斷等方面表現突出,能幫助構建聰明的AI,但在模擬人的思考過程、處理常識知識和推理,以及理解人的語言方面仍然舉步維艱。這是催生知識圖譜技術及與其相對應的工程師的重要原因之一。”張凱在接受經濟觀察報記者采訪時說。
“人工智能技術在行業應用里落地時,往往需要結合每個行業已有的領域知識。負責開發知識圖譜技術系統的工程師便隨著人工智能行業應用增多應運而生。“達觀數據創始人陳運文告訴經濟觀察報記者。
技術迭代中的新工程師們
“我剛讀研的時候是在海量數據研究所,快畢業的時候才成立了數據科學與工程學院。”張凱介紹說,他的母校華東師范屬于最早開設人工智能相關專業的高校之一。
從事人工智能相關職業的人或許都注意到,2017年前后,全國各大高校開始設立與人工智能相關的大類專業,培養專業人才。2017年7月,中國政府網發布國務院通知公布了《新一代人工智能發展規劃》,規劃文件指出,我國經濟發展進入新常態,深化供給側結構性改革任務非常艱巨,必須加快人工智能深度應用,培育壯大人工智能產業,為我國經濟發展注入新動能。
2018年6月,在杭州舉行的新聞發布會上,教育部公布了各大高校開設人工智能專業的階段性成果:截至2017年12月,全國共有71所高校圍繞人工智能領域設置86個二級學科或交叉學科。
同年,教育部發布了《高等學校人工智能創新行動計劃》,意在彌補人工智能技術發展和應用落地過程中的人才短缺問題,加強人才培養。《計劃》強調,要加強人工智能領域專業建設,形成“人工智能+X”復合專業培養新模式。計劃的重點任務之一是要完善人工智能領域人才培養體系,并且推動高校人工智能領域科技成果轉化與示范應用。
在人工智能行業中,知識圖譜工程師屬于新興職業,這一點從陳運文的描述中便可得知:“早先出去談客戶,客戶都問有哪些AI技術可以用,而現在客戶會直接說:需要一套管理XX的知識圖譜系統。”
2015年,達觀數據設立知識圖譜工程師崗位,負責開發面向垂直行業應用的知識圖譜,并結合達觀的文本智能處理系統,將AI技術應用于金融、制造、電信、政府等行業。
在狗尾草智能科技的張凱工程師看來,知識圖譜工程師們擁有與軟件開發工程師們相同的標簽:高學歷、高薪、男性、加班、壓力。
差別在于對知識面、專業知識的要求不同。“知識圖譜不是單一技術,而是一個龐大的技術棧,涉及包括數據庫、自然語言處理(NLP)、機器學習(ML)、前端應用等多個領域知識,因而知識圖譜工程師不僅要對知識圖譜技術中的某一項專精,還要有整體的架構能力。許多知識圖譜工程師是從傳統領域轉型而來,并與多個其他領域交叉協同。”張凱說。
雖說從事的是自己感興趣的職業,但OKR指標與技術迭代周期快速的特點仍讓張凱感覺到壓力。為緩解壓力,每天固定兩小時的充電是必備的,從讀研期間,他養成的每天讀文獻與了解行業新動態的習慣一直保留。“我們這個職業,自我學習非常重要,要及時更新知識庫。”
“整個IT行業的變化非常快,技術迭代之快讓人有時反應不過來。”張凱對經濟觀察報記者說,要適應快速的技術迭代,就要不斷的深度學習,不斷提升自己,適應轉型。
讓機器具備認知能力
知識圖譜是什么?可能你說不出知識圖譜的具體定義,但其實你每天都在使用它,當你在使用百度搜索時,搜索結果右側的聯想,就來自知識圖譜技術的應用。知識圖譜是將互聯網所有的知識積累起來,將“信息”搜集上升成為了“知識”積累,歸根結底,知識圖譜的意義在于在盤根錯節的數據海洋中進行梳理和串聯,讓以前模糊的世界變得更加清晰。
知識圖譜的概念最先由谷歌于2012年正式提出,主要用來支撐下一代搜索和在線廣告業務。2013年以后,知識圖譜開始在學術界和業界普及,并在搜索、智能問答、情報分析、金融等領域應用中發揮重要作用。
多位致力于人工智能行業研究的領軍人物曾一直認為:知識圖譜對于人工智能的價值,就在于讓機器具備了認知能力。
“知識圖譜工程師們的工作可以比喻成為人工智能‘塑造大腦’。”張凱說,由于缺乏諸如知識圖譜此類常識知識庫,各類工具理解大數據的手段有限,限制了基于大數據的精準分析,大大降低了大數據的潛在價值。盡管越來越多的行業或者企業積累了規模可觀的數據,但這些數據并未能創造價值。知識圖譜工程師們則通過數據操作,塑造了一個人工智能的大腦,為機器處理各種通用型任務提供了可能。
狗尾草旗下有一款AI虛擬生命產品“琥珀·虛顏”,與傳統聊天機器人不同的是,她能夠與人類進行語音和視覺的交流,擁有自己的生活狀態和小情緒,具備情感交互能力。而這款虛擬生命產品的大腦就是由張凱和他所在的知識圖譜團隊塑造的。
根據中國電子學會統計,2018年全年,全球人工智能核心產業市場規模超過555.7億美元,相較于2017年同比增長50.2%。目前中國人工智能行業的企業總數達到670家,占全球的11.2%。
“知識圖譜是未來人工智能實現從感知到認知跨越的重要基石之一。隨著數據紅利的消失,以大數據和深度學習為基礎的感知智能會遭遇天花板。而認知智能很有可能借助大規模知識圖譜技術取得進一步突破。”深圳狗尾草智能科技有限公司技術總監、人工智能研究院院長邵浩說。
本文已標注來源和出處,版權歸原作者所有,如有侵權,請聯系我們。