如何在辦公室不動聲色地繞過老板視線?Facebook的AI通過看視頻自學(xué)成才
公眾號/將門創(chuàng)投
From:VentureBeat 編譯: Ace
人類每天都在進(jìn)行高層次的規(guī)劃來指導(dǎo)自己的各種活動,但對于機(jī)器人來說這并不容易。幸運(yùn)的是,越來越多的工作表明,層級抽象(即視覺運(yùn)動子程序)可以提高強(qiáng)化學(xué)習(xí)中的樣本效率,這是一種人工智能訓(xùn)練技術(shù),它利用獎(jiǎng)勵(lì)來推動智能體實(shí)現(xiàn)目標(biāo)。
傳統(tǒng)上,這些層次結(jié)構(gòu)必須通過端到端訓(xùn)練進(jìn)行手動編程或者獲取,這需要大量的時(shí)間、持續(xù)的注意力和足夠的耐心。但是在 Arxiv.org 上新發(fā)布的論文「通過觀看視頻學(xué)習(xí)導(dǎo)航子程序」中,FacebookAI Research、加州大學(xué)伯克利分校和伊利諾伊大學(xué)厄巴納 – 香檳分校的科學(xué)家描述了一個(gè)通過使用逆機(jī)器學(xué)習(xí)模型攝取視頻“偽標(biāo)記”來學(xué)習(xí)層次結(jié)構(gòu)。
這讓人想起去年 Facebook 開源的一對模型Talk the Walk。該模型可以使用 360 度圖像、自然語言以及具有標(biāo)志性地標(biāo)(如銀行、餐廳等)的地圖來指導(dǎo)紐約市的街道,能夠在不知道用戶位置的情況下提供步行路線。
早上來杯咖啡成為很多都市白領(lǐng)每天必不可少的“自我喚醒”環(huán)節(jié)。坐在辦公室的人類如果想去茶水間倒杯咖啡,你會從門廳走到底,拐向左邊的走廊,然后再進(jìn)入右邊的房間。當(dāng)人類在做這一系列思考與動作的時(shí)候,我們不是決定具體需要調(diào)動哪塊肌肉,而是通過組合這些可重復(fù)使用的低級視覺運(yùn)動子程序來達(dá)到目標(biāo),從而達(dá)成更高抽象水平的規(guī)劃。
研究人員表示,這些視覺運(yùn)動子程序,使規(guī)劃能夠減輕傳統(tǒng)規(guī)劃中的高計(jì)算成本和強(qiáng)化學(xué)習(xí)中的高樣本復(fù)雜性等已知問題。
Facebook的系統(tǒng)包含兩個(gè)階段。第一階段,研究人員通過運(yùn)行訓(xùn)練模型,使用隨機(jī)勘探數(shù)據(jù)的自我監(jiān)督來生成偽標(biāo)簽。模型學(xué)習(xí)了分布在四個(gè)不同環(huán)境中的1500個(gè)位置點(diǎn),然后隨機(jī)執(zhí)行30個(gè)步驟的動作,產(chǎn)生45,000個(gè)交互樣本。
在第二階段,大約217,000個(gè)偽標(biāo)記視頻被切成220萬個(gè)互相獨(dú)立的剪輯片段然后被輸入一個(gè)模型,這個(gè)模型預(yù)測參考視頻中采取的相應(yīng)動作的模型,而一個(gè)單獨(dú)的網(wǎng)絡(luò)檢查參考視頻中的動作序列并將行為編碼為矢量(例如數(shù)學(xué)表示)。另一個(gè)模型通過預(yù)測來自第一幀的軌跡的推斷編碼,針對任何給定視頻幀選擇調(diào)用哪些學(xué)習(xí)子例程。
在一個(gè)實(shí)驗(yàn)中,機(jī)器人被部署在真實(shí)的辦公環(huán)境中。研究表明,學(xué)習(xí)視頻(比如如何最有效的方式前往目標(biāo)位置)能夠讓機(jī)器人的表現(xiàn)比用純交互方法學(xué)習(xí)達(dá)到更好的效果,至少能夠顧及到以前看不見的環(huán)境。
也許最令人印象深刻的是,這個(gè)訓(xùn)練有素的模型學(xué)會了有利于前進(jìn)導(dǎo)航并避免障礙物,導(dǎo)航任務(wù)比曾經(jīng)的最佳基準(zhǔn)快4倍,這使得它能夠完全自主地進(jìn)行長距離行進(jìn)。
Ref: https://venturebeat.com/2019/05/30/facebooks-ai-learns-how-to-get-around-an-office-by-watching-videos/