欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

能看圖回答問題的AI離我們還有多遠(yuǎn)?Facebook向視覺對(duì)話進(jìn)發(fā)

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個(gè)廣告,點(diǎn)擊進(jìn)來看看。  

雷鋒網(wǎng) AI 科技評(píng)論按:Facebook?AI?研究院(FAIR)日前撰寫了一篇長(zhǎng)文章,介紹了自己在基于圖像的自然語言對(duì)話系統(tǒng)方面的研究方向以及現(xiàn)有的研究成果。

圖像理解和自然語言對(duì)話系統(tǒng)都是當(dāng)前的熱門研究領(lǐng)域,兩者結(jié)合的領(lǐng)域更是又迷人、又讓人頭疼。下面我們來一起看看Facebook?AI?研究院對(duì)這一問題有何見解、他們又做出了哪些成果。雷鋒網(wǎng) (公眾號(hào):雷鋒網(wǎng)) AI 科技評(píng)論編譯此文如下。

能看圖回答問題的AI離我們還有多遠(yuǎn)?Facebook向視覺對(duì)話進(jìn)發(fā)

人們對(duì)視覺對(duì)話(Visual Dialog)的研究抱有一個(gè)遠(yuǎn)大的目標(biāo),就是教會(huì)機(jī)器用自然語言與人類討論視覺內(nèi)容。這個(gè)正在快速增長(zhǎng)的研究領(lǐng)域集合了計(jì)算機(jī)視覺、自然語言處理以及對(duì)話系統(tǒng)研究三個(gè)方向的成果。

總的來說,對(duì)話系統(tǒng)的功能可以在一個(gè)范圍內(nèi)變化。這個(gè)范圍一個(gè)極端是任務(wù)驅(qū)動(dòng)的對(duì)話機(jī)器人,人們可以和它對(duì)話來完成一些具體的任務(wù),比如訂一張機(jī)票;另一個(gè)極端是閑聊機(jī)器人,你們可以聊任何話題,但是聊天的時(shí)候并不為了達(dá)成什么目的。視覺對(duì)話大概在這兩個(gè)極端中間的一個(gè)位置上,這確實(shí)是一種不限定形式的聊天,但是對(duì)話內(nèi)容需要限定在給定圖像的內(nèi)容范圍之內(nèi)。

能看圖回答問題的AI離我們還有多遠(yuǎn)?Facebook向視覺對(duì)話進(jìn)發(fā)

未來的視覺對(duì)話應(yīng)用:一個(gè)能利用視覺能力和自然語言界面幫助人類的智能助手

雖然目前的視覺對(duì)話系統(tǒng)還處在很早期的階段,但這類技術(shù)未來有很多的應(yīng)用潛力。比如,能回答一系列問題的智能助手就可以幫助視覺障礙人群理解網(wǎng)上照片中的內(nèi)容,或者看他現(xiàn)拍的照片幫他了解他所處的周圍環(huán)境;還可以幫助醫(yī)療人員更好地解讀醫(yī)學(xué)成像照片。在AR/VR應(yīng)用中也能派得上用場(chǎng),用戶跟一個(gè)虛擬的同伴身處同一個(gè)視覺環(huán)境中,然后可以用自然語言跟他聊環(huán)境中的東西。

能看圖回答問題的AI離我們還有多遠(yuǎn)?Facebook向視覺對(duì)話進(jìn)發(fā)

未來的視覺對(duì)話應(yīng)用:基于同一視覺環(huán)境的虛擬伙伴

要造出類似這樣的系統(tǒng),目前還有不少基礎(chǔ)研究方面的困難。Facebook的研究人員們近期就沿著兩個(gè)研究方向做出了自己的努力:1,對(duì)視覺內(nèi)容做顯式的推理;2,模仿人類的視覺對(duì)話。

視覺內(nèi)容的顯式推理

連接到視覺數(shù)據(jù)的一個(gè)核心語言界面就是問一個(gè)自然語言的問題,比如:“圖中有什么動(dòng)物?”或者“有多少人坐在長(zhǎng)椅上?”每個(gè)問題中需要解決的都是不同的任務(wù),然而目前具有頂尖表現(xiàn)的系統(tǒng)里多數(shù)都還運(yùn)用的是整體性的方法,用同一個(gè)計(jì)算圖或者計(jì)算網(wǎng)絡(luò)給出所有問題的答案。然而,這些模型只有有限的解釋能力,而且對(duì)于更復(fù)雜一些的推理任務(wù)就很容變得無能為力,比如:“有多少東西和球的大小一樣?”如下圖

能看圖回答問題的AI離我們還有多遠(yuǎn)?Facebook向視覺對(duì)話進(jìn)發(fā)

用模塊化的結(jié)構(gòu)表征問題就給符合性的、可解釋的推理帶來了可能

為了解決這樣的問題,UC伯克利的研究員們?cè)谝黄狢VPR2016的論文中提出了“神經(jīng)模塊網(wǎng)絡(luò)”,它吧計(jì)算過程拆分成了幾個(gè)顯式的模塊。在上面的例子中,一個(gè)模塊“尋找”或者說定位了這個(gè)球,然后另一個(gè)模塊“重定位”或者說找到相同大小的物體,最后一個(gè)模型就可以數(shù)出來“有多少”。這個(gè)過程中重要的是,對(duì)于不同的照片或者問題,模型可以反復(fù)使用,比如“尋找球”的這個(gè)模塊對(duì)于另一張圖像來說就可以回答“圖中的球體比立方體多嗎”這個(gè)問題。就像和上面的圖中一樣,這樣讓人們可以通過“注意力地圖”的方式檢驗(yàn)中間的可解釋的輸出,可以看到模型在關(guān)注圖中的哪些區(qū)域。

最初的這項(xiàng)工作基于的是一個(gè)不可微的自然語言分析器,后來2篇ICCV2017的論文就展現(xiàn)出了如何端到端地訓(xùn)練一個(gè)類似這樣的系統(tǒng)。如果想要解答CVPR2017上Facebook?AI研究院和斯坦福大學(xué)共同發(fā)布的CLEVR數(shù)據(jù)集中困難得多的組合問題,作者們認(rèn)為這樣的系統(tǒng)應(yīng)當(dāng)至關(guān)重要。

能看圖回答問題的AI離我們還有多遠(yuǎn)?Facebook向視覺對(duì)話進(jìn)發(fā)

論文「Learning to Reason: End-to-End Module Networks for Visual Question Answering」(學(xué)習(xí)推理:用于視覺問題回答的端到端模塊網(wǎng)絡(luò))首先用一個(gè)帶有編碼器和解碼器的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)根據(jù)問題建立一個(gè)策略或者一個(gè)程序,然后它就會(huì)構(gòu)建出一個(gè)模塊化的網(wǎng)絡(luò),用這個(gè)網(wǎng)絡(luò)對(duì)圖像進(jìn)行操作、回答問題。

不過,這兩篇論文提出了不同的架構(gòu)。第一篇由Facebook?AI研究院和斯坦福大學(xué)合作完成的論文「Inferring and ExecutingPrograms for Visual Reasoning」(用于視覺推理的推斷和處理程序)中,不同的模塊中有不同的參數(shù),但網(wǎng)絡(luò)結(jié)構(gòu)是一樣的。第二篇由UC伯克利大學(xué)、波士頓大學(xué)和Facebook?AI研究院協(xié)作完成的「Learning to Reason: End-to-End Module Networks for Visual Question Answering」中,依靠不同的模塊完成不同的計(jì)算任務(wù),模塊之間可以共享問題表述的嵌入的參數(shù)。

雖然兩篇論文中方法的架構(gòu)不同,但兩項(xiàng)研究中都發(fā)現(xiàn)有必要借助標(biāo)準(zhǔn)答案對(duì)程序的預(yù)測(cè)結(jié)果進(jìn)行監(jiān)督,以便得到更好的結(jié)果,不過一小批訓(xùn)練樣本也就足夠了?!癐nferring and Executing Programs”論文中就表現(xiàn)出強(qiáng)化學(xué)習(xí)的使用可以讓網(wǎng)絡(luò)學(xué)到最好的端到端程序,這比直接學(xué)習(xí)標(biāo)準(zhǔn)答案的程序帶來了顯著的提升,而且可以對(duì)新問題和新答案做出細(xì)微調(diào)整。

近期新提出的RelationNet和FiLM兩種網(wǎng)絡(luò)架構(gòu)也不需要在訓(xùn)練中用到任何標(biāo)準(zhǔn)答案程序就可以達(dá)到與整體式網(wǎng)絡(luò)相當(dāng)或更好的表現(xiàn);這也意味著它們失去了顯式的、可解釋的推理結(jié)構(gòu)。在“Inferring and Executing Programs”論文中除了基于CLEVR綜合生成的問題之外也收集了真實(shí)人類提出的問題。不過,所有提到的這些研究都不具有好的泛化性。與此相似的是,如果在帶有真實(shí)圖像和問題的VQA數(shù)據(jù)集上測(cè)試,“Learning to Reason”論文的程序預(yù)測(cè)只帶來的非常有限的表現(xiàn)提升,很可能是因?yàn)閂QA數(shù)據(jù)集的問題需要的推理復(fù)雜度比CLEVR數(shù)據(jù)集低得多。

總的來說,F(xiàn)acebook的研究人員們對(duì)繼續(xù)探索新的點(diǎn)子、構(gòu)建真正具有復(fù)合性解釋性、能夠處理真實(shí)世界情境中的新設(shè)置和新程序帶來的麻煩的模型還抱著飽滿的熱情。

模仿人類的視覺對(duì)話

這篇介紹文章由三位Facebook?AI研究院的研究員Dhruv Batra、Devi Parikh、Marcus Rohrbach三人共同撰寫,前兩者同時(shí)也是佐治亞理工大學(xué)的助理教授。兩人以及他們?cè)谧糁蝸喞砉ご髮W(xué)和卡耐基梅隆大學(xué)的學(xué)生們共同研究著針對(duì)圖像的自然語言對(duì)話問題。他們開發(fā)了一個(gè)新的雙人對(duì)話數(shù)據(jù)收集程序,從而構(gòu)建了一個(gè)大規(guī)模的視覺對(duì)話數(shù)據(jù)集VisDial,其中包含了十二萬張圖像,每張圖像帶有10對(duì)問答句子,一共一百二十萬個(gè)對(duì)話問答對(duì)。

能看圖回答問題的AI離我們還有多遠(yuǎn)?Facebook向視覺對(duì)話進(jìn)發(fā)

視覺對(duì)話智能體的示意圖。用戶上傳一張圖像,智能體就會(huì)首先開口給圖像配上一句說明比如“一棟大樓,它中間有一個(gè)塔樓”,然后它還可以回答用戶的一系列問題。

由于這個(gè)研究處于多個(gè)領(lǐng)域的交叉口上,它也就帶動(dòng)著不同領(lǐng)域的研究人員們攜起手來解決共同的問題。為了給這個(gè)研究前線帶來更大的貢獻(xiàn),他們也把VisDial數(shù)據(jù)集和相關(guān)代碼開放出來,便于其它的對(duì)話系統(tǒng)研究者們?yōu)樽约旱膯栴}創(chuàng)建定制化的數(shù)據(jù)集。

能看圖回答問題的AI離我們還有多遠(yuǎn)?Facebook向視覺對(duì)話進(jìn)發(fā)

對(duì)于對(duì)話系統(tǒng),一個(gè)可能有點(diǎn)反直覺的研究角度是,把對(duì)話看作一個(gè)固定的監(jiān)督學(xué)習(xí)問題,而不是一個(gè)交互性的智能體學(xué)習(xí)問題。根本上來說,監(jiān)督學(xué)習(xí)的每一輪?t?中,對(duì)話模型都被人為地“插入”到兩個(gè)人類的對(duì)話中,然后要求它回答一個(gè)問題。但機(jī)器的回答又會(huì)被拋棄,因?yàn)樵谙乱惠?t+1?中,人們會(huì)給模型輸入“標(biāo)準(zhǔn)答案”的人和人之間的對(duì)話,這其中包含了人類的應(yīng)答而不包含機(jī)器的應(yīng)答。這樣一來,人類從來都不會(huì)把引導(dǎo)聊天走向的機(jī)會(huì)交給機(jī)器,因?yàn)檫@樣就會(huì)讓對(duì)話內(nèi)容超出數(shù)據(jù)集之外,變得無法評(píng)估。

為了改善這個(gè)問題,佐治亞理工、卡內(nèi)基梅隆和Facebook?AI研究院共同在論文「Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning」(用深度強(qiáng)化學(xué)習(xí)學(xué)習(xí)合作性的視覺對(duì)話智能體)中提出了首個(gè)目標(biāo)驅(qū)動(dòng)的訓(xùn)練方式,用來訓(xùn)練視覺問題回答以及視覺對(duì)話智能體。他們提出了一個(gè)兩個(gè)之間智能體合作完成的“猜圖片”小游戲GuessWhich,其中一個(gè)“提問者”Q-BOT和一個(gè)“回答者”A-BOT要用自然語言對(duì)話交流。在游戲開始前會(huì)先給A-BOT指定一張圖像,Q-BOT看不到圖像;然后兩個(gè)BOT都會(huì)收到一條關(guān)于這張圖像的自然語言的描述。在游戲接下來的每一輪中,Q-BOT都要生成一個(gè)問題,A-BOT要回答它,然后兩個(gè)BOT的狀態(tài)都得到更新。在10論問答結(jié)束后,Q-BOT就要開始猜剛才的圖像是一組圖像中的哪一張。研究人員們發(fā)現(xiàn),這些強(qiáng)化學(xué)習(xí)的方式訓(xùn)練得到的智能體要比傳統(tǒng)監(jiān)督學(xué)習(xí)訓(xùn)練的智能體強(qiáng)得多。最有意思的是,雖然有監(jiān)督訓(xùn)練的Q-BOT會(huì)模仿人類如何問問題,強(qiáng)化學(xué)習(xí)訓(xùn)練的Q-BOT會(huì)變化策略,問一些A-BOT更善于回答的問題,最終在對(duì)話中包含了更多的信息量,組成了更好的團(tuán)隊(duì)。

目標(biāo)驅(qū)動(dòng)的學(xué)習(xí)有一種替代方案,就是選用一個(gè)對(duì)抗性損失或者感知損失,用來區(qū)分真實(shí)人類的和智能體生成的回答。在馬上要到來的NIPS 2017中就收錄了一篇介紹這個(gè)點(diǎn)子的論文,「Best of BothWorlds: Transferring Knowledge from Discriminative Learning to a Generative Visual DialogModel」(雙料冠軍:從對(duì)抗性學(xué)習(xí)轉(zhuǎn)移知識(shí)到生成式視覺對(duì)話模型),來自Facebook?AI研究院和佐治亞理工大學(xué)。還有一篇相關(guān)的論文來自普朗克信息學(xué)研究所、UC伯克利、Facebook?AI研究院的共同合作,「Speaking the Same Language: Matching Machine to HumanCaptions by Adversarial Training」(講一樣的話:通過對(duì)抗性訓(xùn)練把機(jī)器匹配到人類描述上),這篇論文中表明,相比給定一張圖像以后一次只讓模型生成一條描述,一次生成多條描述可以讓模型生成更加多變、更像人類的圖像描述。

開放的多學(xué)科協(xié)作一直必不可少

作為人類,大腦相關(guān)功能中很大的一部分是通過視覺處理和自然語言處理與別人進(jìn)行溝通交流。構(gòu)建能夠把視覺和語言連接起來的AI不僅令人激動(dòng),而且也非常具有挑戰(zhàn)性。在這篇文章中,F(xiàn)acebook的研究人員們就介紹了這一空間中的兩個(gè)研究方向:顯式的視覺推理和模仿人類的視覺對(duì)話。雖然大大小小的研究進(jìn)展不斷涌現(xiàn),但未來還有許多難題等待解決。如果想要繼續(xù)進(jìn)步,F(xiàn)acebook?AI研究院、學(xué)術(shù)界,以及整個(gè)AI生態(tài)之間都需要繼續(xù)保持開放、長(zhǎng)期、基礎(chǔ)的多學(xué)科研究協(xié)作體系。

參考文獻(xiàn)

  • VQA: Visual Question Answering, https://arxiv.org/abs/1505.00468 ?(ICCV 2015)?

  • Neural module networks, https://arxiv.org/abs/1511.02799 ?(CVPR 2016)?

  • Visual Dialog, https://arxiv.org/abs/1611.08669 ?(CVPR 2017)

  • Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning, https://arxiv.org/abs/1611.08669 ?(ICCV 2017)?

  • Inferring and Executing Programs for Visual Reasoning, https://arxiv.org/abs/1705.03633 ?(ICCV2017)

  • Learning to Reason: End-to-End Module Networks for Visual Question Answering, https://arxiv.org/abs/1704.05526 ?(ICCV 2017)?

  • Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training, https://arxiv.org/abs/1703.10476 ? (ICCV 2017)?

  • CLEVR: A Diagnostic Dataset for Compositional Language and Elementary VisualReasoning, https://arxiv.org/abs/1612.06890 ?(CVPR 2017)?

  • Best of Both Worlds: Transferring Knowledge from Discriminative Learning to a GenerativeVisual Dialog Model, https://arxiv.org/abs/1706.01554 ?(NIPS2017)

  • A simple neural network module for relational reasoning, https://arxiv.org/abs/1706.01427 ?(NIPS2017)?

  • FiLM: Visual Reasoning with a General Conditioning Layer, https://arxiv.org/abs/1709.07871 ?

via FAIR ,雷鋒網(wǎng) AI 科技評(píng)論編譯

相關(guān)文章:

Facebook介紹ICCV2017收錄論文,其中五分之一都有何愷明的名字(附下載鏈接)

Facebook打算重新摸進(jìn)中國市場(chǎng),現(xiàn)在正悄悄地尋找辦公場(chǎng)地

雷鋒網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見。

隨意打賞

facebook messengerfacebook關(guān)閉失控aifacebook ai失控facebook ai對(duì)話facebook的ai對(duì)話facebook comfacebook關(guān)閉aifacebook ai人工智能還有多遠(yuǎn)回答問題賺錢
提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 国产精品亚洲一区二区三区久久 | 欧美线人一区二区三区 | 亚洲有色 | 天天射夜夜骑 | 亚洲精品98久久久久久中文字幕 | 色97色| 99久久亚洲国产高清观看 | 欧美大片一区 | 成人在线免费网站 | 91在线视屏 | 国内精品久久久久久久久久久久 | 久久综合成人 | 国内精品久久国产大陆 | 波多野结衣与公中出中文字幕 | 亚洲欧洲一区二区三区在线 | 一本久久精品一区二区 | 中文字幕在线看日本大片 | 久久99影院网久久久久久 | 91在线精品亚洲一区二区 | 久久综合一区二区三区 | 国产成人精品亚洲77美色 | 欧美久久网 | 免费不卡 | 日韩欧美一区二区精品久久 | 国产护士一级毛片高清 | 中文字幕在线精品视频万部 | 欧美不卡精品中文字幕日韩 | 亚洲人和日本人hd | 中文字幕二区 | 精品久久久久久久久久 | 嫩草社区| 亚洲欧美国产高清va在线播放 | 亚洲合集综合久久性色 | 我爱52avαv永久网站 | 性一交一乱一视频免费看 | 2020亚洲欧美日韩在线观看 | 99综合网 | 在线观看国产视频 | 国产精品免费视频播放 | 正在播放亚洲 | 美国免费三片在线观看 |