欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測試的原始論文

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個廣告,點擊進來看看。  
ChatGPT 的論文寫作能力高過圖靈,還騙過了 AI 寫作評分工具。

作者 | 李梅、黃楠

編輯 | 陳彩嫻

以 ChatGPT 為代表的文本生成的興起,正促使許多研究人員尋求一個比原始版本更具挑戰(zhàn)性的圖靈測試。

圖靈測試解決兩個問題:“機器可以思考嗎?”,如果可以,“如何證明它?”經(jīng)典圖靈測試針對的是 AI 最棘手的目標之一:如何欺騙不知情的人類?但隨著當前語言模型變得越來越復雜,與 AI 如何欺騙人類相比,研究人員開始更關注“如何證明它?”的問題。

有觀點認為,現(xiàn)代的圖靈測試應當在科學的環(huán)境中證明語言模型的能力,而不是僅僅看語言模型是否能夠愚弄或模仿人類。

最近有項研究就重新審視了經(jīng)典圖靈測試,并將圖靈在 1950 年所著論文的內(nèi)容作為 prompt,使用 ChatGPT 生成了一份更可信的論文版本,來評估它的語言理解和生成能力。在使用 AI 寫作輔助工具 Grammarly 進行定量評分后發(fā)現(xiàn), ChatGPT 生成的論文得分比圖靈原始論文高出 14%。 有趣的是,該項研究所發(fā)表的論文部分內(nèi)容是由 GPT-3 生成的。

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測試的原始論文
論文地址:https://arxiv.org/ftp/arxiv/papers/2212/2212.06721.pdf

然而,ChatGPT 的算法是否真的展示了圖靈的最初觀點,這仍然是個問號。尤其是,當下越來越擅長模仿人類語言的大型語言模型,很容易讓人產(chǎn)生它們具有“信念”、能夠“推理”的錯覺,這會阻礙我們以更可信、更安全的方式部署這些 AI 系統(tǒng)。



1

圖靈測試的演變

1950年版本的圖靈測試是問答形式。圖靈在論文中模擬了未來智能計算機的測試,如下圖所示的一個算術問題:34957 加 70764 等于多少?

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測試的原始論文

圖注:ChatGPT 的問答序列,當中答案正確,問題來自圖靈 1950 年論文

這個問題曾使當時最好的語言模型如 GPT?2 失手。然而諷刺的是,在當時,圖靈的論文(人類版本)給出了一個錯誤答案:(停頓約30秒,然后給出答案)105621。即使存在機器為了通過圖靈測試而故意犯錯的可能性,五分鐘的對話仍讓裁判人員相信,計算機30%以上的時間是人為操控的。

自1950年以來,圖靈測試出現(xiàn)了許多改進,包括2014年一項著名的測試,稱為“Lovelace 2.0 測試”。Lovelace 2.0 測試的標準是,機器可以在藝術、文學或任何類似創(chuàng)造性飛躍中創(chuàng)造出具有代表性的例子。

2014年,一個名為 Eugene Goostman 的聊天機器人模擬了一位13歲的烏克蘭男孩,成功欺騙了 33% 的裁判人員,被認為是第一個通過圖靈測試的機器。

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測試的原始論文

但批評者很快注意到了預定義的問題和主題,以及僅使用鍵盤敲擊的簡短格式,這意味著該圖靈測試的結果是不可靠的。

2018 年,谷歌 CEO Sundar Pichai 在一段視頻中介紹了他們最新的名為 Duplex 的計算機助手,該機器成功實現(xiàn)了美發(fā)沙龍預約,成為人們在不知不覺中同機器互動的一部分。雖然正式通過圖靈測試可能需要多種形式,但 The Big Think 得出結論:“迄今為止,還沒有計算機明確通過圖靈 AI 測試”。其他研究人員也重申了所有這些問題是否值得被探討,其中特別考慮到目前大型語言模型在大量場景中的應用,比如航空工程的文本并沒有將其領域的目標定義為“制造出的飛行器要與鴿子完全一樣,并騙過其他鴿子”。



2

使用 ChatGPT 生成
更可信的圖靈測試

在 PeopleTec 的一項研究中,作者 將圖靈測試的原始論文內(nèi)容作為 prompt,讓 ChatGPT 重新生成一個更具可信性度的論文版本, 并使用寫作評估工具進行評估。

此前已經(jīng)有使用 GPT?3模型早期版本撰寫和發(fā)表完全由機器撰寫的研究論文的工作。識別機器所生成的敘述,對機器生成文本的抱怨通常源于已知的模型缺陷,例如容易丟失上下文、退化為重復或胡言亂語、答案形式重述問題,以及在被難住時抄襲互聯(lián)網(wǎng)資源。

這里要生成的論文格式主要執(zhí)行幾個常規(guī)的大型語言模型(Large Language Model,LLM )任務,特別是文本摘要和使用圖靈問題作為 prompt 本身來生成原始內(nèi)容。另外,作者使用 Grammarly ?Pro 工具來評估生成的內(nèi)容,對論文的原創(chuàng)性、風格、清晰度和整體說服力等難以表征的特征進行定量評估。

這項工作更多地側(cè)重于圖靈挑戰(zhàn)的后半部分,不是關于模型如何欺騙人類,而更多是關于 如何量化好的文本生成 。因此,OpenAI 的努力所展示的部分顯著進步歸結為它以提高人類生產(chǎn)力的方式改進機器衍生對話的能力。

作者首先用 Grammarly 來評估圖靈的原始論文、得出各項分數(shù),然后使用圖靈提出的測試問題作為 prompt 來創(chuàng)造原始的 GPT-3 內(nèi)容,從而復制這些分數(shù)。

研究使用三個文本作為基準:

(1)Turing Original,圖靈 1950 年在 Mind 上發(fā)表的論文;

(2)Turing Summarization,2022 年“Free Research Preview: ChatGPT optimized for dialog”;

(3)Turing Generative Prompt,與(2)相同,但是使用圖靈問題在對話中生成。

每個文本塊輸出都為可為 Grammarly 指標提供數(shù)據(jù),并設定了基于受眾:專家,形式:中性,領域:一般,當中應用大多數(shù)語法規(guī)則和約定,具有中等嚴格性。

這樣一個圖靈測試,其實也可驗證一個欺騙性任務: 一臺機器(ChatGPT)可以欺騙另一臺機器(Grammarly)嗎?

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測試的原始論文

圖注:用于對大型語言模型和圖靈論文進行評分的指標

圖靈 1950 年的原始論文提出了用于圖靈測試的 37 個問題,當中有針對他思考關于機器的中心主題,還有一些是向?qū)嶒災7掠螒虻挠嬎銠C提出的示例問題。研究人員在 ChatGPT 的對話框中,將論文大綱中的主題混合在一起后摘錄了這些問題,用來提示 ChatGPT 重現(xiàn)原始的基本內(nèi)容。

ChatGPT 完成內(nèi)容的生成后,在可讀性、正確性、清晰性等指標上與圖靈的原始論文進行比較,結果如下圖。

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測試的原始論文

圖注:圖靈 1950 年的論文與 ChatGPT 生成論文在各種任務中的比較結果

在清晰性(“有點不清楚”)、參與感(“有點乏味”)和信息傳達(“略有偏差”)等更主觀的評分中,所有四個版本都未能引起專家或普通讀者的共鳴。

第一個文本摘要挑戰(zhàn)表明,ChatGPT 能夠掌握簡短提示的意圖,如:將論文總結成十段,并提供 PDF 論文的鏈接。這不僅需要模型理解和遵循請求中的摘要程度,還需要知道鏈接代表什么,并找到它作為參考或從其標記化標題中猜測。

OpenAI 稱 GPT3 不會回答可能不屬于其初始訓練數(shù)據(jù)的內(nèi)容,例如“誰贏得了 2022 年 11 月的選舉?”。這種知識差距表明, ChatGPT 本身并不主動尋找鏈接,而是了解其他人之前對其內(nèi)容所做行為。

有趣的是,當同一提示出現(xiàn)兩次時(唯一的區(qū)別是提示工程和鏈接本身冒號后的文本換行符),ChatGPT 的答案會大相徑庭。其中,第一次是一篇及格的學生論文,總結了圖靈原始論文的要點;第二次則將問題解釋為對前十段中的每一段的總結,而不是對整篇論文的總結。

最終的結果表明,ChatGPT 生成的研究論文的整體內(nèi)容在度量意義上可獲得較高的分數(shù),但缺乏連貫性,尤其當問題作為敘述中的提示被省略時。

由此或許能夠得出結論,這次與 ChatGPT 的交流充分說明了 它能夠產(chǎn)生真正有創(chuàng)意的內(nèi)容或思想飛躍的能力。



3

ChatGPT 拒絕承認通過圖靈測試

GPT?3 在生成內(nèi)容時,有一個重要過濾器用于消除固有偏見。這次的 ChatGPT 也被設計為頗具有道德正當性,當被問及對某事物的看法時,ChatGPT 會拒絕給出任何具體答案,而只強調(diào)自己是如何被創(chuàng)造的。

許多研究人員也認同,任何模型在被問到時,都必須在道德上聲明自己僅僅是一臺機器,ChatGPT 嚴格遵守了這一要求。

而且,經(jīng)過 OpenAI 對 ChatGPT 各個模型層進行的微調(diào),當前的 ChatGPT 在被直接問到它只是一個方程式還是圖靈欺騙時,它會回答:“我模仿人的能力并不一定意味著我有與人相同的思想、感覺或意識。 我只是一臺機器,我的行為是由所受過訓練的算法和數(shù)據(jù)決定的。

圖靈還提出人類的列表記憶能力:“實際的人類計算機真的記得它們必須做什么......構建指令表通常被描述為‘編程’。”

就像越來越大的語言模型(>1000 ?億)的演變一樣,改進也有內(nèi)置的啟發(fā)式或模型執(zhí)行護欄,GPT?3 的 Instruct 系列就展示了直接回答問題的能力。而 ChatGPT 包括長期對話記憶, 因此,即便單個 API 調(diào)用無法跨越的敘述跳躍,但 API 仍可以跟蹤對話。

我們可以測試帶有非人稱代詞(如“it”)的對話,在對話中將上下文與單個會話中的先前 API 調(diào)用一起進行——這是一個易于掌握的示例,用于 ChatGPT 的 API 內(nèi)存,因為對較長的對話進行編碼既強大又昂貴。

在 LLM 中,API 限制以及費用影響,使得很長一段時間里,token 權重之間的相關性通常在每隔幾段的整體上下文中衰減(GPT-3 中的2048個token)。克服此上下文限制可將 ChatGPT 與其公開可用的前身區(qū)分開來。

第二代 Lovelace 2.0 測試提出了創(chuàng)造性任務和細化執(zhí)行任務的約束條件。然后,人類判斷專家會評估該模型是否可以用確定性的方式進行解釋,或者輸出是否符合有價值、新穎和令人驚訝的條件。因此,與其讓程序“寫短篇小說”,不如改進任務以展示特定的長度、風格或主題。該測試結合了許多不同類型的智能理解,其中,約束層試圖限制谷歌搜索內(nèi)容和有關 AI 成功稀釋或偽裝原始來源的爭論。

以下展示了一個直接回答 Lovelace 2.0 測試中提出的挑戰(zhàn)的短篇故事示例:講述一個男孩愛上一個女孩,外星人綁架男孩,女孩在一只會說話的貓的幫助下拯救了世界

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測試的原始論文

自2014年以來,作為對文本和圖像生成的限制,高質(zhì)量提示工程的使用已變得司空見慣,通常效果越好,關于樣式、地點或時間的說明或限定詞越詳細。事實上,構建提示本身是當今 AI 中獲得良好輸出的最具創(chuàng)造性的方面。在這種情況下,人們可以通過使用 ChatGPT 強制進行創(chuàng)造性工作,同時處理單一主題、對所需輸出的風格和基調(diào)的多層限制,將圖靈和 Lovelace 測試交織在一起。

下面顯示了 ChatGPT 在圖靈模仿游戲中生成的十種詩歌:

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測試的原始論文

圖靈測試的結果由人類來裁決。正如 ChatGPT 所回答的,提問者是否判斷模型通過了圖靈測試問題“將取決于多種因素,例如 機器提供的響應質(zhì)量、提問者區(qū)分人和機器響應的能力,以及用于確定機器是否成功模仿人類的特定規(guī)則和標準。 最終,游戲的結果將取決于具體情況和參與者。”



4

LLM 只做序列預測

并不真正理解語言

可以看到,當代基于 LLM 的對話互動可以創(chuàng)造一種令人信服的錯覺,仿佛置身于我們面前的,是像人類這樣會思考的生物。但就本質(zhì)而言,此類系統(tǒng)從根本上不同于人類,像 ChatGPT 這樣的 LLM 還涉及技術哲學的話題。

語言模型正變得越來越擅長模仿人類語言,這帶來一種強烈的感受,即這些 AI 系統(tǒng)已經(jīng)與人類非常相像,而且我們會使用“知道”、“相信”和“認為”等具有強烈自主意識的詞語去描述這些系統(tǒng)。基于上述現(xiàn)狀,DeepMind 資深科學家 Murray Shanahan 在近日一篇文章中提到,要破除任何或過度悲觀或過度樂觀的迷思,我們需要清楚 LLM 的系統(tǒng)到底是如何運作的。

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測試的原始論文

Murray Shanahan

1、LLM 是什么,可以做什么?

BERT、GPT-2 等 LLM 的出現(xiàn)改變了人工智能的游戲規(guī)則,之后的 GPT-3、Gopher、PaLM 等大模型基于 Tansformer 架構,在數(shù)百 TB 的文本數(shù)據(jù)上進行訓練,更加凸顯了數(shù)據(jù)的強大作用。

這些模型的能力是令人驚訝的。首先,它們在基準上的表現(xiàn)與訓練集的大小成比例;其次,隨著模型規(guī)模的擴大,它們的能力有了質(zhì)的飛躍;最后, 許多需要人類智能的任務可以簡化為使用性能足夠的模型“對下一個token進行預測”。

最后一點實際上揭示了語言模型的運作方式與人類的根本不同。人類在相互交流中所使用的的直覺是經(jīng)過數(shù)千年進化而來的,如今人們正在錯誤地把這些直覺遷移到 AI 系統(tǒng)上。ChatGPT 具有相當大的實用性和巨大的商業(yè)潛力,為了確保它能被可信地、安全地部署,我們需要了解它的實際工作原理。

與人類語言相比,大型語言模型有什么本質(zhì)上的不同?

如維特根斯坦所說,人類語言的使用是人類集體行為的一個方面,它只有在人類社會活動的大背景下才具有意義。人類嬰兒是出生在一個與其他語言使用者共享的世界,并通過與外部互動來習得語言。

而 LLM 的語言能力來源不同。人類生成的文本構成一個大規(guī)模的公共語料庫,它包含了單詞、單詞的構件、或帶標點的單個字符等 tokens,大型語言模型就是關于這些 tokens 的統(tǒng)計分布的生成式數(shù)學模型。

所謂的“生成”,是指我們可以從這些模型中取樣,也就是進行提問。但提問的問題是非常具體的,比如我們要求 ChatGPT 幫我們續(xù)寫一段話,實際上是在要求它根據(jù)它的人類語言統(tǒng)計模型,來預測接下來可能會出現(xiàn)什么詞。假如我們給 ChatGPT 提示“第一個在月球上行走的人是”,并假設它會回答“Neil ?Armstrong”。這里實際上并不是真的在問誰是第一個在月球上行走的人,而是:給定大量文本公共語料庫中單詞的統(tǒng)計分布,哪些單詞最有可能遵循“第一個在月球上行走的人是”的序列?

盡管模型對這些問題給出的答案可能會被人類解讀為模型“理解”了語言,但實際上對模型而言,它要做的就是生成具有在統(tǒng)計上可能的單詞序列。

2、LLM 真的什么都懂嗎?

LLM 通過以下兩個方式來轉(zhuǎn)變?yōu)閱柎鹣到y(tǒng):

a) ?將其嵌入到更大的系統(tǒng)中;

b) ?使用 prompt 工程來引發(fā)所需的行為。

這樣一來,LLM 不僅可以用于問答,還可以用來總結新聞文章、生成劇本、解決邏輯難題以及進行語言翻譯等。

這里有兩個重要的要點。首先,LLM 的基本功能即生成統(tǒng)計意義上可能的單詞序列,是非常通用的。其次,盡管具有這種多功能性,但所有這類應用程序的核心都是同一種模型,都只做同一件事,即生成統(tǒng)計意義上可能的單詞序列。

LLM 的基礎模型包括模型架構和訓練參數(shù)。一個 LLM 并不真正“知道”任何事情,因為它所做的一切在底層意義上都是序列預測。模型本身并沒有“真”或“假”的概念,因為它們不具備人類運用這些概念的方法。LLM 在某種意義上并不依賴意圖立場。

這對于以 LLM 為核心的對話系統(tǒng)也是一樣,它們并不能理解人類語言中關于真理的概念,因為它們不存在于我們?nèi)祟愓Z言使用者所共享的世界中。

3、關于涌現(xiàn)

如今的 LLM 是如此強大、多才多藝,以至于人們很難不或多或少地賦予其人格。一個相當具有吸引力的論點是,盡管 LLM 從根本上說只執(zhí)行序列預測,但在學習這樣做的過程中,它們有可能發(fā)現(xiàn)了需要用更高層次的術語比如“知識” 和“信念”進行描述的涌現(xiàn)機制。

事實上,人工神經(jīng)網(wǎng)絡可以將任何可計算函數(shù)逼近到任意精度。因此,無論需要何種機制來形成信念,它們都可能駐留在參數(shù)空間的某個地方。如果隨機梯度下降是優(yōu)化準確序列預測目標的最佳方式,那么給定一個足夠大的模型、足夠多的正確類型的數(shù)據(jù)以及足夠的算力來訓練模型,也許它們真的可以發(fā)現(xiàn)那種機制。

而且,最近的 LLM 研究進展已經(jīng)表明,當足夠大的模型在非常大量的文本數(shù)據(jù)上進行訓練時,就會涌現(xiàn)出非凡的、意想不到的能力。

然而,只要我們的考慮僅限于一個簡單的基于 LLM 的問答系統(tǒng),它就根本不涉及交際依圖。不管它使用的內(nèi)部機制是什么,序列預測本身并沒有交際意圖的,簡單地將交際依圖嵌入到對話管理系統(tǒng)中也無濟于事。

只有在能夠區(qū)分真假的情況下,我們才能談論最完整意義上的“信念”,但是 LLM 并不負責做出判斷,它只是模擬哪些詞可能跟在其他詞后面。我們可以說 LLM“編碼”、“存儲”或“包含”知識,也可以合理地稱 LLM 的一個涌現(xiàn)屬性是它編碼了日常生活世界的各種知識及其工作方式,但如果說“ChatGPT 知道北京是中國的首都”,那便只是一種修辭。

4 、外部信息來源

這里的重點是,涉及將任何信念完全歸于一個系統(tǒng)的先決條件。

任何東西都不能算作對我們共享的世界的信念,從廣義上講,除非它是在根據(jù)來自某個世界的證據(jù)適當?shù)馗滦拍畹哪芰Φ谋尘跋拢@是辨別真假能力的一個重要方面。

維基百科或其他一些網(wǎng)站,能否提供外部標準來衡量一個信念的真實性或虛假性?假設一個 LLM 被嵌入到一個系統(tǒng)中,該系統(tǒng)定期咨詢此類資源,并使用現(xiàn)代模型編輯技術來保持其預測的事實準確性,實現(xiàn)信念更新需要什么樣的能力?

序列預測器本身可能不是那種可以具有交流意圖或形成對外部現(xiàn)實的信念的事物。但是,正如反復強調(diào)的那樣,野外的 LLM 必須嵌入到更大的體系結構中才能發(fā)揮作用。

要構建一個問答系統(tǒng),LLM 只需輔以一個對話管理系統(tǒng)以適當?shù)夭樵兡P汀_@個更大的架構所做的任何事情都可以算作交流意圖或形成信念的能力。

至關重要的是,這種思路取決于從語言模型本身到語言模型所屬的更大系統(tǒng)的轉(zhuǎn)變。語言模型本身仍然只是一個序列預測器,并沒有像以往那樣更多地訪問外部世界。只有相對于整個系統(tǒng),在這種情況下,意向性立場才會變得更有說服力。但在屈服于它之前,我們應該提醒自己,這樣的系統(tǒng)與人類有多么不同。

5 、視覺-語言模型

LLM 可以與其他類型的模型結合和/或嵌入到更復雜的體系結構中。例如,VilBERT 和 ?Flamingo 等視覺語言模型 (VLM) ?將語言模型與圖像編碼器相結合,并在文本-圖像對的多模態(tài)語料庫上進行訓練。這使得它們能夠預測給定的單詞序列將如何在給定圖像的上下文中繼續(xù)。VLM 可用于視覺問答或就用戶提供的圖像進行對話,也就是俗稱的“看圖說話”

那么,用戶提供的圖像能否代表可以評估命題真假的外部現(xiàn)實?談論 LLM 的信念是否合理?我們可以想象,一個 VLM 使用 LLM 來生成關于圖像的假設,然后針對該圖像驗證其真實性,然后對 LLM 進行微調(diào),以免做出被證明是錯誤的陳述。

但大多數(shù)基于 VLM 的系統(tǒng)并不是這樣工作的。相反,它們依賴于文本和圖像聯(lián)合分布的凍結模型。用戶提供的圖像與 VLM 生成的文字之間的關系,與人類共享的世界與我們談論該世界時使用的文字之間的關系根本不同。重要的是,前者僅僅是相關關系,而后者則是因果關系,當然,模型在推理過程中進行的計算存在因果結構,但這跟詞語與其所指事物之間的因果關系不同。

6 、具身 AI

人類語言使用者存在于一個共享世界中,這使得我們與 LLM 有著本質(zhì)區(qū)別。孤立的 LLM 無法通過與外界交流來更新自己的信念,但如果將 LLM 嵌入到更大的系統(tǒng)中會如何呢?比如,呈現(xiàn)為機器人或虛擬化身的系統(tǒng)。這時候談論 LLM 的知識和信念是合理的嗎?

這要取決于 LLM 是如何具身化的。

以今年谷歌發(fā)布的 SayCan 系統(tǒng)為例,在這項工作中,LLM 被嵌入到控制物理機器人的系統(tǒng)中。機器人根

據(jù)用戶的高級自然語言指令執(zhí)行日常任務(例如清理灑在桌面上的水)。

其中,LLM 的工作是將用戶的指令映射到將幫助機器人實現(xiàn)所需目標的低級動作(例如尋找海綿)。這是通過一個工程化的 prompt 前綴來完成的,該前綴使模型輸出合適的低級動作的自然語言描述,并對它們的有用性進行評分。

SayCan 系統(tǒng)的語言模型組件可能會無視機器人所在的實際環(huán)境來給出動作建議,比如旁邊并沒有海綿。所以,研究人員使用一個單獨的感知模塊利用機器人的傳感器來評估場景,并確定執(zhí)行每個低級動作的當前可行性。將 LLM 對每個動作的有用性評估與感知模塊對每個動作的可行性評估結合起來,便可以得出下一步最優(yōu)動作。

盡管 SayCan 在物理上有與現(xiàn)實世界的互動,但它學習和使用語言的方式與人類仍然非常不同。SayCan 這類系統(tǒng)中包含的語言模型經(jīng)過預訓練,可以在純文本數(shù)據(jù)集的無實體環(huán)境中執(zhí)行序列預測。它們并沒有通過與其他語言使用者交談來學習語言。

SayCan 的確給我們帶來了關于未來語言使用系統(tǒng)的一種想象,但在今天這樣的系統(tǒng)中,語言的作用非常有限。用戶用自然語言向系統(tǒng)發(fā)出指令,系統(tǒng)生成對其動作的可解釋的自然語言描述。但是,這種微小的語言使用范圍根本無法與由語言?持的人類集體活動的規(guī)模相提并論。

所以,即使是對于包含 LLM 的具身 AI 系統(tǒng),我們也要謹慎地選擇詞語去描述它們。

7 LLM 能夠推理嗎?

現(xiàn)在我們可以否認 ChatGPT 具有信念,但它真的可以推理(reason)嗎?

這個問題更加棘手,因為在形式邏輯中,推理是內(nèi)容中立的(content neutral)。比如無論前提如何,“肯定前件”(modus ponens)的推理規(guī)則都是有效的:

如果:所有的人都會死,蘇格拉底是人;那么:蘇格拉底會死。

邏輯的內(nèi)容中立性似乎意味著我們不能在推理方面對 LLM 過多苛求,因為 LLM 無法杰出到可以衡量真假的外部現(xiàn)實。但即便如此,當我們提示 ChatGPT“所有的人都會死,蘇格拉底是人,那么”時,我們并不是在讓模型進行假言推理,而是在問:給定的公共語料庫中的詞語統(tǒng)計分布,哪些詞可能遵循“所有的人都會死,蘇格拉底是人,那么”這一序列。

而且,更復雜的推理問題會包含多個推理步驟,由于聰明的提示工程,LLM 可以有效地應用于多步推理,無需進一步培訓。例如,在思維鏈提示中,在用戶查詢之前向模型提交一個提示前綴,其中包含一些多步驟推理的示例,并明確說明,所有中間步驟在思維鏈風格中都包含一個提示前綴會鼓勵模型,以相同的風格生成后續(xù)序列,也就是說,包括一系列導致最終答案的顯式推理步驟。

像往常一樣,真正向模型提出的問題的形式是“給定公共語料庫中單詞的統(tǒng)計分布,哪些單詞可能遵循序列 S ”,在這種情況下,序列 S 是鏈接 thought 提示前綴加上用戶的查詢,最有可能跟在 S 之后的標記序列,將具有與提示前綴中找到的序列類似的形式,也即是在它們當中,將包括多個推理步驟,因此這些就是模型生成的。

值得注意的是,不僅模型的響應采用多步驟論證的形式,而且所討論的論證通常(但并非總是)有效,并且最終答案通常(但并非總是)正確。在某種程度上,適當提示的 LLM 似乎推理正確,它通過在其訓練集中和/或提示中模仿格式正確的參數(shù)來實現(xiàn)。

但是,這種模仿能構成真正的推理嗎?即使今天的模型偶爾會犯錯誤,是否可以進一步縮小這些錯誤,使模型的性能與硬編碼推理算法的性能無法區(qū)分?

或許答案確實為“是”,但是我們怎么知道呢?我們怎么能相信這樣的模型呢?

定理證明器生成的句子序列是忠實于邏輯的,因為它們是底層計算過程的結果,其因果結構反映了定理的推理結構問題。使用 LLM 構建可信推理系統(tǒng)的一種方法是將其嵌入到執(zhí)行相同因果結構的算法中。但是,如果我們堅持使用純 LLM,那么,要完全相信它產(chǎn)生的論點,唯一方法就是對其進行逆向工程,并發(fā)現(xiàn)符合忠實推理規(guī)定的緊急機制。與此同時,我們應該更加謹慎,并在描述這些模型的作用時慎重行事。

參考鏈接:
1.https://arxiv.org/ftp/arxiv/papers/2212/2212.06721.pdf

2.https://arxiv.org/pdf/2212.03551v1.pdf

更多內(nèi)容 ,點擊下方關注:

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測試的原始論文

未經(jīng)「AI科技評論」授權,嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權,轉(zhuǎn)載時需標注來源并插入本公眾號名片。

雷峰網(wǎng) (公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見 轉(zhuǎn)載須知

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測試的原始論文

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 四虎精品影院在线观看视频 | 国产激情一区二区三区在线观看 | www.欧美com| 日本一级毛片视频无遮挡免费 | 五月花激情网 | 亚洲人人爱 | 在线视频久久 | 一区二区精品久久 | 一级一片免费看 | 涩涩免费播放观看在线视频 | 日本 亚洲 欧美 | 全部免费毛片 | 综合久久久久久 | 久久久久中文 | 中文字幕在亚洲第一在线 | 久久 在线 | 久久精品亚洲99一区二区 | 成人网18免费网站在线 | 亚洲国产成人久久精品影视 | 日韩成a人片在线观看日本 日韩成人 | 天天久久狠狠色综合 | 国产成人a v在线影院 | 天天操夜夜操夜夜操 | 免费午夜在线视频 | 亚洲综合视频一区 | 久久天天躁狠狠躁夜夜中文字幕 | 成年男女免费视频观看性 | 日韩新片王| 国产娱乐凹凸视觉盛宴在线视频 | 日韩另类视频 | 男女啪啪网站 | 国产成人精品免费 | 日本一区二区三区高清福利视频 | 亚洲精品乱码久久久久久蜜桃欧美 | 日韩精品中文字幕一区二区三区 | 在线影院福利 | 久久久久18 | 黄色毛片在线播放 | 亚洲精品久久久久久久网站 | 国产亚洲精品网站 | 亚洲国产精品综合久久久 |