欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

谷歌DeepMind推QuestBench基準,測試AI模型的“補漏”能力

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  

4 月 26 日消息, 科技 媒體 marktechpost 昨日(4 月 25 日)發布博文,報道稱谷歌 DeepMind 團隊推出 QuestBench 新基準,通過約束滿足問題(CSPs)框架,評估模型在推理任務中識別和獲取缺失信息的能力。

現實挑戰與信息獲取需求

大型語言模型(LLMs)在推理任務中廣受關注,涵蓋數學、邏輯、規劃和編碼等領域。然而,現實世界的應用場景常常充滿不確定性。

用戶在提出數學問題時常忽略重要細節,機器人等自主系統也必須在部分可觀測的環境中工作。這種理想化完整信息設定與現實不完備問題之間的矛盾,迫使 LLMs 發展主動信息獲取能力。

IT之家援引博文介紹,識別信息缺口并生成針對性地澄清問題,成為模型在模糊場景中提供準確解決方案的關鍵。

QuestBench:評估信息缺口的新框架

為應對信息獲取挑戰,研究者推出了 QuestBench 基準,專門評估 LLMs 在推理任務中識別缺失信息的能力。

該基準將問題形式化為約束滿足問題(CSPs),聚焦于“1-sufficient CSPs”,即只需知道一個未知變量值即可解決目標變量的問題。

谷歌DeepMind推QuestBench基準,測試AI模型的“補漏”能力

QuestBench 覆蓋邏輯推理(Logic-Q)、規劃(Planning-Q)和小學數學(GSM-Q / GSME-Q)三個領域,按變量數量、約束數量、搜索深度和暴力搜索所需猜測次數四個難度軸分類,精準揭示模型的推理策略和性能瓶頸。

谷歌DeepMind推QuestBench基準,測試AI模型的“補漏”能力

谷歌DeepMind推QuestBench基準,測試AI模型的“補漏”能力

模型性能與未來改進空間

QuestBench 測試了包括 GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental 等領先模型,覆蓋零樣本、思維鏈和四樣本設置。測試于 2024 年 6 月至 2025 年 3 月間進行,涉及 288 個 GSM-Q 和 151 個 GSME-Q 任務。

結果表明,思維鏈提示普遍提升了模型性能,而 Gemini 2.0 Flash Thinking Experimental 在規劃任務中表現最佳。開源模型在邏輯推理上具競爭力,但在復雜數學問題上表現不佳。

研究指出,當前模型在簡單代數問題上表現尚可,但隨著問題復雜性增加,性能顯著下降,凸顯了在信息缺口識別和澄清能力上的改進空間。

【來源: IT之家】

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 香蕉久热 | 欧美日韩成人 | 男人在线影院 | 久久中文字幕综合婷婷 | 久久国产香蕉 | 四虎影视免费在线观看 | 久久久国产精品福利免费 | 日韩久久免费视频 | 久久天天躁狠狠躁夜夜不卡 | 狠狠色丁香婷婷久久综合不卡 | 国产区在线视频 | 亚洲久草视频 | 爱操tv| 欧美成人aaaaa免费视频 | 成人影院www在线观看 | 国产特级毛片aaaaaa高清 | 亚洲一区二区三区久久久久 | 2022国内精品免费福利视频 | 性视频一区二区三区免费 | 欧美嫩草| www.久久久| 欧美成人精品在线 | 资源站在线 | 九九影视网 | 久久精品最新免费国产成人 | 日韩久久视频 | 请看一下欧美一级毛片 | 欧美久在线观看在线观看 | 天天艹日日干 | 久久激情影院 | 亚洲日本欧美日韩高观看 | 91视频高清 | 亚洲精品一区二区不卡 | 性欧美高清久久久久久久 | 国产第一页久久亚洲欧美国产 | 久久国产精品永久免费网站 | 在线中文字幕日韩 | 久草视频在线播放 | 亚洲综合免费视频 | 欧美在线观看第一页 | 操久在线|