欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

谷歌DeepMind推QuestBench基準，測試AI模型的“補漏”能力

砍柴網 ? 8天前掃碼分享

我是創始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

4 月 26 日消息，科技媒體 marktechpost 昨日（4 月 25 日）發布博文，報道稱谷歌 DeepMind 團隊推出 QuestBench 新基準，通過約束滿足問題（CSPs）框架，評估模型在推理任務中識別和獲取缺失信息的能力。

現實挑戰與信息獲取需求

大型語言模型（LLMs）在推理任務中廣受關注，涵蓋數學、邏輯、規劃和編碼等領域。然而，現實世界的應用場景常常充滿不確定性。

用戶在提出數學問題時常忽略重要細節，機器人等自主系統也必須在部分可觀測的環境中工作。這種理想化完整信息設定與現實不完備問題之間的矛盾，迫使 LLMs 發展主動信息獲取能力。

IT之家援引博文介紹，識別信息缺口并生成針對性地澄清問題，成為模型在模糊場景中提供準確解決方案的關鍵。

QuestBench：評估信息缺口的新框架

為應對信息獲取挑戰，研究者推出了 QuestBench 基準，專門評估 LLMs 在推理任務中識別缺失信息的能力。

該基準將問題形式化為約束滿足問題（CSPs），聚焦于“1-sufficient CSPs”，即只需知道一個未知變量值即可解決目標變量的問題。

谷歌DeepMind推QuestBench基準，測試AI模型的“補漏”能力

QuestBench 覆蓋邏輯推理（Logic-Q）、規劃（Planning-Q）和小學數學（GSM-Q / GSME-Q）三個領域，按變量數量、約束數量、搜索深度和暴力搜索所需猜測次數四個難度軸分類，精準揭示模型的推理策略和性能瓶頸。

谷歌DeepMind推QuestBench基準，測試AI模型的“補漏”能力

模型性能與未來改進空間

QuestBench 測試了包括 GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental 等領先模型，覆蓋零樣本、思維鏈和四樣本設置。測試于 2024 年 6 月至 2025 年 3 月間進行，涉及 288 個 GSM-Q 和 151 個 GSME-Q 任務。

結果表明，思維鏈提示普遍提升了模型性能，而 Gemini 2.0 Flash Thinking Experimental 在規劃任務中表現最佳。開源模型在邏輯推理上具競爭力，但在復雜數學問題上表現不佳。

研究指出，當前模型在簡單代數問題上表現尚可，但隨著問題復雜性增加，性能顯著下降，凸顯了在信息缺口識別和澄清能力上的改進空間。

【來源： IT之家】

隨意打賞

谷歌承認Pixel手機調光缺陷引發部分用戶不適，承諾2025年內改進

砍柴網 ? 1分鐘前

4月30日消息，科技媒體 Android Central今天（4月30日）發布博文，報道稱谷歌回應表示正優化屏幕PWM（脈寬調制）調光技術，并會在2025年內發布更新。 IT之家援引博文介紹，谷歌Pixel系列的屏幕雖然色彩表現優異，但部分用戶反饋，PWM調光技術會導致眼睛干
谷歌宣布于I/O大會前一周舉辦特別節目，提前揭秘Android 16創新功能

砍柴網 ? 1天前

4月29日消息，谷歌宣布將于北京時間2025年5月14日1時（IT之家注：美國太平洋時間5月13日10時）舉行一場特別直播節目《The Android Show：I/O Edition》。該活動由Android生態系統總裁Sameer Samat主持，較原定于5月20日開幕的 GoogleI/O開發者大會早了整整一周。
谷歌放棄三星HBM3E，改用美光提供的解決方案

砍柴網 ? 1天前

從2023年10月開始，三星就一直在為旗下的HBM3E通過英偉達的質量驗證而努力，但是一年多里，無論是8層堆疊還是12層堆疊的產品在芯片性能方面都未能滿足要求，甚至影響到了財務表現。為此三星修改了HBM3E的設計，傳聞5月底至6月初將獲得英偉達的認證。近期三星還打算逐步淘汰HBM2E，將資源轉向HBM3E和HBM4。據
谷歌停止支持10年以上Nest智能溫控器并退出歐洲市場：因當地供暖系統獨具特色

砍柴網 ? 2天前

4月27日消息，谷歌昨日宣布，從今年10月25日起，將停止為第一代和第二代 Nest智能溫控器發布軟件更新，并且將完全停止在歐洲推出新款Nest產品。這意味著，2011年和2012年推出的Nest溫控器、2014年在歐洲發布的版本將無法獲得更新，且這些設備將不再支持Nest和Home應用。不過，用戶仍然可以在設備上直接
剝離Chrome還是溫和整改？谷歌反壟斷處罰的博弈分析

虎嗅網 ? 3天前

2024年，谷歌因為和蘋果三星等渠道簽排他協議被美國法院判定違法壟斷。近日，美國法院再次召開聽證會以確定谷歌在被判壟斷后應受何種處罰，谷歌CEO皮查伊也將出庭接受法院質詢。美國司法部要求嚴厲處罰谷歌，剝離Chrome瀏覽器，并向競爭對手開放搜索數據，而谷歌則建議溫和處理，同意不再簽署排他協議并同意接受定期反壟斷審計，今
高管反擊：Chrome 瀏覽器依賴谷歌生態，若拆分他人難以接手

砍柴網 ? 3天前

4 月 26 日消息，在華盛頓聯邦法院的反壟斷案件中，谷歌Chrome 瀏覽器總經理 Parisa Tabriz 作證稱，得益于與 Alphabet Inc.其他部門的“interdependencies”（相互依賴性），Chrome 的功能和特性是其他公司難以復制的。Tabriz 強調造就 Chrome 瀏覽器今日成
谷歌公布 4 月安卓版本餅圖：15 僅 4.5%，14 占 27.4% 唱主角

砍柴網 ? 3天前

4 月 26 日消息，谷歌于 4 月 24 日發布了安卓系統分布餅圖，其中安卓 15 系統（2024 年 9 月發布）首次出現在餅圖中，但裝機率僅為 4.5%；相比之下，安卓 14 以 27.4% 的占比遙遙領先。IT之家援引博文介紹，該數據基于 4 月 1 日 Google Play 應用商店數據
谷歌安卓 16 測試可選安全功能：鎖屏后禁用 USB 連接

砍柴網 ? 3天前

4 月 26 日消息，科技媒體 Android Authority 昨日（4 月 25 日）發布博文，報道稱谷歌計劃在安卓 16 更新中，推出一項可選安全功能，支持用戶在手機鎖屏后禁用 USB 數據訪問。 IT之家援引博文介紹，
谷歌CEO皮查伊：Waymo未來或向個人用戶銷售自動駕駛汽車

砍柴網 ? 3天前

4 月 26 日消息，谷歌 CEO 桑達爾?皮查伊在財報電話會議上透露，Waymo 未來有可能向個人銷售自動駕駛汽車。皮查伊在談到 Waymo 的長期發展策略時表示，公司計劃繼續拓展合作，例如目前在邁阿密與 Moove 合作、在奧斯汀與 Uber 合作，接下來還將在亞特蘭大展開新項目，也提

評論

提交建議