擊敗多個行業(yè)巨頭,優(yōu)必選自研人形機器人最強大腦 Thinker 斬獲全球四項第一
當行業(yè)還在激烈討論「具身智能」的落地路徑時,人形機器人的「大腦」進化競賽,已經悄然抵達一個新的里程碑。
近日,優(yōu)必選對外公布,其自主研發(fā)的人形機器人 Walker 的「最強大腦」——百億參數(shù)基座的多模態(tài)大模型 Thinker,在全球三大權威 AI 基準測試中,一舉斬獲四項世界第一。
這些由微軟、谷歌等巨頭發(fā)起和提出的榜單,吸引了包括英偉達、北京智源研究院、上海 AI Lab 在內的全球頂尖團隊同場競技。此次優(yōu)必選的勝出,不僅證明了其在機器人復雜環(huán)境感知、語義理解與長程任務規(guī)劃等核心維度的技術領先,更標志著其人形機器人 Walker S 具身智能的關鍵進化,真正讓機器人「看懂世界、自主完成任務」成為可能。
01
多模態(tài)感知+強推理規(guī)劃
賦能工業(yè)場景規(guī)?;瘧?/span>
在智能化浪潮席卷全球的當下,人形機器人的規(guī)劃能力已成為關鍵競爭維度之一。傳統(tǒng)機器人系統(tǒng)依賴預設指令執(zhí)行任務,難以應對高度動態(tài)、多變的現(xiàn)實場景。而本次三大基準測試的核心,正是針對人形機器人在復雜環(huán)境中的多模態(tài)感知和推理規(guī)劃能力進行系統(tǒng)化驗證。
MS COCO detection challenge 由微軟發(fā)起,是計算機視覺領域的權威評測基準之一, 在全球學術界與工業(yè)界享有極高認可度,常年被眾多頂尖論文與技術報告用作感知算法性能的衡量標準。
RoboVQA 和 Egoplan-bench2 則分別由谷歌 DeepMind 和香港大學提出, 致力于構建機器人第一視角推理與任務規(guī)劃的公開標準基準測試,重點關注多模態(tài)、長周期任務規(guī)劃能力。參與排名的模型包括北京智源、英偉達 ThinkAct、Cosmos-reason1、GPT-4V、Qwen2.5-vl 等。
優(yōu)必選 Thinker 在 MS COCO detection challenge - Segmentation Mask 中排名第一
優(yōu)必選 Thinker 在 MS COCO detection challenge - Bounding Box 排名中并列第一
優(yōu)必選 Thinker 在 RoboVQA 與 Egoplan-bench2 中排名第一
這一成績的背后,是優(yōu)必選自主研發(fā)的 Thinker 架構與訓練框架所提供的技術支撐, 通過多項關鍵技術創(chuàng)新性整合,系統(tǒng)化提升了人形機器人的感知與推理規(guī)劃能力,為工業(yè)場景的規(guī)模化應用奠定基礎。
Prompt:「Move the material box to the conveyor belt.」
Thinker:「First locate the conveyor belt, then place the material box.」
Walker S2 在工業(yè)場景中自主完成上料
第一,自研視覺編碼器基座,構建精準環(huán)境感知。 優(yōu)必選以 ViT 作為視覺編碼器原型,結合 Co-DETR 檢測頭,依托 Object 365 等開源數(shù)據(jù)在通用視覺任務上進行預訓練,并通過多階段模態(tài)對齊機制 實現(xiàn)了視覺-語言模態(tài)的高效融合。 最終,在優(yōu)必選機器人數(shù)據(jù)集上進行微調,顯著提升機器人在工業(yè)場景中對物體、障礙和操作上下文的識別能力,為復雜環(huán)境下穩(wěn)定可靠的多模態(tài)環(huán)境感知奠定了堅實基礎。
第二,超大規(guī)模參數(shù)架構,提供強大語義理解基礎。 優(yōu)必選自研了 具有百億參數(shù)的多模態(tài)大模型 Thinker 基座, 實現(xiàn)視覺-語言-時間的跨域統(tǒng)一表征,使機器人能夠在多場景中準確捕捉環(huán)境細節(jié)、理解任務指令并做出推理,為自動化操作提供可靠的認知基礎。
第三,時序增強算法與強化學習方法,增強長程任務規(guī)劃連貫可靠。 通過大模型蒸餾技術, 將百億參數(shù)模型效果濃縮至 7B 參數(shù)模型中, 在保持高性能的同時增強多步驟任務分解與連續(xù)決策能力。該優(yōu)化使模型可以在 端側部署, 用機器人自身搭載的算力就可實時自主拆解復雜流程, 避免規(guī)劃中斷或邏輯混亂, 在流程嚴格、環(huán)環(huán)相扣的工業(yè)場景中展現(xiàn)出關鍵價值,將有力保障生產連貫性和操作安全性。
02
通用基礎能力打造+工業(yè)場景精調
共創(chuàng)工業(yè)人形機器人應用生態(tài)
工業(yè)場景的精調策略正成為推動多模態(tài)大模型邁向實際應用的關鍵力量,為人形機器人在生產線上的穩(wěn)定、高效部署奠定了技術基礎,加速其從技術驗證走向規(guī)模化實戰(zhàn)應用的進程。
優(yōu)必選創(chuàng)新性地采用 「通用基礎能力打造+工業(yè)場景精調」的微調策略, 基于超 200 萬條視頻數(shù)據(jù)構成的大規(guī)模訓練集進行預訓練,隨后引入優(yōu)必選在工廠實訓中積累的億級工業(yè)數(shù)據(jù)集進行微調,并對工業(yè)場景任務規(guī)劃數(shù)據(jù)加以清洗與整合,構建高效多模態(tài)大模型學習閉環(huán)。通過這一流程,模型能夠快速學習工業(yè)場景的視覺特征、任務規(guī)則與操作偏好,最終 顯著提升人形機器人在工業(yè)場景中的理解準確率、規(guī)劃適配性與決策可靠性, 實現(xiàn)在多種復雜場景中的泛化性與穩(wěn)定性。
Prompt:「Move the material box onto the pile of boxes next to it.」
Thinker:「The middle slot is the best one for the material box.」
Walker S2 在工業(yè)場景中自主規(guī)劃任務
在 Thinker 大模型技術體系的全方位賦能下,優(yōu)必選新一代工業(yè)人形機器人 Walker S2 實現(xiàn)「最強大腦」再進化, 不僅具備高精準環(huán)境感知能力,更能夠在動態(tài)場景中高效完成任務分解、實時調整與穩(wěn)定規(guī)劃。借助 Thinker,Walker S2 可 精準識別設備、物料與障礙物,深度理解場景語義及操作前后邏輯關聯(lián),顯著提升長周期任務的執(zhí)行穩(wěn)定性。 在復雜流水線環(huán)境中,機器人展現(xiàn)出持續(xù)連貫的規(guī)劃能力,大幅降低對人工干預的依賴。
實際應用數(shù)據(jù)顯示,相比僅基于通用數(shù)據(jù)微調的模型,采用工業(yè)數(shù)據(jù)集進行二次微調后, Walker S2 在拆碼垛規(guī)劃等典型任務的中的規(guī)劃精度提升超過 20%, 有力驗證了該技術方案的產業(yè)化價值,相關技術報告將在 arxiv 上發(fā)布。
Prompt:「Move the material box onto the roller rack.」
Thinker:「First locate the roller rack and then place material box.」
Walker S2 在工業(yè)場景中自主規(guī)劃任務
當前,人形機器人正在進入大規(guī)模應用的關鍵階段,其發(fā)展亟需與開發(fā)者共同構建開放、協(xié)同的應用生態(tài)。為此, 優(yōu)必選將逐步開源一系列業(yè)界稀缺的工業(yè)場景數(shù)據(jù)集與通用基礎大模型, 為全行業(yè)提供源自實際應用一線的高質量合規(guī)數(shù)據(jù)資源。開發(fā)者可基于優(yōu)必選多模態(tài)大模型 Thinker,面向各類新場景開展精調與二次開發(fā),助力提升開發(fā)效率。我們期待與全球開發(fā)者攜手,共創(chuàng)工業(yè)人形機器人的應用生態(tài),為具身智能行業(yè)的加速發(fā)展注入持續(xù)動能。