欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

昆侖萬維「Skywork UniPic 2.0」開源，統(tǒng)一多模態(tài)模型再迎新突破

砍柴網(wǎng) ? 3天前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個(gè)廣告，點(diǎn)擊進(jìn)來看看。

8月11日，昆侖萬維SkyWork AI技術(shù)發(fā)布周正式啟動(dòng)。8月11日至8月15日，我們每天發(fā)布一款新模型，連續(xù)五天，覆蓋多模態(tài)AI核心場(chǎng)景的前沿模型。截至目前，我們已經(jīng)發(fā)布SkyReels-A3、Matrix-Game 2.0、Matrix-3D模型。

8月13日，昆侖萬維正式開源「Skywork UniPic 2.0」模型——面向統(tǒng)一多模態(tài)建模的高效訓(xùn)練和推理框架，圍繞生成和編輯模塊輕量化、連接多模態(tài)理解模型進(jìn)行聯(lián)合訓(xùn)練，構(gòu)建了理解、生圖、編輯一體化的核心能力，旨在實(shí)現(xiàn)“高效、高質(zhì)、統(tǒng)一”的多模態(tài)生成模型。

當(dāng)前，「Skywork UniPic 2.0」及其系列模型已全面開源，涵蓋模型權(quán)重、推理代碼、強(qiáng)化策略等，助力開發(fā)者與研究者快速上手并構(gòu)建多模態(tài)應(yīng)用。

「Skywork UniPic 2.0」由三個(gè)核心模塊組成：

生圖編輯（下圖中）： 基于 SD3.5-Medium 架構(gòu)將原本只支持文本輸入的模型改進(jìn)成也接受文本圖像同時(shí)輸入，然后通過高質(zhì)量圖像生成和編輯數(shù)據(jù)的訓(xùn)練將原本生圖能力擴(kuò)展成生圖、編輯雙能力。

統(tǒng)一模型能力（下圖左側(cè)與中間）： 通過凍結(jié)生圖編輯模塊，多模態(tài)模型（Qwen2.5-VL-7B），Pre-Train連接器來構(gòu)建出理解生成編輯一體化能力，再通過連接器和生圖編輯模塊一起聯(lián)合微調(diào)，實(shí)現(xiàn)最終的一體化理解、生圖、編輯模型。

生圖編輯后訓(xùn)練（下圖右）： 為提升生圖編輯整體性能，設(shè)計(jì)了基于Flow-GRPO的漸進(jìn)式雙任務(wù)強(qiáng)化策略，實(shí)現(xiàn)了生成與編輯任務(wù)在不互相干擾下的協(xié)同優(yōu)化，在預(yù)訓(xùn)練的基礎(chǔ)上進(jìn)一步提升了模型性能。

昆侖萬維「Skywork UniPic 2.0」開源，統(tǒng)一多模態(tài)模型再迎新突破

圖丨昆侖萬維Skywork UniPic 2.0核心組成模塊

升級(jí)后的「Skywork UniPic 2.0」具備以下核心優(yōu)勢(shì)：

生成模塊輕量高效，性能拉滿

生成模塊基于2B參數(shù)的SD3.5-Medium 架構(gòu)訓(xùn)練，生圖和編輯指標(biāo)超越生成模塊具有7B參數(shù)的bagel，4B參數(shù)的OmniGen2，12B參數(shù)的UniWorld-V1和Flux-kontext模型。

引入強(qiáng)化學(xué)習(xí)，效果顯著

基于Flow-GRPO首創(chuàng)漸進(jìn)式雙任務(wù)強(qiáng)化策略，有效提升模型對(duì)復(fù)雜指令的理解能力與圖像生成和編輯的一致性，兩大任務(wù)協(xié)同優(yōu)化、互不干擾。

一體化靈活切換，拓展能力強(qiáng)

將生圖編輯的Kontext模型與多模態(tài)模型端到端整合，微調(diào)輕量連接器，即可快速構(gòu)建統(tǒng)一理解-生成-編輯模型，并且生圖和編輯的性能進(jìn)一步提升。

UniPic2-SD3.5M-Kontext作為單一模型，雖然只有2B的參數(shù)量，但生圖指標(biāo)超越了具有12B參數(shù)量的Flux.dev、編輯效果超越了同樣具有12B參數(shù)量的Flux-Kontext。同樣超越了幾乎所有統(tǒng)一模型的生圖和編輯效果，包括19B的UniWorld-V1和14B的Bagel。

此外，將UniPic2-SD3.5M-Kontext拓展成統(tǒng)一模型UniPic2-Metaquery后，效果得到了進(jìn)一步的提升。

昆侖萬維「Skywork UniPic 2.0」開源，統(tǒng)一多模態(tài)模型再迎新突破

圖丨昆侖萬維Skywork UniPic 2.0系列模型評(píng)測(cè)結(jié)果

在優(yōu)秀的理解、生成和編輯能力背后，昆侖萬維Skywork團(tuán)隊(duì)在預(yù)訓(xùn)練、聯(lián)合訓(xùn)練和后訓(xùn)練階段均作出創(chuàng)新性優(yōu)化。

隨意打賞

字節(jié)跳動(dòng)Seed開源VeOmni框架

i黑馬 ? 3分鐘前

8月14日，字節(jié)跳動(dòng)Seed團(tuán)隊(duì)發(fā)布并開源了全模態(tài)PyTorch原生訓(xùn)練框架——VeOmni。據(jù)介紹，VeOmni采用以模型為中心的分布式訓(xùn)練方案，可將復(fù)雜的分布式并行邏輯與模型計(jì)算解耦，為全模態(tài)模型組合設(shè)置高效的并行訓(xùn)練方案。這一方式可大幅降低工程開銷，提升訓(xùn)練效率和擴(kuò)展性，將數(shù)周的工程開發(fā)時(shí)間縮短至幾天。文章評(píng)價(jià)匿
智元機(jī)器人發(fā)布行業(yè)首個(gè)機(jī)器人世界模型開源平臺(tái)

i黑馬 ? 25分鐘前

8月14日，智元機(jī)器人正式發(fā)布行業(yè)首個(gè)機(jī)器人世界模型開源平臺(tái)——GenieEnvisioner(簡(jiǎn)稱GE)。不同于傳統(tǒng)“數(shù)據(jù)-訓(xùn)練-評(píng)估”割裂的流水線模式，GE將未來幀預(yù)測(cè)、策略學(xué)習(xí)與仿真評(píng)估首次整合進(jìn)以視頻生成為核心的閉環(huán)架構(gòu)，使機(jī)器人在同一世界模型中完成從“看”到“想”再到“動(dòng)”的端到端推理與執(zhí)行。文章評(píng)價(jià)匿名用戶
華為發(fā)布AI推理創(chuàng)新技術(shù)UCM，計(jì)劃于9月開源

i黑馬 ? 1天前

8月12日，華為正式發(fā)布AI推理創(chuàng)新技術(shù)UCM（推理記憶數(shù)據(jù)管理器）。據(jù)了解，作為一款以KV Cache為中心的推理加速套件，UCM融合了多類型緩存加速算法工具，分級(jí)管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù)，可擴(kuò)大推理上下文窗口，實(shí)現(xiàn)高吞吐、低時(shí)延的推理體驗(yàn)，降低每Token推理成本。華為計(jì)劃于9月正式開源UCM，
深化戰(zhàn)略合作，優(yōu)刻得接入智譜最強(qiáng)開源多模態(tài)GLM

砍柴網(wǎng) ? 2天前

今天，優(yōu)刻得正式與國(guó)內(nèi)領(lǐng)先大模型廠商智譜簽署合作協(xié)議，雙方將在模型能力部署、云端服務(wù)優(yōu)化、行業(yè)場(chǎng)景落地等多個(gè)維度展開全面合作。優(yōu)刻得通過部署并集成智譜GLM4.5以及GLM-4.5V，將模型的強(qiáng)大能力融入自研UModelVerse平臺(tái)，打造低延遲、高性能、即開即用的大模型云服務(wù)，攜手拓展大模型在更多應(yīng)用場(chǎng)景中的落地路徑
智譜發(fā)布新一代開源視覺模型GLM

i黑馬 ? 3天前

8月11日，智譜官微宣布推出開源視覺推理模型GLM-4.5V（總參數(shù)106B，激活參數(shù)12B），并同步在魔搭社區(qū)與Hugging Face開源。據(jù)介紹，GLM-4.5V基于智譜新一代旗艦文本基座模型GLM-4.5-Air，延續(xù)GLM-4.1V-Thinking技術(shù)路線，在41個(gè)公開視覺多模態(tài)榜單中綜合效果達(dá)到同級(jí)別開源
DeepMind 沒舍得開源的 Genie 3，被昆侖萬維放出來了

雷鋒網(wǎng) ? 3天前

過去一周，世界模型賽道的熱度被推到新高。DeepMind 剛發(fā)布的 Genie 3 展示了交互式、實(shí)時(shí)、長(zhǎng)序列生成的能力，讓“虛擬世界隨時(shí)可玩、可控”從概念變成了可見的產(chǎn)品形態(tài)。不過，Genie 3 雖然驚艷，卻并未開源，這讓不少開發(fā)者只能停留在猜測(cè)其技術(shù)細(xì)節(jié)的階段。然而 DeepMind 沒做到的事，昆侖萬維做到了。
反超OpenAI，百川開源大模型醫(yī)療能力登頂世界第一

砍柴網(wǎng) ? 4天前

8月11日，百川智能發(fā)布開源醫(yī)療增強(qiáng)大模型Baichuan-M2。OpenAI于8月6日開源兩款大模型，主打部署成本超低和醫(yī)療能力最強(qiáng)；僅僅5天后，百川開源更小尺寸模型并實(shí)現(xiàn)醫(yī)療能力反超，在所有開源模型中登頂世界第一。今年1月，百川在行業(yè)內(nèi)首發(fā)“AI患者模擬器”，用真實(shí)數(shù)據(jù)構(gòu)造上萬個(gè)不同年齡性別癥狀的AI患者，模擬了數(shù)
開源鴻蒙城市技術(shù)沙龍深圳站暨AI Model SIG 線下分享會(huì)成功舉辦

砍柴網(wǎng) ? 5天前

8月9日，“開源鴻蒙城市技術(shù)沙龍·深圳站”暨“AI Model SIG線下分享會(huì)”（以下簡(jiǎn)稱“活動(dòng)”）在深圳成功舉辦。本次活動(dòng)聚焦AI技術(shù)與開源鴻蒙的融合實(shí)踐，匯聚了來自開源鴻蒙社區(qū)、開鴻智谷、視美泰、佳都科技、瑞莎等多位技術(shù)專家，圍繞芯片平臺(tái)適配、AI框架移植、模型推理部署等維度，分享了
2025開放計(jì)算技術(shù)大會(huì)|開源開放推動(dòng)系統(tǒng)創(chuàng)新加速AIDC全球協(xié)作

砍柴網(wǎng) ? 7天前

8月7日，2025開放計(jì)算技術(shù)大會(huì)在北京舉行。大會(huì)聚焦在MoE大模型與AI智能體的技術(shù)發(fā)展趨勢(shì)下，如何以開放計(jì)算更好的促進(jìn)縱向擴(kuò)展性能（Scale up）與橫向擴(kuò)展效率（Scale out）的協(xié)同發(fā)展。當(dāng)前，模型算法開源、算力系統(tǒng)開放，已經(jīng)成為AI時(shí)代一個(gè)主流趨勢(shì)，開源開放的全球化協(xié)作平臺(tái)正發(fā)揮越來越重要的作用，既能以

評(píng)論

提交建議