昆侖萬維「Skywork UniPic 2.0」開源,統(tǒng)一多模態(tài)模型再迎新突破
8月11日,昆侖萬維SkyWork AI技術(shù)發(fā)布周正式啟動(dòng)。8月11日至8月15日,我們每天發(fā)布一款新模型,連續(xù)五天,覆蓋多模態(tài)AI核心場(chǎng)景的前沿模型。截至目前,我們已經(jīng)發(fā)布SkyReels-A3、Matrix-Game 2.0、Matrix-3D模型。
8月13日,昆侖萬維正式開源「Skywork UniPic 2.0」模型——面向統(tǒng)一多模態(tài)建模的高效訓(xùn)練和推理框架,圍繞生成和編輯模塊輕量化、連接多模態(tài)理解模型進(jìn)行聯(lián)合訓(xùn)練,構(gòu)建了理解、生圖、編輯一體化的核心能力,旨在實(shí)現(xiàn)“高效、高質(zhì)、統(tǒng)一”的多模態(tài)生成模型。
當(dāng)前,「Skywork UniPic 2.0」及其系列模型已全面開源,涵蓋模型權(quán)重、推理代碼、強(qiáng)化策略等,助力開發(fā)者與研究者快速上手并構(gòu)建多模態(tài)應(yīng)用。
「Skywork UniPic 2.0」由三個(gè)核心模塊組成:
生圖編輯(下圖中): 基于 SD3.5-Medium 架構(gòu)將原本只支持文本輸入的模型改進(jìn)成也接受文本圖像同時(shí)輸入,然后通過高質(zhì)量圖像生成和編輯數(shù)據(jù)的訓(xùn)練將原本生圖能力擴(kuò)展成生圖、編輯雙能力。
統(tǒng)一模型能力(下圖左側(cè)與中間): 通過凍結(jié)生圖編輯模塊,多模態(tài)模型(Qwen2.5-VL-7B),Pre-Train連接器來構(gòu)建出理解生成編輯一體化能力,再通過連接器和生圖編輯模塊一起聯(lián)合微調(diào),實(shí)現(xiàn)最終的一體化理解、生圖、編輯模型。
生圖編輯后訓(xùn)練(下圖右): 為提升生圖編輯整體性能,設(shè)計(jì)了基于Flow-GRPO的漸進(jìn)式雙任務(wù)強(qiáng)化策略,實(shí)現(xiàn)了生成與編輯任務(wù)在不互相干擾下的協(xié)同優(yōu)化,在預(yù)訓(xùn)練的基礎(chǔ)上進(jìn)一步提升了模型性能。
圖丨昆侖萬維Skywork UniPic 2.0核心組成模塊
升級(jí)后的「Skywork UniPic 2.0」具備以下核心優(yōu)勢(shì):
生成模塊輕量高效,性能拉滿
生成模塊基于2B參數(shù)的SD3.5-Medium 架構(gòu)訓(xùn)練,生圖和編輯指標(biāo)超越生成模塊具有7B參數(shù)的bagel,4B參數(shù)的OmniGen2,12B參數(shù)的UniWorld-V1和Flux-kontext模型。
引入強(qiáng)化學(xué)習(xí),效果顯著
基于Flow-GRPO首創(chuàng)漸進(jìn)式雙任務(wù)強(qiáng)化策略,有效提升模型對(duì)復(fù)雜指令的理解能力與圖像生成和編輯的一致性,兩大任務(wù)協(xié)同優(yōu)化、互不干擾。
一體化靈活切換,拓展能力強(qiáng)
將生圖編輯的Kontext模型與多模態(tài)模型端到端整合,微調(diào)輕量連接器,即可快速構(gòu)建統(tǒng)一理解-生成-編輯模型,并且生圖和編輯的性能進(jìn)一步提升。
UniPic2-SD3.5M-Kontext作為單一模型,雖然只有2B的參數(shù)量,但生圖指標(biāo)超越了具有12B參數(shù)量的Flux.dev、編輯效果超越了同樣具有12B參數(shù)量的Flux-Kontext。同樣超越了幾乎所有統(tǒng)一模型的生圖和編輯效果,包括19B的UniWorld-V1和14B的Bagel。
此外,將UniPic2-SD3.5M-Kontext拓展成統(tǒng)一模型UniPic2-Metaquery后,效果得到了進(jìn)一步的提升。
圖丨昆侖萬維Skywork UniPic 2.0系列模型評(píng)測(cè)結(jié)果
在優(yōu)秀的理解、生成和編輯能力背后,昆侖萬維Skywork團(tuán)隊(duì)在預(yù)訓(xùn)練、聯(lián)合訓(xùn)練和后訓(xùn)練階段均作出創(chuàng)新性優(yōu)化。