Skywork UniPic開源了!從零預訓練打造圖片生成、理解和編輯一體化模型,生圖效果達SOTA
7月30日,昆侖萬維正式推出并開源采用自回歸路線的「多模態統一預訓練模型? Skywork UniPic 」,在單一模型中深度融合圖像理解、文本到圖像生成、圖像編輯三大核心能力。該模型基于大規模高質量數據進行端到端預訓練,具備良好的通用性與可遷移性。
秉持開放協作、共享創新的理念,昆侖萬維面向社區全面開放 Skywork UniPic 的核心資源:
模型權重 :
01
Skywork UniPic:統一自回歸模型實現圖片生成、編輯與理解一體化
GPT-4o的迅速走紅,標注著人工智能領域多模態統一預訓練模型的成熟。Skywork UniPic 延續了 GPT-4o 的自回歸范式,在單一模型中深度融合圖像理解、文本生成圖像(T2I)與圖像編輯三大核心任務,構建了真正統一的多模態模型架構。
傳統多模態統一模型多依賴 VQ 或 VAE 編碼器來壓縮視覺內容,雖然具備一定效果,但也存在局限性,它們更側重保留圖像的視覺細節而非語義信息,這會在一定程度上削弱模型的圖像理解能力。
為此,Skywork UniPic 團隊借鑒 Harmon 架構設計,并在表征方式上做出關鍵調整:采用 MAR 編碼器作為圖像生成路徑的視覺表征基礎,同時引入 SigLIP2 作為圖像理解路徑的主干。
該結構設計的核心洞察在于:能否構建一個輕量級統一模型,在保持實際部署可行性的同時,在理解、生成與編輯任務上均達到頂尖性能?
Skywork-UniPic 模型核心能力包含:
圖文理解: 基于 token 預測完成文本的自回歸建模
圖像生成 :采用掩碼自回歸方式,逐步生成圖像 patch
圖像編輯: 引入參考圖與編輯指令作為條件,生成編輯后的圖像
此外,Skywork-UniPic 完成端到端優化流程,能夠實現生成、理解、編輯三大能力的協同訓練和相互促進,突破傳統方法中能力權衡的技術瓶頸。
這一架構設計不僅保持了自回歸模型的簡潔高效,更通過共享編碼器實現了跨任務的深度協同,為多模態統一模型的實用化部署奠定了堅實基礎。
用戶只需要輸入提示詞,Skywork-UniPic 既可以像 VLM 一樣理解圖像、像 T2I 模型一樣生成圖片,還可以像美圖工具一樣,一鍵實現風格轉繪/吉卜力化的編輯功能。
02
模型優勢:1.5B 輕量級規模性能逼近同類大參數統一模型,詮釋了“小而美”的技術美學
團隊在追求模型能力極限的同時,也堅持效率重要性的設計理念。Skywork UniPic 以 1.5B 的緊湊參數規模,真正詮釋了“小而美”的技術美學:
多重技術亮點
指令遵循能力媲美大型模型: 在 GenEval 指令遵循評估中取得 0.86 的優異成績,超越了絕大多數同類統一模型,在無 CoT 的情況下取得了 SOTA 分數,逼近較大模型 BAGEL(7B+7B*)帶 CoT 的 0.88 分;
復雜指令生圖能力領先: 在 DPG-Bench 復雜指令生圖基準上達到 85.5 分的行業 SOTA 水平;
圖像編輯能力統一模型第一梯隊: GEditBench-EN 獲得 5.83 分,ImgEdit-Bench 達到3.49分,展現出精準的編輯執行能力;
參數效率優勢顯著: 相比同類大參數統一模型(如 BAGEL 的 14B 總參數、UniWorld-V1 的 19B 總參數),Skywork UniPic 以 1.5B 的輕量級規模實現了接近甚至超越大參數模型的性能表現;
部署友好,真正可落地: 模型在 RTX 4090 消費級顯卡上均可流暢運行,為廣大開發者和研究者提供了真正可落,地的統一模型解決方案,大幅降低了技術應用門檻。
03
Skywork-UniPic是怎樣煉成的?