昇騰算力賦能視頻生成革命 浙江大學團隊攻克長時一致性難題
隨著以 Sora 為代表的視頻生成模型技術的演進,長視頻生成領域在維持長時序內容一致性以及平衡生成質量與計算資源效率方面面臨挑戰。浙江大學 鯤鵬昇騰科教創新卓越中心計算機學院研究員朱霖潮團隊基于此課題持續深耕并取得重要進展。依托昇騰AI基礎軟硬件平臺,該團隊提出的技術方案有效提升了長視頻內容一致性,同時顯著優化了視頻生成過程中的計算效率。
針對長序列視覺指令生成的核心技術難題,項目團隊成功研發首個無需訓練的長序列視覺指令生成框架LIGER,實現了歷史提示和視覺記憶機制,以及基于DDIM反演的記憶校準技術。依托昇騰的編碼加速能力,通過對每個步驟的圖像特征進行采樣和存儲,捕捉前序步驟中的關鍵視覺信息,并將其注入到自注意力機制中,確保步驟間的視覺連貫性。同時,通過自反思機制糾正圖像中的屬性錯誤、邏輯錯誤、對象冗余和身份不一致等問題,使用多種圖像編輯工具進行精確修正。該系統在長序列任務中展現出優異的邏輯連貫性和對象屬性準確性,顯著提升了視覺指令的理解性和實用性。
在計算效率方面,項目團隊提出了基于昇騰平臺優化的引導式漸進蒸餾方法,通過在線教師引導、漸進式蒸餾和高頻細節保護三項關鍵技術,成功加速了視頻擴散模型的生成過程。該方法讓教師模型實時優化學生模型的中間預測以創建自適應訓練目標,通過多階段訓練逐步增加步長將復雜軌跡學習分解為可管理的任務,并引入頻域損失函數保持視頻精細細節。在保持視頻高質量輸出基礎上,該方法實現8倍加速。
該項目創新性地將大語言模型推理能力與視頻生成技術相結合,為多模態交互研究開辟了新方向。目前,研究成果已成功入選人工智能頂級會議ICLR 2025,獲得國際學術界的高度認可。項目構建的包含569個任務的評估數據集,為后續研究提供了重要基準。
未來,浙江大學 鯤鵬昇騰科教創新卓越中心將依托昇騰AI基礎軟硬件平臺,持續深化產學研協同創新,著力突破多模態生成技術的核心瓶頸,構建自主創新、技術領先的多模態生成技術生態體系,并為國家人工智能戰略與數字 經濟 發展儲備核心創新力量。