北大、愛奇藝、微軟聯合提出全景視頻流媒體系統 提升VR觀影體驗
近日,愛奇藝與北京大學、微軟研究院共同完成了基于AI技術的全景視頻流 媒體 系統EPASS360的論文——《EPASS360: QoE-aware 360-degree Video Streaming over Mobile Devices》,論文被國際移動計算領域頂級刊物IEEE Transactions on Mobile Computing(簡稱TMC)接收。
該論文提出了一個全新的基于人工智能技術的全景視頻流媒體系統EPASS360,可以有效地應用于工業級全景視頻業務場景中。在現有家用寬帶、WiFi環境下,這個新系統解決方案將根據用戶視野所及范圍,預測分配碼率,保障用戶在觀看全景視頻時看到的畫面都足夠清晰且流暢。 受益于過去幾年視頻編解碼技術的發展和內容制作的經驗,如今全景視頻、交互式VR 游戲 等項目因其沉浸式的視覺體驗吸引了用戶的廣泛關注。
360度 VR 全景視頻能讓用戶獲得身臨其境的感覺,為了達到最佳全景視頻的視覺體驗,全景視頻需要被設定在8K、16K超高清分辨率模式,但目前家用寬帶、WiFi環境下,高碼率視頻流的網絡傳輸仍是了一項巨大的挑戰。考慮到在全景視頻播放的過程中,只有視野范圍內的畫面會呈現在顯示屏上,而其他部分的內容盡管被下載及解碼,但是用戶并不會觀看到。從這點出發,對全景視頻的編碼方案通常采用一種基于平鋪區塊式的方式,如下圖所示,即將原始等距柱狀投影圖編碼的畫面切分為網格狀,而后根據用戶的視窗的位置為各個區塊指定碼率,使得碼率集中在視窗中,從而既節約了帶寬又保證了視頻質量。
于是,全景視頻流媒體系統中的用戶體驗優化問題,可以轉化為對用戶視窗位置預測、對用戶帶寬預測和根據預測為各個區塊分配碼率三個子問題。論文所提出的 EPASS360是一個基于模式識別和集束搜索(beam search)的全景視頻流媒體系統。具體而言,該系統使用前沿的長短期記憶網絡(LSTM,Long Short-Term Memory)結合平臺日常積累的大數據進行精準的用戶視窗位置預估及帶寬模式識別。而后,根據預測模型給出的預測結果,EPASS360建立在未來若干個視頻片段上的用戶體驗最優化模型,并根據求解結果進行碼率分配。EPASS360采用現在主流的用戶體驗建模方式,即以播放進程中可實時統計的視窗內的畫面碼率(越高越好)、視窗內相鄰區塊的碼率差異(越小越好)、視窗內固定位置區塊的碼率變化(越小越好)、卡頓時長(盡可能避免)四方面測量信息作為優化目標。針對不同的場景或用戶偏好,四項指標的權重可以相應地進行調整。與許多傳統策略式流媒體系統不同的是,EPASS360可以根據不同的用戶體驗目標進行有針對性地優化,結合對播放進程的精準識別及預測,使得碼率分配更為合理。
EPASS360的設計既保證了碼率分配的有效性,又滿足了流媒體系統的實時性要求。并且,EPASS360最大程度復用了現有的全景視頻編碼方案及傳輸協議,降低了開發及部署成本。在平臺日常采集的數據集和公開學術數據集上的實驗表明,在各種用戶體驗目標下EPASS360可以使得畫面質量相較于常用的普通無平鋪切塊的全景視頻流媒體系統提升約50%(以PSNR指標計),并且在用戶體驗目標的最終評分上,相對于學術界最前沿的全景視頻流媒體系統,EPASS360能夠取得至少5%的提高。
總結而言,EPASS360探索了一種工業界全景視頻流媒體系統的解決方案,能夠有效地解決超高清全景視頻傳輸中帶寬利用率不高的問題,并以最小的代價實現為用戶打造最佳的觀影效果。