不止換臉,神經網絡還能讓你看到30年前的4K電影
(原標題:不止能換臉,神經網絡還能讓你看到 1896 年的「 4K 」電影)
說到神經網絡,你第一個想到的什么,有不少人第一個想到的應該是前段時間大火的換臉 APP「ZAO」,神經網絡在圖片領域堪稱「魔法」的應用第一次展現在每一個普通用戶面前。
不少用戶在使用過 ZAO 后,對神經網絡產生了「技術恐懼」,擔心 ZAO 會對自己的肖像權產生侵害,ZAO 也因為種種原因迅速下架,成為技術應用的「負面典型」。
但神經網絡還有另一種用法,那就是對圖像進行增強。
▲ 1895年的電影《火車進站》圖片來自:wiki
神經網絡翻新老電影
最近,國外一個 YouTuber 發布了通過神經網絡增強的1895年拍攝的紀錄片《火車進站》,整部電影只有45秒長度,由路易?盧米埃和奧古斯特?盧米埃拍攝于法國一沿海城市。
▲ 經過神經網絡增強的《火車進站》電影
傳說放映到火車駛向鏡頭的時候,大量觀眾驚恐的從劇院跑出,展現了當時人們對新技術的好奇和恐懼。當然,這些往事都已經成為了都市傳說。
不過由「新技術」的神經網絡對這部電影進行翻新,也有著深遠的意義。
1895年拍攝的《火車進站》采用35mm 格式膠片制作,由于當時的放映機由手搖進行驅動,我們可以粗略的認為其原始幀率在16幀到24幀之間。
▲ 1895年拍攝的《火車進站》原片
由于當時的膠片技術尚未成熟,我們可以看到畫面景物都是比較模糊的,火車在駛來的同時還帶有明顯的拖影。
但經過了神經網絡的畫面分辨率增強和插幀之后,這部老電影獲得了4K ~ 60fps 的畫質。如果不是電影黑白的畫面和膠片電影獨有的畫面抖動,畫面流暢度和清晰度幾乎可以與現在的智能手機相媲美。
是什么讓神經網絡在圖像增強和插幀上有著這樣的效果呢?
我們知道,數字視頻的清晰度一般由分辨率和幀率決定(暫且不考慮影響圖像壓縮質量的碼率)。神經網絡對視頻的增強,也主要集中在這兩種參數上。
分辨率增強
首先我們來談談分辨率增強,想要將一張低分辨率的圖片變成高分辨率的圖片,我們就需要猜測放大產生的未知像素。通常情況下,我們會采用某種插值算法進行計算,在圖像邊緣的模糊和鋸齒間獲得平衡,這種計算通常無法增加圖像細節,即使放大了圖像,依舊顯得很模糊。
▲?waifu2x SRCNN 算法與傳統算法的對比
神經網絡在增強分辨率上就有著獨到的優勢,或許你之前曾經聽說過一個軟件 waifu2x ,動漫愛好者們經常用它來放大動漫插圖。當然,它同樣可以用作照片放大。
waifu2x 的核心方法就是通過機器學習,訓練一個端到端的網絡,使用低分辨率的圖像作為輸入得到對應的高分辨率結果圖像,最后得到的結果在圖像的鋸齒與模糊程度有較好表現,其訓練的原理類似于 FCN 模型。
▲ 不同算法在視頻分辨率增加上的效果 圖片來自:download.co.jp
在效果上,waifu2x 的 SRCNN(超分辨率卷積神經網絡)要好于傳統的雙三次插值算法。
當然,waifu2x 的算法僅能在靜態圖片上使用。不過方法都是相同的,madvr 中放大視頻分辨率的 ngu 算法也是類似的原理。
視頻插幀
對于視頻插幀來說,神經網絡也有自己的用武之地,之前英偉達發布了一個叫做 Super SloMo 的神經網絡,能通過聯合建模的運動解釋和遮擋推理配合光流算法生成中間幀。
這種技術能將原本30幀的視頻放慢到240幀,并在其中添加畫面的運動細節。
華為 Mate 30 Pro 的7680幀慢動作,也是通過神經網絡對1080P/960fps 的視頻插幀生成的。可見類似的神經網絡插幀算法確實有很高的使用價值。
寫在最后:技術是一把雙刃劍
可以看到,神經網絡對圖像的處理(也就是常說的 AI 圖像)并不是一個很可怕技術,它是一把雙刃劍,如果你用它來給視頻換臉,侵犯他人肖像權,它就是不好的技術。
但如果我們能將其用在老電影翻新、手機超級慢動作、和實時視頻增強,那它就是好技術。
或許那位翻新《火車進站》的 YouTuber,也正是想用這部電影的傳奇故事告訴我們,「不要恐懼新技術的到來。」