AI 換臉 ZAO 一晚,成本燒掉幾百萬
來源:量子位
唯一能阻止 ZAO 刷屏的,可能是服務器。
今天上午 10 點半左右,正在使用 ZAO 的用戶發現,想要生成一段新的 AI 換臉視頻,已經不是等待幾秒、排隊第幾位的問題,而是——
" 服務器繁忙 "
提示頁卡上寫著:當前制造任務已滿,無法制造,預計 10:XX 恢復能力。這里的 XX 大概是一段 10 分鐘左右的延時,不過只要 5、6 分鐘就能繼續處理。
10 點 45 分左右,這個提示變為更簡單粗暴的一句話:
" 當服務器制作量過大,請稍后再試 "
仔細看這句話,你以為是漏了一個字?不不不,只需要動用初中閱讀理解方法,就能推斷出這是運營方的一個暗示:
缺 " 前 "。
要知道,每個 ZAO 用戶換臉的背后,是熊熊燃燒的服務器成本。據 ZAO 官方透露的消息,一個晚上 ZAO 的服務器就能燒掉 200 多萬。(燒一天怎么也得 500 萬以上了吧)
這也足見 ZAO 的火爆。
為什么 ZAO 火了
AI 換臉,不是新鮮事。
2017 年底,國外一位 ID 為 "deepfakes" 的網友,利用業余時間創造了一個 AI 換臉算法。后來這個算法也被廣泛稱為 deepfakes。
這個機器學習算法,首先在小圈子炸開。在國外的 Reddit 論壇上,有一個 deepfakes 社區,一個月內聚集了 1.5 訂閱者,并產生了大量的 AI 換臉視頻。
隨后,這個社區逐漸變成了生產假冒愛情動作片的 " 黑窩點 " ——不少人用 AI 技術將色情作品中的主角換成明星的臉。有文化,真可怕。小電影,可造假。
也正是因為這樣,這個社區引發了大量的爭議,最后被徹底關掉。
但這個 AI 換臉這個技術,卻一直進化至今。比如今年初,B 站 UP 主 " 換臉哥 ",使用者個技術將 94 版《射雕》里朱茵扮演的黃蓉,換成楊冪的臉。
效果是真的好。(詳見:朱茵變楊冪,流量一個億)
還有徐錦江對戰滅霸、洪世賢換臉艾莉等等。(詳見:B 站名場面全被 AI 換臉調戲了一遍)
但,為什么 ZAO 大火特火了?
原因很簡單。因為 ZAO 最簡單。
最初的 deepfakes 只是一套算法,是基于 Keras 等多個開源庫完成的。后來有位高手添加了一些工具,封裝成引用 FakeApp。這是一個桌面應用,可以運行 deepfakes 算法,無需安裝 Python、TensorFlow 等,僅需要 " 支持 CUDA 的高性能 GPU"。
這聽起來簡單,但對于普通用戶來說,下載、安裝、訓練都是費時費力的大工程。所以通常都是一些愛好者制作發布,大家欣賞換臉后的成片。
而這次 ZAO 把門檻一下拉低到近乎沒有。
用戶想要體驗 AI 換臉,不再需要電腦、高性能 GPU、數據集、編程和 AI 知識,只需要一部 手機 ,一張自拍,就可以把多種影視場景中主角的臉,換成自己的臉。
這是一種前所未有的體驗,而且效果雖然不能說特別好,但通常情況下,都是相當不錯的,至少可以讓用戶有動力發到朋友圈去顯擺一下。
燒自己的錢,讓用戶爽,從這一點來說,ZAO 當然有火的理由。當然 ZAO 應該也不缺錢,畢竟背后是著名的公司:陌陌。
被質疑的隱私問題
當然越火,質疑聲就越大。
AI 換臉如此,ZAO 也是如此。現在 ZAO 面對的一些質疑,就是當初 deepfakes 出現的時候,曾經面對的質疑。
質疑一是 " 版權 " 之爭;二是倫理道德之爭。
顯而易見,deepfakes 是雙刃劍。這個簡單的應用可能會被居心叵測的用戶利用,從而制作各種色情、暴力甚至關乎政治的虛假視頻,一旦發生,后果可能非常嚴重。
這并非聳人聽聞。而且不只是視頻,AI 還能 " 造假 " 聲音。斯坦福和普林斯頓大學等最新研究:給定任意文本,就能隨意改變一段視頻里人物說的話。并且,改動關鍵詞后人物口型還能對得奇準無比,絲毫看不出篡改的痕跡,就像下面這樣:
蘋果 今日收盤價 191 塊 4,改成 182 塊 2 你也看不出來。
讓新垣結衣向你表白,讓石原里美大聲喊出你的名字,甚至隨便根據某個人的視頻偽造個人陳述 …… 現在都不在話下。
手握這項技術,在視頻中讓你怎么說你就怎么說,讓你說什么你就得說什么,誰也看不出來這是假的。對,臉和聲音都是你的,而且有視頻,但一切都是假的。
另外,ZAO 也讓很多用戶有強烈的隱私擔心。
畢竟這是一個需要上傳人臉數據的應用,而人臉作為生物識別信息,很多時候已經成為我們的重要資產的密碼。
比方韭菜教育專家李笑來就在微博上說:"ZAO 可能很危險的 … 別看你今天玩得開心,過段時間就有可能你的支付寶被盜刷臉了?不過這事兒很難怪 ZAO,誰讓你認知淺薄了呢?"
還有 ZAO 用戶、隱私協議里的一些話,也被很多人拿出來質疑。
比如上面這句,就被集火抨擊。
當然還有人替 ZAO 著急,畢竟之前大火過的各種換臉應用。基本上都難逃一陣風的宿命,親愛的用戶們新鮮勁很快就過去了,保質期可能都不到一個禮拜。
換臉背后的技術
ZAO 沒有公布背后的技術細節,但 AI 換臉本質上都是大同小異。
前幾天,有個國外的團隊制作出毫無破綻的換臉視頻,同時也披露了背后的技術細節。那就是開源項目:DeepFaceLab。
DeepFaceLab 是 Deepfakes 換臉術的一個軟件工具包,安裝簡單,使用方便,更新及時。在 GitHub 上已有 5000 多星。
代碼公開是一方面。另一方面,從項目描述看,不需要太多算力就能跑 ( 詳見下文 ) 。總體說來門檻很低。
軟件包里有多種模型,各有特點:
H64 ( 2GB+ 顯存 ) ,64 像素模式。這是經典模型,DeepFakes 最初揚名就是靠它。DeepFaceLab 對它做了些改進,讓這個模型在低顯存情況下也能用低配置參數運行。
H128 ( 3GB+ 顯存 ) ,128 像素模型,比 H64 像素更高,細節更豐富。能應對大部分遠景和中景鏡頭,適合亞洲臉型。
DF ( 5GB+ 顯存 ) ,H128 的全臉模型。它換出來的臉通常比 H128 更像,但兼容性更差,邊緣問題突出。
LIAEF128 ( 5GB+ 顯存 ) ,結合了 DF,IAE 的改進型 128 全臉模型。這個模型存在閉眼識別問題。
SAE ( 最低配置 2GB+,推薦配置 11GB+ ) ,風格化的編碼器,基于風格損失的新型超級模型。可以有效重建被遮擋的臉。可玩性高,參數可調,調優空間大。
DeepFaceLab 唯一的安裝要求就是對應版本的顯卡驅動,甚至不需要 CUDA 和 CuDNN。
軟件的中文官網提供了下載通道 ( 有無需魔法的百度網盤版本 ) ,以及詳細的安裝教程。
同時還自帶許多人臉圖片數據。
官網說,DeepFaceLab 雖然沒有可視化界面,但步驟非常清晰,操作并不復雜。
換臉主要分為五個階段:
視頻轉圖片、提取臉部、訓練模型、人臉替換、合成視頻。
每個步驟只需點擊 BAT 文件即可執行。
想要入門 AI 換臉的小伙伴,也可以在 DeepFaceLab 中文官網找到豐富的教程:
https://www.deepfakescn.com/
雖然,DeepFaceLab 描述的硬件要求不高,但 ctrl shift face 能做到今天的效果,背后很可能有貴貴的 GPU 在燃燒 ( 盡管沒披露技術細節,不知道有沒有改進算法 ) 。
自學換臉配置指南
最后,貼一個量子位之前就發過的指南。如何才能自己動手搞 AI 換臉。
目前網上已經有 fakeapp、faceswap、deepfacelab 等一大批現成換臉軟件,只要有夠強的硬件,你也能自制一段換臉視頻。
這些軟件都一個基本要求,就是必須支持英偉達的 CUDA。
通俗地說,如果你最近幾年為了玩吃雞這類 游戲 配置了一臺 PC,而且安裝的是英偉達的獨立顯卡,那么運行 Deepfakes 應該是沒問題的。
根據國外網友的實測效果,要運行 fakeapp 且電腦不崩潰,至少需要以下配置:
至少有 2GB 顯存的英偉達 GPU
英特爾 i3 或者 AMD 9 處理器
8GB 內存
20GB 剩余硬盤空間
以上只是最低的配置,制作一個換臉視頻可能需要幾天才行,是不是感到電費在燃燒?如果為了省事中途截斷,效果會慘不忍睹。
去年 科技 媒體 The Verge 的記者還真試了一把,她的電腦給人換臉大概需要一天的時間,如果只訓練幾個小時,結果根本沒法看:
從電腦屏幕上來看,訓練過程是這樣的:
如果你不想每天早晨打開電腦都看到上面的畫面,那么我們推薦以下配置,它能講訓練時間縮短到只有幾個小時:
至少 4GB 顯存的英偉達 GPU(GTX 9 系或者更高,多數網友推薦 GTX 1060 6GB 顯存,售價 1699 元)
英特爾 i5 或 AMD Ryzen 處理器(以 i5-8400 為例,售價 1599 元)
12GB 內存(購買 2 條 8GB 內存,總價 700 元)
100GB 剩余硬盤空間(考慮到其他占用空間,購買 250GB 固態硬盤,價格大約 300 元)
以上只是主要部件的價格,再加上主板、電源、機箱,總的主機(不包括顯示器)價格區間在 5000~6000 元之間。
需要注意的是,在這里,硬盤空間比硬盤讀寫速度更重要。
因為訓練 Deepfake 過程中大約每分鐘會產生 1GB 的圖像文件,通常 SSD 的空間較小,如果被訓練數據占滿,將會導致 SSD 性能下降。而機械硬盤的性能幾乎不受剩余空間影響,非常適合用在訓練 Deepfake 中。
當然,除了軟硬件條件,你還得準備相應的視頻素材。
最后友情提示,你自己準備好軟硬件,也需要面臨最開始提到的,錢的問題。根據 Deepfake 軟件要求的硬件配置和訓練時間,換一次臉就需要燒掉至少一度電以上。