百度推廣信息審核的三重門
為大規模用戶提供的互聯網服務,從一開始就要提前考慮的問題是什么呢?答案是反垃圾(anti-spam)。如果互聯網服務不具備反垃圾能力,正常的服務根本開展不下去,在流行起來之后分分鐘會被網絡垃圾摧毀。這也是為何美國第七大網站,分類目錄鼻祖Craigslist只有幾十個人的團隊里,超過三分之二是反垃圾技術人員的原因。
近日,百度公布了一組數據來證明自身在信息審核方面的進展與努力,披露出來的數字極為驚人。百度目前已屏蔽有害鏈接38億條,站點級別已超1億個。2015年百度的廣告系統已拒絕了不良賬戶438300個,判罰的違規消費金額達到了4.67億元,還為公安機關提供了許多造假售假線索。
百度是世界上流量最大的網站之一,也是中國大陸流量最大的網站,日搜索請求達60億次以上。百度用戶是最具多樣性特征的,用戶屬性可以說是無所不包,這也正應了那句話,林子大了什么鳥都有。門類齊全的有害信息,包括違法與有害廣告,都想通過百度這個平臺進行傳播,如果百度不具備相應的反垃圾技術和有害信息過濾技術,是根本做不到如今這個規模的。
這世界上所有的搜索引擎,無一例外都會遇到類似問題。谷歌2015年全年共去除了7.8億條違反其政策的廣告,比2014年的5.24億條增長了近50%。這個增長率比正常商業廣告還快,有數不清的違法廣告希望通過搜索引擎謀取利益,不把好關就天下大亂了。百度也一樣,每天有4.7億條廣告通過百度廣告系統送審,每秒要處理5000條以上,這基本已不是人力能解決的問題了。同谷歌一樣,百度也主要是通過技術手段來對廣告進行審查和過濾。據披露,百度為此有專門的“黑科技”系統,負責審查甄別各種虛假違規推廣內容。
不同的反垃圾技術,在處理原則上都是一樣的,首先是機器發現異常內容后提交進一步審核的預警機制、第二是發現異常內容后的批量處理機制、第三是處理完異常內容之后防止再次出現的屏蔽機制。這幾個步驟說起來容易,做起來很難,尤其對百度這樣流量巨大的公司來說。技術跟不上的話就只能增加人工審核力量,這會給公司造成巨額成本支出,而技術跟不上又花不起錢的話,公司遲早會被垃圾信息拖死。好在,經過十幾年運營經驗和技術研發的積累之后,百度已擁有了一套非常有效的機器審核過濾系統。
以大數據為基礎的“雷達系統”,是百度在審核與過濾有害信息及非法廣告的一個利器,可以實現對95%以上的信息進行自動審核。這個系統與百度搜索本身有相似之處,通過將信息的IP、ID,來源,語義內容等素材進行大數據比對,從而發現有害信息及違法廣告。系統擁有強大的數據采集能力,豐富的數據分析維度,還有快速而準確的瞬時數據處理能力,這其中的每一種技術都不是大多數公司所能夠掌握的。
在一個包含10萬字節的word文檔中,個人PC基本能做到瞬間就將相同的字詞找出來,可如果需要查詢的字節是10億量級的,且來自于開發標準不同,包含各種層級體系的網頁,還需要將不同維度的變量集中到一個結果中,且瞬間反應,那就不是一件容易的事情了。這首先需要相當高超的數據算法,還要有周密嚴謹的多個數據模型,更需要有搭建大規模計算機運算系統的能力。在互聯網行業中,這些技術的總和相當于大當量“核武器”。
當然,在目前的技術條件下,機器系統再先進也不能解決所有問題。以百度的審核與過濾系統來說,系統最多能讓審核與過濾過程更有效率,成本更低,但還是有一些特別有技術含量的有害信息及非法廣告,還是需要依賴人工的。例如一些使用flash技術的動態廣告,提交時是正常的,幾個小時后也許就變成別的了。對這類廣告,雖然用系統能過濾掉大部分,但還是會有一部分需要進行人工審核。
技術系統同人一樣,無法做到見微知著,對任何細微的個性化特征都做到正確反應。在百度雷達系統里跑過一遍的信息,一定有漏網的,也一定有被冤殺的,一般情況下機器系統發現有問題但又難以下結論的信息,都會被提交到人工審核系統進行審核。目前百度的審核團隊有幾千人之眾,這幾千人負責漏殺或誤殺的信息審核,三班倒24小時不間斷對信息進行審核,盡量減少問題發生。
技術和人工共同發力抵制有害信息與非法廣告,并不是完結,機制與規則方面的建設其實也非常重要。百度有自己對商家的加V認證體系,按照信用等級將企業和商家分為V1、V2、V3三個級別,根據實際情況動態升級和降級,2015年四季度有27000個誠信企業升級,同時也有29700個不良商家受到了降級的懲罰。信用等級的升降完全基于客觀條件得出結論,找李彥宏也是沒用的。
除了商家加V認證體系,百度口碑也是百度推廣信譽體系的一個重要組成部分。百度口碑一方面是商家掌握用戶口碑輿情、加強與用戶互動、傾聽消費者反饋的渠道,另一方面也是用戶查詢商家產品服務口碑、消費體驗反饋、表達評價的平臺。不同于其他“遍地好評”的平臺,截至2016年1月,百度口碑的數據中,五星好評占79%,四星到二星的中評占15%,一星差評也有6%。
搜索引擎是通用的流量入口,也是用戶尋找互聯網信息及服務的一道門,太多形態各異的角色想要利用這扇門達到自己的暗黑目的。對于百度來說,雖然好客人和壞客人都能給自己帶來收入,但百度還是一直在嚴格運用各種手段將壞客人拒之門外的,因為唯有保持一個良好的在線推廣運營環境,一個始終是良幣驅逐劣幣的良性網絡空間,百度的長期利益才能真正得到保障。
百度在消滅有害信息及非法推廣方面的努力,包括技術上的和機制上的研發與建設,人力上財力上的投入與付出,都不會是一種無法收回的成本,而恰恰是一種相當重要的投資。百度把守著互聯網的大門,億萬用戶從百度經過,始終為用戶營造良好的網絡環境,百度義不容辭,其一直對違規虛假推廣的嚴厲打擊,也值得贊許。