人工智能+「以圖搜圖」,細分巷道里的千億級市場
這是幾年前就困惑著黃鼎隆的問題。那時候,他還在微軟的 Bing 團隊任職產品經理。那是一款 2009 年推出的、被微軟寄予厚望的搜索產品,時任微軟 CEO 的史蒂夫·鮑爾默甚至承諾將會有 60 億至 120 億美元投入到 Bing 的開發——這相當于當時微軟運營收入的 5% 至 10%。
但是現實很骨感。在海外,Bing 的市場份額一直屈居于 Google 之后,國內更不敵百度。「競爭對手已經占據了市場先機,技術也非常好,如果一定要打勝仗,唯一的機會就是搜索的對象要有變化。」黃鼎隆說。
這個「搜索對象」最終被他認定為二維圖像。2014 年,從微軟離職后又先后就職于騰訊、TripAdvisor 公司的黃鼎隆和在微軟時的舊搭檔 Matt Scott,創辦了碼隆科技。這家公司目前推出的兩款產品都致力于利用 AI 的視覺識別技術來識別商品。
根據平安證券發布的一份關于「人工智能圖像識別」的專題報告顯示,圖像識別正在多領域被廣泛應用,而且具有巨大的市場空間。在現實中,圖像識別的應用已經在金融、安防和醫療領域被提前布局。但是在黃鼎隆和 Matt 看來,把人工智能技術直接跟「交易」相關的領域結合,提高生產效率,將是把人工智能技術推向成熟商業化的最短路徑。
這一定程度上也是這家公司的內在價值觀念:高高在上的人工智能技術,必須要找到細分的巷道落地,它必須成為生產力工具,才能產生他應有的效能。
(碼隆科技創始人黃鼎隆和?Matt Scott)
人工智能的商業化落地:2C還是2B,是個問題
真正讓黃鼎隆開始感到創業計劃可行的起因,是相關產業鏈的陸續成熟。這個具體的信號來源于ImageNet的比賽結果:在2010年,ImageNet比賽圖像識別中對象分類項目的準確率是72%,到了今年,這個數字達到了97%。這項由斯坦福、卡內基梅隆、北卡以及密歇根等一流名校發起的一項計算機視覺競賽,一直是計算機視覺方向發展的風向標。而97%的分類項目識別準確率則代表著,機器視覺的識別能力已經超過了人類。
這算是質的飛躍。2014年,黃鼎隆覺得之前自己一直在思考的產品方向終于有機會成型。
關于圖片的識別和搜索技術,其實一直在百度、谷歌等公司的搜索框架體系下有所成長,但是由于對圖片中各種元素的標記效率低下等原因,搜索的結果準確率與文字搜索相比還有很大差距。
最開始,碼隆科技推出的是一款面向C端的產品:Style AI。這款產品的功能被定位于用人工智能為用戶「打造時尚」,為此,這個技術團隊還專門聘請了一位服裝設計師作為時尚顧問。通過識別用戶上傳的圖片,Style AI可以識別出圖片中的同款服裝商品并給出搭配建議,同時附帶購買鏈接。?
用人工智能切入「時尚」領域,這算是一個「討巧」的方向。但是這個to C的app面臨著較高成本的用戶推廣問題,這是擅長技術的碼隆科技團隊相對欠缺的方向。另一方面,為電商導流的「識圖」技術似乎很難帶來用戶積累,的商業想象力也實在有限。
這是黃鼎隆和團隊從Style AI里摸索出的道理:如果想要更快實現商業化,就必須用更開放的心態,把技術開放給更多成熟的商業力量使用。于是,這家公司的解決方案是及時轉型:2016年,碼隆科技又推出了面向to B用戶的Product AI。
這款新產品的最大價值是為「以圖片為驅動」的商業網站實現低門檻的以圖搜圖功能。背后的技術邏輯是相通的:通過機器學習,分析上億個訓練素材,從而形成對圖片中各種元素的認識和了解后,機器就可以根據某一素材的「內部規律」,識別和搜索目標圖片中的語義標簽。根據黃鼎隆給出的數據,目前Product AI能夠識別的?準確率已經優于人工識別,而相對于原本傳統的「人工貼標」的方式,這家公司提供的解決方案提高了8%左右。
其中,柔性的服裝類商品是這家公司最先切點入,也是把識別率磨礪的最為鋒利的領域,但放大到其他領域時,這套系統依然能夠發揮作用。與此同時,黃鼎隆也提到了自家產品與百度等平臺的「以圖搜圖」功能不同之處:當人們進入某些網站上搜索圖片時,希望找到的也許不是與原圖「一模一樣」的圖片或者商品,而是「同款類似」的圖片或者商品。他對極客公園記者以Product AI的B端客戶視覺中國為例做了一個展示。
同樣以一張「正在化妝的女模特」作為原圖搜索時,百度和接入Product AI的視覺中國分別給出了以下的搜索結果。
(百度展示的搜索結果)
(植入Product AI的視覺中國展示出的搜索結果)
視覺中國網站中出現的一排標簽,就是 Product AI 根據對原圖片的認知自動標注的。
「有時候我們需要的不是騎驢找驢,而是騎驢找馬。比如一個設計師進入類似視覺中國這樣的網站時,他需要找到的也許是某種特定地素材,比如一個化妝的模特,而這時候他只需要上傳一張類似的圖片,機器就可以幫他識別出他需要的素材中的標簽是什么,從而幫他找到更多選擇。」黃鼎隆解釋。這種解決方案也可以根據 B 端客戶的需求進行修改。
1.2萬億次圖片搜索背后的千億級機會
簡單說,這家以人工智能作為技術驅動的公司現在的新方向,就是尋找那些需要植入或者升級圖片搜索需求的商業網站進行合作。黃鼎隆對于合作伙伴的選擇有一個基本原則,那就是對方的產品必須有「交易屬性」。
也就是說,在某個以圖片(比如視覺中國)為主要驅動的商業網站里,Product AI 可以根據對方提供的圖片以及視頻數據,專門為該網站建立或者升級搜索引擎。同時幫助該企業實現圖像標記、分類、聚類和定位等功能。最終在每一次搜索過程中,網站用戶可以更加輕易的做出購買決定。
「人工智能技術應該落到一個可以發揮實際商業作用的領域里去,而我們認為交易才能夠產生現金流。」黃鼎隆說。現在,碼隆科技 Product AI 已經通過 API 接口開放給的合作伙伴包括:視覺中國、微軟在線、瑞麗、暴風影音、優料寶(紡織品交易平臺)等等。而每筆通過「以圖搜圖」行為產生的購買行為發生時,碼隆科技則可以得到一定份額的分成。
這實際上構成了碼隆科技這家公司商業化的最初探索。根據黃鼎隆介紹,該公司已經實現正向現金流,并且在今年 10 月剛剛獲得了來自達晨創投和遠鏡創投、中信建投等機構的 6200 萬 A 輪融資。
目前,這家以人工智能作為驅動的公司現在切入的領域似乎很難定義,它和「購買」、「交易」有關。這個概念似乎過于寬泛,但是黃鼎隆認為:「粗略的說,我們希望做的是把任何一個圖片跟某一個商品連接起來,這個事情產生的價值可以跟一般的搜索引擎類比,根據谷歌每年的收入,除以每年搜索量,可知每一次產生的鏈接,他產生的價值是 7 美分,而全球去年有 1.2 萬億次的搜索量。而一張圖片跟一個商品連接起來的時候,保守估計每次鏈接能夠產生的價值是 5 美分,全球每年產生的圖片搜索量是 1.2 萬億次。如果把同時快速增長的兩個變量相乘,得到的結論大概就是以圖搜圖這件事能夠產生的商業價值,你可以期望它能獲得千億級別的空間。」
當然,這只是黃鼎隆目前的構想和預設。當市場空間足夠龐大和這家公司的技術足夠領先時,商業上的想象力能否落地,對這家初創公司的考驗依然不小。根據艾媒咨詢發布的一份關于《2016 年上半年移動搜索市場研究報告》調查顯示,至少在移動端,目前在國內搜索市場,89.7% 的用戶偏好使用文字進行搜索,排名第二的搜索偏好則是語音搜索,以圖搜圖的使用偏好僅有 25.3%。同時,包括百度、阿里巴巴以及搜狗等巨頭也開始在圖片搜索方面發力。
不過最起碼,他們已經初步在回答「人工智能+?」問題中的空格該怎么填充,
然而黃鼎隆和碼隆科技依然可以看做是一個樣本。現在人們已經不可否認的是,未來在人工智能領域將會產生千億級別的大公司和生意,它有潛力做到任何人類可以做的事情,并且做的更好更快,根本意義在于促成社會生產效率的提升。不過無論是硅谷還是中國,人們暫時都無法預測這個「巨大的機會」到底什么時候到來,所以在此之前,作為一家創業公司,也許現階段盡快筑建起自身技術壁壘,并且生存下去才是更關鍵的命題。