大數據掀起新的淘金熱?華爾街想要你的數據#獨家#
作者|?Matt Turck
幾個月以前,Foursquare (四方體公司,一家基于用戶地理位置信息的手機服務網站) 通過先于官方數據公布的預測,指出Chipotle的2016年銷售額將會下降將近30個百分點,這一舉動引起了強烈的關注。因為Foursquare通過客戶端獲取了注冊用戶和訪客的地理位置信息,所以Foursquare能夠推斷出足夠的流量統計數據,這些統計數據是財務業績的非常準確的預測指標。
36大數據專稿,?本文由36大數據翻譯,不授權任何網站使用,除了36大數據網站和微信公眾號,所有其他的轉載均為侵權!
一家社交媒體公司可能正在為華爾街建立有巨大價值的數據資產,這一情況是被稱為“ 替代數據(alternative data,)” 的加速趨勢的一部分。隨著我們生活中的一切事情節奏加快并被科技所捕獲,金融服務公司一直將注意力轉移到創業公司,希望挖掘他們的數據,以提煉出能夠擊敗市場的點金石。
與華爾街合作可能成為適合你的商業模式嗎?
這個機會面向廣泛的創業者。近來許多的科技公司開發出了一項有趣的服務——“數據尾氣? data exhaust? ”(因特網用戶留下的點擊記錄)來作為他們核心業務以外的副產品。如果你的公司提供支付解決方案,你可能會擁有一些有趣的數據,它們反映出人們購買了什么東西。一款移動客戶端可能會收集用戶在哪里購物或者多久看一次電影的數據。一款在線健康設備可能了解一個人何時何地生病。一家商業公司可能會有關于市場趨勢和消費者偏好的數據。 SaaS(軟件即服務)提供商可能知道合作商購買了什么軟件、或者他們雇了多少名員工、在什么地區,等等。
同時,這是一個棘手的話題,伴隨著許多誤解。對沖基金世界與創業世界截然不同,并且有大量的東西在轉變中迷失了方向。關于對沖基金組織付出了數百萬美元購買大量的數據集的流言滿天飛,這造成了人們對于金融投資機會的規模的扭曲的認識。我談到的很多創業公司都確實打算把數據出售給華爾街這一想法納入其業務計劃,結合風投計劃,但是這些創業公司的運行方式還是很模糊。
如果你就是那些坐擁日漸龐大的數據資產的創業大軍中的一員,并企圖弄明白把數據賣給華爾街到底能不能讓你賺錢,那么這篇帖子就是為你而寫的:深入探討以講述這一話題的背景、闡明觀念并提供一些實踐技巧。
原始數據與數據產品
首先,關鍵原則: 直接賣出原始數據不是明智的選擇。
相反,成功通過數據資產獲利的公司傾向于提供數據驅動的產品。 我使用一個明顯的例子,Facebook不會以原始形式出售其用戶數據。 相反,它已經圍繞數據驅動的廣告產品建立了一個無限更有利可圖的業務,使品牌能夠根據自己提供的數據價值來定位Facebook用戶。
即使公司想要對實際數據本身進行許可,他們也傾向于通過數據產品來實現,而不是以原始形式,有時用內置的分析功能。 例如, Twitter將其原始的firehose業務演變成一個完整的企業數據平臺 , GNIP (最先是通過收購同名創業公司),提供各種API(Application Programming Interface,應用程序編程接口),如“歷史的”,“實時的”和“洞察力” “。 萬事達卡通過 MasterIntelligence 提供數據索引和研究產品。 Foursquare通過名為 Place Insights 的產品提供數據。
但是,作為創業企業家,你可以充分掌握核心業務,但可能無法啟動輔助數據業務。 在這種情況下,通過提供原始形式的“數據尾氣”來尋找機會可能才是有意義的——越來越多的華爾街機構(銀行,對沖基金,資產管理公司)對此感興趣,其實有一些最老練的對沖基金將堅持把獲取原始數據放在首位。 由于對沖基金處于這一趨勢的前沿,所以討論將主要集中在對沖基金上。
為什么對沖基金關心這些??
首先,介紹一點點背景。
對沖基金是集中于一件事的投資基金:完全超越大市場,向投資者提供超額回報。 他們使用復雜的投資組合建設和風險管理技術,可以投資各種不同的市場(房地產,股票,衍生工具,貨幣等)。 他們偶爾是秘密的實體,不是非常規范(盡管行業規模龐大 – 2.9萬億美元),而且與廣大群眾息息相關。 對沖基金神秘的很大一部分來自于他們不僅為投資者而且為其管理者帶來了極大的財富:排名最高的25位對沖基金經理在2015年獲得了高達130億美元的收益。
但 在對沖基金世界中,事情一直在變化。 該行業長期以“宇宙大師”為主,以反傾銷市場觀念為前提而著稱 (來自《think The Big Short》 )。 然而,與許多其他經濟部門一樣,電腦正在逐漸占上風,而今天,大數據和人工智能正在發揮越來越重要的作用。
可以確定的是, “量化”基金 (文藝復興,公司溫頓,德肖,AQR,雙西公司,世坤投資等) 長期以來一直 使用數學模型或算法來評估投資 , 最近才開發了重要的人工智能功能。
但是另一個事實也在逐漸顯露,基礎對沖基金——傳統地基于分析個人股票投資或者整體市場也如上述的量化基金。
這種趨勢由于對沖基金行業(一般來說)最近在經歷低迷時期而加速: 低績效導致許多投資者脫手大量基金。
現在,保羅·圖多瓊斯(Paul Tudor Jones)等行業知名企業裁減了一些初級交易者,轉而采用量化策略,交易者和計算機預計將一起工作:“人比不過機器,機器比不過人與機器的結合。” (Paul Tudor Jones對他的投資團隊所說,2016年8月)。
這種新方法的術語 “量化基本面分析法”是量化和基本面兩種方法的結合。 融合并不總是一帆風順,至于最后能否真的有效大家莫衷一是(the jury is out as to its eventual success,jury is out是個習語,指莫衷一是,眾說紛紜)。
投資世界里并不是每個人都是這個趨勢的追隨者,但是有足夠的興奮點——對沖基金現在在頂尖的數據科學人才之中相互訴訟:就在幾個星期前,WorldQuant起訴了“第三點”公司一位三十二歲的數據科學家馬修·奧伯(Matthew Ober),他在這個過程中獲得了10倍的薪酬(從$ 200k到$ 2M)。
隨著分散的數據科學家組織推動的新興量化對沖基金,和(或)全球新興的定量對沖基金的出現,如Quantopian和Numerai等,事情才在加速發展。
軍備競賽已經開始了。由于華爾街的量化基金人才比以前有更多的可用性,而且隨著人才轉移就業, 模型往往最終會被泄露出來 。數據是這一新興業務的核心,特別是那些不明顯的,很難得到的以及可選擇的數據。
對沖基金如何處理數據?
從根本上說, 對沖基金嘗試利用替代數據來獲得競爭對手的優勢,并通過準確的預測產生“阿爾法” 。 最終,他們想知道少數人知道的東西。 這樣,他們可以預先定位,以便在其他人發現時,他們已經掌握了新聞主動權(或在不足的情況下進行相反的交易)。
對于貿易世界之外的任何人來說,值得強調的是,在華爾街,他們不足以提出強有力的預測。交易大廳的其他人都有自己的預測, 他們使用各種方法,所以要賺錢,你需要有比別人更好的預測。門檻很高。
華爾街自起源以來一直在預測游戲的局中,獲取數據無法獲得的想法并不新鮮。它曾經是股票價格和基本信息。隨著這些變得廣泛可用,對沖基金轉向其他形式的數據。
幾年前,一些對沖基金會讓人們直接站在大型零售商店前面,并計算進出的人數,并在此基礎上對零售連鎖店本身和大體經濟形勢進行預測。
替代數據現在提供了一個完全不同規模和復雜程度的做同樣事情的機會。
幾年前,社交媒體數據開始發展。一個人不僅可以比常規媒體更快地訪問市場移動新聞?還可以通過與某個主題相關的所有推文獲得非明顯的見解嗎?那些日子一些較大的對沖基金和銀行將使用Twitter API ( would start licensing the Twitter firehose,the Twitter firehose是推特的一個API,用來使用推特數據) 。
現在對沖基金已經擴大了對各種其他數據集的興趣:地理定位,信用卡支付,衛星圖像,物聯網傳感器數據,建筑許可證,健康數據等。其中一些數據來自正在嘗試利用他們的數據尾氣獲利的公司;其他數據集來自主要業務模式是提供此數據的公司(通常以數據產品的形式,如上所述)。
如今,一個完整的手工作坊式的產業已經出現了,一些關鍵的玩家在這個情境中被CB Insights (風險投資數據公司 ) 標注了出來。
替代數據來源示意圖(由CB Insights提供)
對沖基金對數據的影響取決于他們在上一節所述的頻譜中的位置。
更基礎的基金將使用這些數據作為對人力投資決策的投入。例如,他們會嘗試預測一家特定公司的銷售或顧客流失,其總體表現為優于賣方的共識。或者他們將嘗試預測宏觀經濟趨勢,例如通過觀察衛星圖像。他們還會經常使用模型,但數據科學家預測的通常只是“PM” (投資組合經理) 將決定在其投資決策中使用或忽略的一個數據點,以及其他投入(如他們精心討論出的專業的網絡想法)。
在頻譜的另一端,量化基金將采取你的數據集,把它與其他替代數據集合并把它反饋到非常復雜的模型中。日益增長的趨勢是,在替代數據支持的基礎上,完全或部分地使用自動化交易策略。
你的數據究竟多有趣?
有幾個關鍵特征影響你的數據多大程度能吸引對沖基金的興趣:詳細程度,歷史,廣度和稀缺性。
你的數據的細節和特異性程度很重要 。例如,具有詳細購買記錄的用戶級(匿名)信用卡帳單比高指標和總額有趣得多,特別是當你經常收到它們時。
另一個 關鍵的標準是歷史 :你的數據集可以追溯的時間有多遠?這對于初創業公司來說通常是一個問題,根據定義,這些公司沒有很長的歷史。在理想的世界里,對沖基金會希望看到5到10年的歷史。話雖如此,根據具體情況,有些有一兩年歷史的公司也行得通,特別是如果你的數據更加稀缺和有趣。建議初創業公司從一開始就存儲和保留所有的數據(考慮到存儲是近乎零成本的,這是可行的)。
覆蓋范圍也很重要 – 不僅僅是地理上的覆蓋(確保你的數據集所涵蓋的是具代表性的,如同“美國的人口”),而且涵蓋了您的數據可能涉及的股票交易。雖然一些基本的分析師只會關心他們所涵蓋的少數股票的數據,但量化基金可能會要求與成千上萬的股票相關的數據。
最后,考慮到對沖基金正在試圖獲得他們的競爭對手所不具備的洞察力, 你的數據集越具有獨特性和原始性就越好 。一個有趣的后果是,你的數據集的價值可能隨著時間的推移而衰減。雖然他們可能會從完全不同的來源獲取數據,但其他公司最終將能夠提供與你的數據相匹敵的數據集,并且隨著時間的推移,大多數數據源將被商品化。這個現象在下面Quandl所提供的圖表中得到了很好的闡釋:
一般來說,對于任何既有的投資決策來說,很少有數據集能成為其全部及最終的決定因素,盡管它們是罕見的和全面的。 在大多數情況下,對沖基金將要組合多種不同的數據集。 例如,為了了解QSR的銷售情況,謹慎的數據科學家們希望將深度趨勢 (由Foursquare或我們的投資組合公司Sense360提供) 與信用卡交易數據相結合,來了解客戶是否還有更多的興趣 (較冷的天氣、Posimate-快遞公司的服務可用性等)。
你真的愿意賣出數據嗎?
在更深層次上,有三個關鍵概念:
數據應嚴格匿名化 。您不能也不應該出售“個人身份信息”(PII),也就是任何可能識別出特定個人的數據。好消息是,對沖基金不是廣告商,不關心具體某個人,所以沒有經濟方面的壓力導致提供PII。這似乎是顯而易見的,只是(except that,可以翻譯成除了,或者只是,這里翻譯成只是順當些)對沖基金宣稱數據銷售商常常無法隱藏個人身份信息,導致必須花費時間和精力進行篩選清理(參見本期《金融時報》)。
你不能出售你并不擁有的數據 。對沖基金非常關心數據的合法性。你如何從用戶獲得數據受到你簽署的“服務條款”(TOS)的規范,并且用戶要允許你銷售。你應該從一開始就獲得與用戶的TOS,否則不得不弄清楚哪些數據獲取了哪些TOS(還要挑出你不允許出售的數據)。 “同意”和“選擇”的真正含義中有一些灰色地帶。
最后, 你應該意識到“ 非公開物質信息(MNPI)”的重要概念, 這是一個內部交易概念 ——基本上是關于將包含在你的數據集中可能提供的特定公司的任何非公開信息,這些信息使對沖基金在購買或出售公司股票時具有優勢。特別是如果你的數據集包含與你的數據相結合的一些第三方數據,更應期待對沖基金規范部門能夠進行嚴肅的挖掘。
你可以賺多少錢?
現在,一個大問題是,這對你來說有多重要?
首先, 除非已經商品化,否則你可能不想把你的數據出售給世界各地的彭博社 。他們將支付少量的資金(每年低于數萬),而且數據立刻可以由華爾街任何人使用,因為每個人都使用彭博終端。這是一個細微的差別 (一個單獨的彭博社團隊過去會以更離散的方式向對沖基金轉售數據,但它可能已經不存在了) 。
至于你能以多少錢把數據直接賣給對沖基金,這就是事情變得棘手的地方。這是一個非常不透明的行業,所以一般很難知道。對沖基金將不會與你分享他們將如何處理你的數據,所以很難估價。也很難建立一個可重復的模式,便于你出售給下一個對沖基金。
你會聽到偶然的故事——一個對沖基金每年支付幾百萬美元,以獲得一個特定的數據集,有時甚至更多。但有一種合理的可能性,這種價格模式來自某種排他性。此外,這些合同也可能具有有限的保質期,因為數據集的價值隨著時間的推移衰減,如上所述。
在大多數情況下,大多數對沖基金都是對成本很敏感的,而且關于費用的談判相當激烈。從我聽到的,大部分年平均費用在某些地方高達數萬美元、某些地方是幾十萬美元,平均下來一個對沖基金的金額可能只有10萬美元。
為了獲得對整體市場規模的認識,可能有10,000-15,000家對沖基金。如上面提及到的,銀行和資產管理人員也可以是您的數據資產的買家。
你怎么開始?
在沖基金世界里很難如魚得水。資金之間存在明顯差異 ——在戰略方面,如上所述,而且在整體成熟度和利用替代數據的準備方面也是如此。 Point72擁有由Matthew Granade領銜的整個團隊,專注于Big Data(大數據)和AI(人工智能)兩方面。兩西公司(TwoSigma)擁有數百個具有機械學習背景的博士。許多其他公司則在頻譜的另一端。
技術世界和對沖基金世界之間也存在廣泛的文化差距。對于初創企業來說,絕大多數對沖基金和金融服務行業將一直在紐約,以及斯坦福或格林威治舊格林威治 ——一些遠離硅谷的地區。金融服務世界擁有自己的強大地位,掌握著大量的金錢,不一定會對你的創業項目感冒。當我在彭博社時,我曾經在一些創業者穿著連帽衫出現的時候感到沮喪,在會議開始之前我基本上失去了對他們的好感。
由于所有這些原因,至少在最初的時候,可能會與某種中間人合作。
有新的公司,如Matei Zatreanu的System2,建議對沖基金接納替代數據。他們經常幫助創業公司創造一些對沖基金會覺得有價值的數據產品。
像PointPoint這樣的公司一直在加緊努力,特別是通過收購Quanton Data( 見這里 )。
幾個創業公司已經巧妙地將自己定位在這個增長趨勢的交匯點。例如,EagleAlpha是一個經常在對話中反復提到的名稱。
最后但并非最不重要的是, Quandl 是一個快速增長的常規數據集和替代數據的市場,在訪問和合法性方面,雙方都涉及到很多頭痛的問題。他們越來越被認為是這個領域的重要思想領袖 (他們也邀請我今天晚上在他們的“ 可選數據大會 ”上發言)。
結論
對于替代數據的興趣正在激增,對創業公司來說這是探索是否可以利用這一趨勢的好時機。
也許反直覺地考慮到對沖基金處理多少錢, 把你的原始數據出售給他們可能是“只是”一個輔助收入線。?
然而,如果走上正道,可以邁出建立恰當的數據業務(基于數據產品而不是原始數據)的第一步。一些對沖基金將幫助你了解如何收集和整合數據,以便讓更廣泛的行業領域受到產生興趣,因此你可以探索不僅僅向華爾街出售數據,還可以向例如零售業或制藥業出售,或者是任何與你的數據集有特定相關性的。
非常感謝Matei Zatreanu(Kingvest創始人,System2,King Street數據科學主管)和Tammer Kammel(Quandl首席執行官),感謝他們審查本博客文章的草稿并提供有用的反饋。
End.
轉載請注明來自36大數據(36dsj.com): 36大數據 ? 大數據掀起新的淘金熱?華爾街想要你的數據#獨家#