區塊鏈與大數據!
這是每一個搞區塊鏈的人都經常被問到的問題。但實際上這顯然至少是三個問題:
一、什么是區塊鏈?
二、什么大數據?
三、最后才是區塊鏈與大數據的異同?
我們一直以來對區塊鏈的定義都是:區塊鏈實際上是圍繞交易平等來設計的一套信用(信任)建設體系和價值流通平臺。在這套體系和平臺里,所有參與方地位都應盡可能平等(現實場景根據現實情況各有各的妥協);價值(token)隨著交易同步流通。數據安全和隱私保護是區塊鏈采用共識機制、分布式賬本、加密技術、智能合約和授權模式等手段后的必然技術結果。 需要補充的是:這里提的交易泛指廣義的交易,既包括我們對現有對交易的理解和認知,還包括任何價值信息的傳遞。

從上面的定義很容易看出來,區塊鏈是多種現有技術的集大成,雖然沒有創新型技術發明,但區塊鏈最重要的是設計思想和邏輯,它是一套體系,一套以技術為基礎,可以用Token進行生態設計和構建的生產關系。
我們經常聽到有人說區塊鏈是數據庫,顯然這種說法過于簡單的把區塊鏈等同于分布式賬本了,嚴格來說是非常片面的!所以特別強調兩點:
1、區塊鏈是一套體系,數據庫或者說分布式賬本只是區塊鏈體系內的一分子;
2、區塊鏈的分布式存儲是屬于數據庫的范疇,但和傳統的數據庫有本質的區別。這點下文會有說明。

再來說說什么是大數據。對于“大數據”(Big data)研究機構Gartner給出了定義,“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。

從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘,但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。
大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用于大數據的技術,包括大規模并行處理(MPP)數據庫、數據挖掘電網、分布式文件系統、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統。

這就是我們整天掛在嘴上說的“大數據”的定義,顯然還是太啰嗦!套用諾貝爾獎得主ThomasJ. Sargent的說法,簡單一句話,大數據其實就是統計學。同樣運用了數據庫技術、分布式存儲技術、數據統計和數據挖掘技術。
到這里我們基本搞清楚了什么是區塊鏈和什么是大數據的定義。也就可以說說區塊鏈與大數據這點事兒了。
顯然,無論是區塊鏈還是大數據都用到了分布式存儲,聽起來好像一樣,但內涵和玩法的差異是巨大的!
1、區塊鏈利用了共識算法、中心不明顯,甚至是完全去中心的,也就沒有管理員的角色;大數據還是中心化的,管理員的角色回避不了,而且管理員有著完全的權限,帶來的安全和泄露危險很多時候控制起來比較困難,公信力和區塊鏈項目無法比擬。
2、區塊鏈主要是圍繞交易而設計的生態平臺,因而區塊鏈項目可以借助Token來完善整個生態建設和信用建設,一個好的區塊鏈項目是有利于生態發展,并能最大化程度回饋所有參與方;大數據這種中心化平臺本身并不具備生態和激勵措施,如果有這塊設計的需求是要從頭開發的。
3、區塊鏈自帶加密算法,大數據有這方面的需求需要從頭開發。
4、大數據沒有區塊鏈智能合約這一概念。
5、最重要的一點,區塊鏈所用的數據庫結構和大數據的數據庫結構有著本質的區別,我們來看看區塊鏈的區塊展示:

上圖一目了然的展示了區塊,它所有的指向都是向前,傳統的大數據剛好相反,向后向后再向后。
上面只是簡單的比較和介紹,實際上區塊鏈和大數據也真不是一回事,要說的也可以說很多。在各種場合的交流中,我還發現一個誤區,很多人把大數據等同于數據庫,所以很容易造成區塊鏈、大數據和數據庫的混淆。
上面介紹了這么多并不表示區塊鏈和大數據就是沖突的。我一直強調,區塊鏈產品重在設計,這種泛中心化的設計思想在區塊鏈產品設計中主要體現在共識算法和智能合約實現上,其他該怎么設計就怎么設計,所以兩者是可以共存的。
某種程度上來說,區塊鏈技術的引入可以解決傳統大數據和數據庫很多固有的弊端,特別是基于區塊鏈的數字身份和數據空間的引入,不僅可以改善傳統數據庫和大數據在安全與風險方面存在的問題,甚至還可以引入新的業務模式“對象既業務”改善大數據和數據庫的運行效率。以“智信禪城”項目為例,引入區塊鏈前后比較:

AD: 【移動新媒體】 科技茶館-中國領先的區塊鏈行業媒體互動平臺