一篇對大數據深度思考的文章，讓你認識并讀懂大數據

互聯網分析沙龍 ? 8年前掃碼分享

我是創始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

一

大數據

在寫這篇文章之前，我發現身邊很多IT人對于這些熱門的新技術、新趨勢往往趨之若鶩卻又很難說的透徹，如果你問他大數據和你有什么關系?估計很少能說出一二三來。究其原因，一是因為大家對新技術有著相同的原始渴求，至少知其然在聊天時不會顯得很“土鱉”;二是在工作和生活環境中真正能參與實踐大數據的案例實在太少了，所以大家沒有必要花時間去知其所以然。

我希望有些不一樣，所以對該如何去認識大數據進行了一番思索，包括查閱了資料，翻閱了最新的專業書籍，但我并不想把那些零散的資料碎片或不同理解論述簡單規整并堆積起來形成毫無價值的轉述或評論，我很真誠的希望進入事物探尋本質。

如果你說大數據就是數據大，或者侃侃而談4個V，也許很有深度的談到BI或預測的價值，又或者拿Google和Amazon舉例，技術流可能會聊起Hadoop和Cloud Computing，不管對錯，只是無法勾勒對大數據的整體認識，不說是片面，但至少有些管窺蠡測、隔衣瘙癢了。……也許，“解構”是最好的方法。

怎樣結構大數據?

首先，我認為大數據就是互聯網發展到現今階段的一種表象或特征而已，沒有必要神話它或對它保持敬畏之心，在以云計算為代表的技術創新大幕的襯托下，這些原本很難收集和使用的數據開始容易被利用起來了，通過各行各業的不斷創新，大數據會逐步為人類創造更多的價值。

其次，想要系統的認知大數據，必須要全面而細致的分解它，我著手從三個層面來展開：

大數據結構

第一層面是理論，理論是認知的必經途徑，也是被廣泛認同和傳播的基線。我會從大數據的特征定義理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;從對大數據的現在和未來去洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。

第二層面是技術，技術是大數據價值體現的手段和前進的基石。我將分別從云計算、分布式處理技術、存儲技術和感知技術的發展來說明大數據從采集、處理、存儲到形成結果的整個過程。

第三層面是實踐，實踐是大數據的最終價值體現。我將分別從互聯網的大數據，政府的大數據，企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。

和大數據相關的理論

1、特征定義

最早提出大數據時代到來的是麥肯錫：“數據，已經滲透到當今每一個行業和業務職能領域，成為重要的生產因素。人們對于海量數據的挖掘和運用，預示著新一波生產率增長和消費者盈余浪潮的到來。”

業界(IBM 最早定義)將大數據的特征歸納為4個“V”(量Volume，多樣Variety，價值Value，速Velocity)，或者說特點有四個層面：第一，數據體量巨大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);第二，數據類型繁多。比如，網絡日志、視頻、圖片、地理位置信息等等。第三，價值密度低，商業價值高。第四，處理速度快。最后這一點也是和傳統的數據挖掘技術有著本質的不同。

其實這些V并不能真正說清楚大數據的所有特征，下面這張圖對大數據的一些相關特性做出了有效的說明。

大數據相關特性

古語云：三分技術，七分數據，得數據者得天下。先不論誰說的，但是這句話的正確性已經不用去論證了。維克托·邁爾-舍恩伯格在《大數據時代》一書中舉了百般例證，都是為了說明一個道理：在大數據時代已經到來的時候要用大數據思維去發掘大數據的潛在價值。書中，作者提及最多的是Google如何利用人們的搜索記錄挖掘數據二次利用價值，比如預測某地流感爆發的趨勢;Amazon如何利用用戶的購買和瀏覽歷史數據進行有針對性的書籍購買推薦，以此有效提升銷售量;Farecast如何利用過去十年所有的航線機票價格打折數據，來預測用戶購買機票的時機是否合適。

那么，什么是大數據思維?維克托·邁爾-舍恩伯格認為，1-需要全部數據樣本而不是抽樣;2-關注效率而不是精確度;3-關注相關性而不是因果關系。

阿里巴巴的王堅對于大數據也有一些獨特的見解，比如，

“今天的數據不是大，真正有意思的是數據變得在線了，這個恰恰是互聯網的特點。”

“非互聯網時期的產品，功能一定是它的價值，今天互聯網的產品，數據一定是它的價值。”

“你千萬不要想著拿數據去改進一個業務，這不是大數據。你一定是去做了一件以前做不了的事情。”

特別是最后一點，我是非常認同的，大數據的真正價值在于創造，在于填補無數個還未實現過的空白。

有人把數據比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類，而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似，大數據并不在“大”，而在于“有用”。價值含量、挖掘成本比數量更為重要。

2、價值探討

大數據是什么?投資者眼里是金光閃閃的兩個字：資產。比如，Facebook上市時，評估機構評定的有效資產中大部分都是其社交網站上的數據。

如果把大數據比作一種產業，那么這種產業實現盈利的關鍵，在于提高對數據的“加工能力”，通過“加工”實現數據的“增值”。

大數據價值

Target 超市以20多種懷孕期間孕婦可能會購買的商品為基礎，將所有用戶的購買記錄作為數據來源，通過構建模型分析購買者的行為相關性，能準確的推斷出孕婦的具體臨盆時間，這樣Target的銷售部門就可以有針對的在每個懷孕顧客的不同階段寄送相應的產品優惠卷。

Target的例子是一個很典型的案例，這樣印證了維克托·邁爾-舍恩伯格提過的一個很有指導意義的觀點：通過找出一個關聯物并監控它，就可以預測未來。Target通過監測購買者購買商品的時間和品種來準確預測顧客的孕期，這就是對數據的二次利用的典型案例。如果，我們通過采集駕駛員手機的GPS數據，就可以分析出當前哪些道路正在堵車，并可以及時發布道路交通提醒;通過采集汽車的GPS位置數據，就可以分析城市的哪些區域停車較多，這也代表該區域有著較為活躍的人群，這些分析數據適合賣給廣告投放商。

不管大數據的核心價值是不是預測，但是基于大數據形成決策的模式已經為不少的企業帶來了盈利和聲譽。

大數據的核心價值

從大數據的價值鏈條來分析，存在三種模式：

手握大數據，但是沒有利用好;比較典型的是金融機構，電信行業，政府機構等。

沒有數據，但是知道如何幫助有數據的人利用它;比較典型的是IT咨詢和服務企業，比如，埃森哲，IBM，Oracle等。

既有數據，又有大數據思維;比較典型的是Google，Amazon，Mastercard等。

未來在大數據領域最具有價值的是兩種事物：

擁有大數據思維的人，這種人可以將大數據的潛在價值轉化為實際利益;

還未有被大數據觸及過的業務領域。這些是還未被挖掘的油井，金礦，是所謂的藍海。

Wal-Mart作為零售行業的巨頭，他們的分析人員會對每個階段的銷售記錄進行了全面的分析，有一次他們無意中發現雖不相關但很有價值的數據，在美國的颶風來臨季節，超市的蛋撻和抵御颶風物品竟然銷量都有大幅增加，于是他們做了一個明智決策，就是將蛋撻的銷售位置移到了颶風物品銷售區域旁邊，看起來是為了方便用戶挑選，但是沒有想到蛋撻的銷量因此又提高了很多。

還有一個有趣的例子，1948年遼沈戰役期間，司令員林彪要求每天要進行例常的“每日軍情匯報”，由值班參謀讀出下屬各個縱隊、師、團用電臺報告的當日戰況和繳獲情況。那幾乎是重復著千篇一律枯燥無味的數據：每支部隊殲敵多少、俘虜多少;繳獲的火炮、車輛多少，槍支、物資多少……有一天，參謀照例匯報當日的戰況，林彪突然打斷他：“剛才念的在胡家窩棚那個戰斗的繳獲，你們聽到了嗎?”大家都很茫然，因為如此戰斗每天都有幾十起，不都是差不多一模一樣的枯燥數字嗎?林彪掃視一周，見無人回答，便接連問了三句：“為什么那里繳獲的短槍與長槍的比例比其它戰斗略高?”“為什么那里繳獲和擊毀的小車與大車的比例比其它戰斗略高?”“為什么在那里俘虜和擊斃的軍官與士兵的比例比其它戰斗略高?”林彪司令員大步走向掛滿軍用地圖的墻壁，指著地圖上的那個點說：“我猜想，不，我斷定!敵人的指揮所就在這里!”果然，部隊很快就抓住了敵方的指揮官廖耀湘，并取得這場重要戰役的勝利。

這些例子真實的反映在各行各業，探求數據價值取決于把握數據的人，關鍵是人的數據思維;與其說是大數據創造了價值，不如說是大數據思維觸發了新的價值增長。

現在和未來

我們先看看大數據在當下有怎樣的杰出表現：

大數據幫助政府實現市場經濟調控、公共衛生安全防范、災難預警、社會輿論監督;

大數據幫助城市預防犯罪，實現智慧交通，提升緊急應急能力;

大數據幫助醫療機構建立患者的疾病風險跟蹤機制，幫助醫藥企業提升藥品的臨床使用效果，幫助艾滋病研究機構為患者提供定制的藥物;

大數據幫助航空公司節省運營成本，幫助電信企業實現售后服務質量提升，幫助保險企業識別欺詐騙保行為，幫助快遞公司監測分析運輸車輛的故障險情以提前預警維修，幫助電力公司有效識別預警即將發生故障的設備;

大數據幫助電商公司向用戶推薦商品和服務，幫助旅游網站為旅游者提供心儀的旅游路線，幫助二手市場的買賣雙方找到最合適的交易目標，幫助用戶找到最合適的商品購買時期、商家和最優惠價格;

大數據功能

大數據幫助企業提升營銷的針對性，降低物流和庫存的成本，減少投資的風險，以及幫助企業提升廣告投放精準度;

大數據幫助娛樂行業預測歌手，歌曲，電影，電視劇的受歡迎程度，并為投資者分析評估拍一部電影需要投入多少錢才最合適，否則就有可能收不回成本;

大數據幫助社交網站提供更準確的好友推薦，為用戶提供更精準的企業招聘信息，向用戶推薦可能喜歡的游戲以及適合購買的商品。

其實，這些還遠遠不夠，未來大數據的身影應該無處不在，就算無法準確預測大數據終會將人類社會帶往到哪種最終形態，但我相信只要發展腳步在繼續，因大數據而產生的變革浪潮將很快淹沒地球的每一個角落。

比如，Amazon的最終期望是：“最成功的書籍推薦應該只有一本書，就是用戶要買的下一本書。”

Google也希望當用戶在搜索時，最好的體驗是搜索結果只包含用戶所需要的內容，而這并不需要用戶給予Google太多的提示。

大數據搜集

而當物聯網發展到達一定規模時，借助條形碼、二維碼、RFID等能夠唯一標識產品，傳感器、可穿戴設備、智能感知、視頻采集、增強現實等技術可實現實時的信息采集和分析，這些數據能夠支撐智慧城市，智慧交通，智慧能源，智慧醫療，智慧環保的理念需要，這些都所謂的智慧將是大數據的采集數據來源和服務范圍。

未來的大數據除了將更好的解決社會問題，商業營銷問題，科學技術問題，還有一個可預見的趨勢是以人為本的大數據方針。人才是地球的主宰，大部分的數據都與人類有關，要通過大數據解決人的問題。

比如，建立個人的數據中心，將每個人的日常生活習慣，身體體征，社會網絡，知識能力，愛好性情，疾病嗜好，情緒波動……換言之就是記錄人從出生那一刻起的每一分每一秒，將除了思維外的一切都儲存下來，這些數據可以被充分的利用：

醫療機構將實時的監測用戶的身體健康狀況;

教育機構更有針對的制定用戶喜歡的教育培訓計劃;

服務行業為用戶提供即時健康的符合用戶生活習慣的食物和其它服務;

社交網絡能為你提供合適的交友對象，并為志同道合的人群組織各種聚會活動;

政府能在用戶的心理健康出現問題時有效的干預，防范自殺，刑事案件的發生;

金融機構能幫助用戶進行有效的理財管理，為用戶的資金提供更有效的使用建議和規劃;

道路交通、汽車租賃及運輸行業可以為用戶提供更合適的出行線路和路途服務安排;

當然，上面的一切看起來都很美好，但是否是以犧牲了用戶的自由為前提呢?只能說當新鮮事物帶來了革新的同時也同樣帶來了“病菌”。比如，在手機未普及前，大家喜歡聚在一起聊天，自從手機普及后特別是有了互聯網，大家不用聚在一起也可以隨時隨地的聊天，只是“病菌”滋生了另外一種情形，大家慢慢習慣了和手機共渡時光，人與人之間情感交流仿佛永遠隔著一張“網”。

大數據隱私

你或許并不敏感，當你在不同的網站上注冊了個人信息后，可能這些信息已經被擴散出去了，當你莫名其妙的接到各種郵件，電話，短信的滋擾時，你不會想到自己的電話號碼，郵箱，生日，購買記錄，收入水平，家庭住址，親朋好友等私人信息早就被各種商業機構非法存儲或賤賣給其它任何有需要的企業或個人了。

更可怕的是，這些信息你永遠無法刪除，它們永遠存在于互聯網的某些你不知道的角落。除非你更換掉自己的所有信息，但是這代價太大了。

用戶隱私問題一直是大數據應用難以繞開的一個問題，如被央視曝光過的分眾無線、羅維鄧白氏以及網易郵箱都涉及侵犯用戶隱私。目前，中國并沒有專門的法律法規來界定用戶隱私，處理相關問題時多采用其他相關法規條例來解釋。但隨著民眾隱私意識的日益增強，合法合規地獲取數據、分析數據和應用數據，是進行大數據分析時必須遵循的原則。

說到隱私被侵犯，愛德華?斯諾登應該占據一席之地，這位前美國中央情報局(CIA)雇員一手引爆了美國“棱鏡計劃”(PRISM)的內幕消息。“棱鏡”項目是一項由美國國家安全局(NSA)自2007年起開始實施的絕密電子監聽計劃，年耗資近2000億美元，用于監聽全美電話通話記錄，據稱還可以使情報人員通過“后門”進入9家主要科技公司的服務器，包括微軟、雅虎、谷歌、Facebook、PalTalk、美國在線、Skype、YouTube、蘋果。這個事件引發了人們對政府使用大數據時對公民隱私侵犯的擔心。

再看看我們身邊，當微博，微信，QQ空間這些社交平臺肆意的吞噬著數億用戶的各種信息時，你就不要指望你還有隱私權了，就算你在某個地方刪除了，但也許這些信息已經被其他人轉載或保存了，更有可能已經被百度或Google存為快照，早就提供給任意用戶搜索了。

因此在大數據的背景下，很多人都在積極的抵制無底線的數字化，這種大數據和個體之間的博弈還會一直繼續下去……

專家給予了我們一些如何有效保護大數據背景下隱私權的建議：

減少信息的數字化;

隱私權立法;

數字隱私權基礎設施(類似DRM數字版權管理);

人類改變認知(接受忽略過去);

創造良性的信息生態;

語境化。

但是這些都很難立即見效或者有實質性的改善。

比如，現在有一種職業叫刪帖人，專門負責幫人到各大網站刪帖，刪除評論。其實這些人就是通過黑客技術侵入各大網站，破獲管理員的密碼然后進行手工定向刪除。只不過他們保護的不是客戶的隱私，而大多是丑聞。還有一種職業叫人肉專家，他們負責從互聯網上找到一個與他們根本就無關系用戶的任意信息。這是很可怕的事情，也就是說，如果有人想找到你，只需要兩個條件：1-你上過網，留下過痕跡;2-你的親朋好友或僅僅是認識你的人上過網，留下過你的痕跡。這兩個條件滿足其一，人肉專家就可以很輕松的找到你，可能還知道你現在正在某個餐廳和誰一起共進晚餐。

當很多互聯網企業意識到隱私對于用戶的重要性時，為了繼續得到用戶的信任，他們采取了很多辦法，比如google承諾僅保留用戶的搜索記錄9個月，瀏覽器廠商提供了無痕沖浪模式，社交網站拒絕公共搜索引擎的爬蟲進入，并將提供出去的數據全部采取匿名方式處理等。

用戶信息

在這種復雜的環境里面，很多人依然沒有建立對于信息隱私的保護意識，讓自己一直處于被滋擾，被精心設計，被利用，被監視的處境中。可是，我們能做的幾乎微乎其微，因為個人隱私數據已經無法由我們自己掌控了，就像一首詩里說到的：“如果你現在繼續麻木，那就別指望這麻木能抵擋得住被”扒光”那一刻的驚恐和絕望……”

和大數據相關的技術

云技術

大數據常和云計算聯系到一起，因為實時的大型數據集分析需要分布式處理框架來向數十、數百或甚至數萬的電腦分配工作。可以說，云計算充當了工業革命時期的發動機的角色，而大數據則是電。

云計算思想的起源是麥卡錫在上世紀60年代提出的：把計算能力作為一種像水和電一樣的公用事業提供給用戶。

如今，在Google、Amazon、Facebook等一批互聯網企業引領下，一種行之有效的模式出現了：云計算提供基礎架構平臺，大數據應用運行在這個平臺上。

業內是這么形容兩者的關系：沒有大數據的信息積淀，則云計算的計算能力再強大，也難以找到用武之地;沒有云計算的處理能力，則大數據的信息積淀再豐富，也終究只是鏡花水月。

那么大數據到底需要哪些云計算技術呢?

這里暫且列舉一些，比如虛擬化技術，分布式處理技術，海量數據的存儲和管理技術，NoSQL、實時流數據處理、智能分析技術(類似模式識別以及自然語言理解)等。

云計算和大數據之間的關系可以用下面的一張圖來說明，兩者之間結合后會產生如下效應：可以提供更多基于海量業務數據的創新型服務;通過云計算技術的不斷發展降低大數據業務的創新成本。

大數據和云計算

如果將云計算與大數據進行一些比較，最明顯的區分在兩個方面：

第一，在概念上兩者有所不同，云計算改變了IT，而大數據則改變了業務。然而大數據必須有云作為基礎架構，才能得以順暢運營。

第二，大數據和云計算的目標受眾不同，云計算是CIO等關心的技術層，是一個進階的IT解決方案。而大數據是CEO關注的、是業務層的產品，而大數據的決策者是業務層。

分布式處理技術

分布式處理系統可以將不同地點的或具有不同功能的或擁有不同數據的多臺計算機用通信網絡連接起來，在控制系統的統一管理控制下，協調地完成信息處理任務—這就是分布式處理系統的定義。

以Hadoop(Yahoo)為例進行說明，Hadoop是一個實現了MapReduce模式的能夠對大量數據進行分布式處理的軟件框架，是以一種可靠、高效、可伸縮的方式進行處理的。

而MapReduce是Google提出的一種云計算的核心計算模式，是一種分布式運算技術，也是簡化的分布式編程模式，MapReduce模式的主要思想是將自動分割要執行的問題(例如程序)拆解成map(映射)和reduce(化簡)的方式，在數據被分割后通過Map 函數的程序將數據映射成不同的區塊，分配給計算機機群處理達到分布式運算的效果，在通過Reduce 函數的程序將結果匯整，從而輸出開發者需要的結果。

大數據工具

再來看看Hadoop的特性，第一，它是可靠的，因為它假設計算元素和存儲會失敗，因此它維護多個工作數據副本，確保能夠針對失敗的節點重新分布處理。其次，Hadoop 是高效的，因為它以并行的方式工作，通過并行處理加快處理速度。Hadoop 還是可伸縮的，能夠處理 PB 級數據。此外，Hadoop 依賴于社區服務器，因此它的成本比較低，任何人都可以使用。

你也可以這么理解Hadoop的構成，Hadoop=HDFS(文件系統，數據存儲技術相關)+HBase(數據庫)+MapReduce(數據處理)+……Others

Hadoop用到的一些技術有：

HDFS: Hadoop分布式文件系統(Distributed File System) – HDFS (HadoopDistributed File System)

MapReduce：并行計算框架

HBase: 類似Google BigTable的分布式NoSQL列數據庫。

Hive：數據倉庫工具，由Facebook貢獻。

Zookeeper：分布式鎖設施，提供類似Google Chubby的功能，由Facebook貢獻。

Avro：新的數據序列化格式與傳輸工具，將逐步取代Hadoop原有的IPC機制。

Pig:大數據分析平臺，為用戶提供多種接口。

Ambari：Hadoop管理工具，可以快捷的監控、部署、管理集群。

Sqoop：用于在Hadoop與傳統的數據庫間進行數據的傳遞。

大數據技術

說了這么多，舉個實際的例子，雖然這個例子有些陳舊，但是淘寶的海量數據技術架構還是有助于我們理解對于大數據的運作處理機制:

淘寶大數據

如上圖所示，淘寶的海量數據產品技術架構分為五個層次，從上至下來看它們分別是：數據源，計算層，存儲層，查詢層和產品層。

數據來源層： 存放著淘寶各店的交易數據。在數據源層產生的數據，通過DataX，DbSync和Timetunel準實時的傳輸到下面第2點所述的“云梯”。

計算層： 在這個計算層內，淘寶采用的是Hadoop集群，這個集群，我們暫且稱之為云梯，是計算層的主要組成部分。在云梯上，系統每天會對數據產品進行不同的MapReduce計算。

存儲層： 在這一層，淘寶采用了兩個東西，一個使MyFox，一個是Prom。MyFox是基于MySQL的分布式關系型數據庫的集群，Prom是基于Hadoop Hbase技術的一個NoSQL的存儲集群。

2016-5-9 15:00 | 來自: 36大數據

隨意打賞

數據深度挖掘深度數據深度思考

欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频