遇見大數據可視化:基礎研究
作者:騰訊云
近日星巴克與微信推出的社交禮品功能“用星說”,可以說刷遍了朋友圈。無論你愛不愛喝咖啡,星巴克似乎都成為了一種文化象征。上班族青睞,小清新喜歡,基本上大家看到綠色的人魚標志就能馬上認出它來。
雖然一直也有喝咖啡的習慣,但至今不知道星巴克菜單版上列的【摩卡】、【拿鐵】、【美式】、【卡布奇諾】等等有什么區別。直到看到下列圖,才很直觀的了解到每個咖啡類別的區別是什么。
類似上圖示,針對內容復制,難以形象表達的信息,通過圖形簡單清晰地向受眾呈現出來,這種圖稱之為信息圖。
信息圖
信息圖本身是一個合成詞,由信息和圖兩個詞組成多稱之為(Infographics或Infographics Graphics),在40年代的時候就開始出現,使用在報紙及新聞類雜志方面,其中杰出的代表阿根廷的信息圖先驅Alejandro Malofiej,在1993年西班牙設立了以他為名的主要針對信息圖表設計的Malofiej獎。
在報紙、雜志等紙質媒體中,為了讓讀者感到新奇且直觀容易的理解,運用了大量的信息圖解的表現。
如下圖所示:

為什么人們會對信息圖的傳播內容更有效呢?主要原因是因為視覺是人類最強的信息輸入方式,人類感知周圍世界最強的方式,在Brain Rules《大腦法則》一書中,發展分子生物學家John Medina寫道:“視覺是迄今我們最主要的感官,占用了我們大腦中一半的資源。”信息圖提供了一種語境的方法(Language of Context),通過展示多個維度數值并且相互比較來為受眾提供語境,使我們更高效的把內容反射到大腦中。
后來隨著技術的發展,除了傳統的紙質媒體出現了以互聯網為主的電腦,電視,手機,大屏終端等更多類型的電子媒體。信息圖的分類也逐步劃分為:圖解(Diagram) 、圖表(Chart) 、 表格(Table) 、統計圖(Graph) 、 地圖(Map)和圖形符號(Pictogram)這幾部分。
圖解Diagram – 主要運用插圖對事物進行說明
圖表 Chart – 運用圖形、線條及插圖等,闡明事物的相互關系
表格 Table – 根據特定信息標準進行區分,設置縱軸與橫軸
統計圖 Graph – 通過數值來表現變化趨勢或進行比較
地圖 Map – 描述在特定區域和空間里的位置關系
圖形符號 Pictogram – 不使用文字,運用圖畫直接傳達信息

我們來看一組簡單的數據,比較下圖形和數據對于人腦感觀的差異。

從數據上很難看出有什么區別,因為每組數據看上去都十分的相近。下面我們把這四組數據轉換成圖表來進行對比下。

將數據圖形化后,大腦天然的會對圖形的不同點做出反應,從而更高效的理解數據帶來的意義。
我們再來看下其他例子:


這種用圖形化對數據進行描述設計的過程,我們通常稱為【數據可視化】。有時候,可視化的結果可能只是一個條形圖表,但大多數的時候可視化的過程會很復雜的,因為數據本身可能會很復雜的。一般流程包括【數據收集】-【數據分析&清理】-【可視化設計】,從抽象的原始數據到可視化圖像。

數據
數據是可視化的基礎,它不僅僅是數字,要想把數據可視化,就必須知道它表達的是什么。根據Ben Shneiderman的分類,信息可視化的數據分為以下幾類:
一維數據:X軸一個維度如果1、2、3、4 ???
二維數據:X,Y兩個二維度(1、2),(3、4),(5、6),(7、8)???
三維數據:X,Y,Z三個維度(1、2、3),(4、5、6),(7、8、9) ???
多維數據:X,Y,Z,???多個維度(1、2、3、4、???),(5、6、7、8、???)
時態數據:具有數據屬性的數據集合。
層次數據:具有等級或層次關系數據集合。
數據種類劃分是十分多的,但是這些數據都描述了現實的世界中的一部分,是現實世界的一個快照。除了類型,數據的數量級也影響這數據的表達結果。

我們來看一個數據:【2017年1月28號,成都PM2.5值245】,從這個數據里能看出什么,可能只是會覺得當天成都空氣質量不好,我們可能會聯想到這個樣一個畫面。

OK,我們繼續豐富我們的原始數據,在中國環境監測總站(http://www.cnemc.cn/) 的網站獲取到成都2017年整個1月份的PM2.5的數據。
中國環境監測總站作為空氣質量公開的數據來源,它提供了獲取數據的API接口。通過API接口我們可以獲取到原始數據。


可視化
通俗地說,可視化設計的目的是“讓數據說話”,用圖形去講述數據的故事。可視化是一種表達數據的方式,是現實世界的抽象表達。它像文字一樣,為我們講述各種各樣的故事。作為一種媒介,可視化已經發展成為一種很好的故事講述方式。
我們把成都PM2.5的數據,按照日期和當天的PM2.5指數做出最簡單圖形來,我們可以得到下面這類的圖表來。

那什么是好的可視化作品呢?
好的可視化設計需要具備統計和設計方面的知識。沒有前者,可視化只是插圖和美術練習;沒有后者,可視化就只是研究分析結果。統計和設計的知識都只能幫助你完成數據圖形的一部分。
我們需要去講述數據的故事。那PM2.5代表的是什么,是當天天氣的情況,所以我們可以用天氣的維度去講述這個故事。

好的可視化設計能讓你有一見鐘情的感覺,你知道眼前的東西就是你想看到的。既可以是藝術的,同時又是真實的。而不是直接把數據轉換成圖表,找到數據和它所代表事物之間的關系按照“數字化敘事”去做設計,這是全面分析數據的關鍵,同樣還是深層次理解數據的關鍵。


當然好的數據可視化圖都是不斷迭代優化出來的,判斷是不是一個好的數據可視化可以按照以下的步驟去考慮。【你有什么數據】 -> 【關于數據你想知道什么】 -> 【數據可視化的表現方式】 -> 【你看到了什么?有意義嗎?】。每一個問題的答案都取決于前一個答案,不斷的去問自己,每個環節有沒有問題,這樣才能做出最好的設計。

End.
轉載請注明來自36大數據(36dsj.com): 36大數據 ? 遇見大數據可視化:基礎研究