Google 開源機器學習數據集可視化工具 Facets-36大數據
ML 數據集可以包含數億個數據點,每個數據點由數百(甚至數千)的特征組成,幾乎不可能以直觀的方式了解整個數據集。為幫助理解、分析和調試 ML 數據集,谷歌開源了 Facets,一款可視化工具。
Facets 包含兩個部分 —— Facets Overview 和 Facets Dive ,允許用戶以不同的粒度查看其數據的整體圖像。Facets Overview 可用于可視化數據的每一個特征,Facets Dive 用來探索個別的數據觀察集。
除了開放 Facets 源碼 ,Google 還創建了 演示網站 。
具體來看,Facets Overview?可以讓用戶快速了解其數據集特征值的分布情況,可以在相同的可視化上比較多個數據集,例如訓練集和測試集。阻礙機器學習的常見數據問題被推到最前端,比如出乎意料的特征值、具有高比例遺失值的特征、帶有不平衡分布的特征,數據集之間的特征分布偏差等等。
?
Facets Dive 則提供了一個易于定制的直觀界面,用于探索數據集中不同特征數據點之間的關系。它是一種交互式探索多達數萬個數據點的工具,允許用戶在高級概述和低級細節之間進行無縫切換。通過 Facets Dive,你可以控制位置、顏色和視覺表現。每個示例在可視化中被表示為單個項目,并且可以通過其特征值在多個維度上通過 faceting/bucketing 來定位點。通過結合細分和過濾,Dive 可以輕松地在復雜數據集中識別樣式和異常值。
End.
轉載請注明來自36大數據(36dsj.com): 36大數據 ? Google 開源機器學習數據集可視化工具 Facets