開源 | 華為開源streamDM:用于Spark Streaming的數(shù)據(jù)挖掘軟件
選自huawei-noah.github.io
機(jī)器之心編譯
參與:杜夏德
華為諾亞方舟實(shí)驗(yàn)室開源 stream DM ,是一種使用 Spark Streaming 挖掘大數(shù)據(jù)的開源軟件。Stream DM 是 Apache Software License v2.0 許可下的開源軟件。
大數(shù)據(jù)流學(xué)習(xí)
大數(shù)據(jù)流學(xué)習(xí)(Big Data stream learning)比批量或離線學(xué)習(xí)更富有挑戰(zhàn)性,因?yàn)閿?shù)據(jù)在流動(dòng)的過程中不太可能保持同一種分布。而且,數(shù)據(jù)流中的每一個(gè)樣本只能被處理一次,否則它們就需要占用內(nèi)存進(jìn)行總結(jié),同時(shí)該學(xué)習(xí)算法也必須非常高效。
Spark Streaming
Spark Streaming(https://spark.apache.org/streaming/) 是核心 Spark API 的一個(gè)擴(kuò)展,它能讓多個(gè)源的數(shù)據(jù)流處理成為可能。Spark 是一個(gè)可擴(kuò)展可編程的框架,用于大規(guī)模分布式數(shù)據(jù)集(也稱為彈性分布式數(shù)據(jù)集(RDD))處理。Spark Streaming 接收輸入的數(shù)據(jù)流后將數(shù)據(jù)分批,再由 Spark 引擎處理,生成結(jié)果。
Spark Streaming 數(shù)據(jù)被編成一個(gè) DStreams 序列,內(nèi)在地表示成一個(gè) RDD 序列。
包含以下方法:
在第一次開放的 StreamDM 中,我們部署了:
-
SGD Learner (http://huawei-noah.github.io/streamDM/docs/SGD.html) 和 Perceptron (http://huawei-noah.github.io/streamDM/docs/SGD.html#perceptron)
-
Naive Bayes (http://huawei-noah.github.io/streamDM/docs/NB.html)
-
CluStream (http://huawei-noah.github.io/streamDM/docs/CluStream.html)
-
Hoeffding Decision Trees (http://huawei-noah.github.io/streamDM/docs/HDT.html)
-
Bagging (http://huawei-noah.github.io/streamDM/docs/Bagging.html)
-
Stream KM++ (http://huawei-noah.github.io/streamDM/docs/StreamKM.html)
我們部署了以下數(shù)據(jù)生成器
(http://huawei-noah.github.io/streamDM/docs/generators.html):
-
HyperplaneGenerator
-
RandomTreeGenerator
-
RandomRBFGenerator
-
RandomRBFEventsGenerator
我們部署了 SampleDataWriter:
(http://huawei-noah.github.io/streamDM/docs/SampleDataWriter.html),它可以調(diào)取數(shù)據(jù)生成器創(chuàng)建樣本數(shù)據(jù)用于模擬和測(cè)試。 后面我們將計(jì)劃開放:
-
分類:隨機(jī)森林
-
回歸:Hoeffding 回歸樹,Bagging,隨機(jī)森林
-
聚類:Clustree, DenStream
-
Frequent Itemset Miner:IncMine, IncSecMine
下一步
為了快速介紹一下 StreamDM 的運(yùn)行,請(qǐng)打開 Getting Started (http://huawei-noah.github.io/streamDM/docs/GettingStarted.html)文件。StreamDM Programming Guide (http://huawei-noah.github.io/streamDM/docs/Programming.html) 展示了 StreamDM 的細(xì)節(jié)。完整的 API 文檔,可以參考這里:http://huawei-noah.github.io/streamDM/api/index.html。
?本文由機(jī)器之心編譯, 轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán) 。
?------------------------------------------------
加入機(jī)器之心(全職記者/實(shí)習(xí)生):hr@almosthuman.cn
投稿或?qū)で髨?bào)道:editor@almosthuman.cn
廣告&商務(wù)合作:bd@almosthuman.cn