欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

Pinterest使用MemSQL和Spark Streaming進行實時數據分析

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  

Pinterest

Pinterest 是一家提供可視化書簽工具的公司,這種工具可以幫助人們發現并保存有創意的想法,目前這家公司正使用實時數據分析來達到以數據驅動決策的目的。 實驗 中使用了 MemSQL 和 Spark 這樣的技術,用以分析來自全球的用戶實時行為信息。

Pinterest采用Redshift實現強大的交互式數據分析

通過MemSQL和Spark,Pinterest創建了一條數據管道。這條管道通過 Apache Kafka 使數據流入MemSQL,并且通過 Spark Streaming API向Spark輸入數據(譯者注:數據流向是Kafka -> Spark -> MemSQL ,見圖1)。這個方案對了解全球用戶如何使用Pins(譯者注:即可視化書簽)提供了實時性的洞察。這有助于Pinterest成為一個更好的推薦引擎,它可以顯示相關的Pins,人們會在不同的場景下來使用這種服務,比如為購物、去某個地方和烹飪食譜做個計劃。

Pinterest

Pin的行為數據(engagement data)先被送入到Kafka主題(Topic)中,接著它被Spark streaming作業消耗掉。作業中每個Pin會進行過濾,然后加上其地理位置和Pin的類別來充實其信息。接著再通過 MemSQL Spark 連接器 (MemSQL Spark Connector)將充實后的信息持久化到MemSQL數據庫中以提供查詢服務。MemSQL Spark 連接器提供了Spark讀寫MemSQL數據庫的工具,它使用MemSQL RDD(Resilient Distributed Dataset)從MemSQL讀取數據。

綜上所述,這個方案框架可以支持實時地收集、存儲和處理用戶行為數據。同時,它也可以幫助獲得下面這些能力:

高性能事件日志:即使用一個叫Singer的代理來收集事件日志,然后把它們運送到集中的數據倉庫中。

可靠的日志傳輸和存儲:即通過Apache kafka和一個叫 Secor 的持久化服務來可靠將這些事件寫入到長期數據存儲 Amazon S3 中。Secor在設計上克服了S3的弱最終一致性模型(weak eventual consistency model)的缺陷,沒有數據丟失而且支持水平擴展和可選的基于日期的數據分片。

基于實時數據的快速查詢:即在實時事件到達時就對它們執行SQL查詢。

查看英文原文: Real-time Data Analytics at Pinterest using MemSQL and Spark Streaming

via:InfoQ

End.

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 俄罗斯一级在线播放 | 在线成人精品国产区免费 | 荔枝污| 一级毛片看看 | 国产免费爱在线观看视频 | 青青青在线视频国产 | 色综合中文字幕天天在线 | 欧美日本中文字幕 | 老司机精品在线播放 | 一本大道加勒比久久综合 | 99热久久精品国产66 | 日日欧美 | 亚洲精品久久精品h成人 | 尤物精品国产福利网站 | 快播视频在线 | 国产二区三区 | 亚洲一区二区视频在线观看 | 视频福利一区 | 日韩高清欧美 | 极品专区高清在线 | 日本一区二区免费视频 | 国产精品视频一区二区三区经 | 国产中文在线 | 日韩精品中文字幕久久 | 一级网 | 青青草a | 色视频在线播放 | 日韩毛片 | 日本一级毛片aaaaa | 欧美激情高清免费不卡 | 亚洲国产综合人成综合网站00 | 精品在线播放视频 | 四虎国产精品视频免费看 | 日本综合在线 | 国产福利在线观看第二区 | 91蝌蚪在线播放 | 97精品国产综合久久久久久欧美 | 偷偷狠狠的日日2020 | 久久精视频| 五月天婷婷激情 | 久久久久久久综合 |