欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

用Spark分析Amazon的8000萬商品評價(內含數據集、代碼、論文)

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  

?

用Spark分析Amazon的8000萬商品評價(內含數據集、代碼、論文)

文 |?Max Woolf

盡管數據科學家經常通過分布式云計算來處理數據,但是即使在一般的筆記本電腦上,只要給出足夠的內存,Spark也可以工作正常(在這篇文章中,我使用2016年MacBook Pro / 16GB內存,分配給Spark 8GB內存)。

此外,通過Maxcompute及其配套產品,低廉的大數據分析僅需幾步。

用Spark分析Amazon的8000萬商品評價(內含數據集、代碼、論文)

亞馬遜的商品評論和評分是一個非常重要的業務。 亞馬遜上的客戶經常基于這些評論做出購買決定,并且單個不良評論可以導致潛在購買者重新考慮。 幾年前,我寫了一篇非常受歡迎的博客文章,題為“120萬亞馬遜評論統計分析“。

用Spark分析Amazon的8000萬商品評價(內含數據集、代碼、論文)

當時,我只限于1200萬評論,因為嘗試處理更多的數據會導致內存不足,以至于我的R語言代碼需要運行幾個小時。

Apache Spark是一個高效的開源大數據計算框架,在過去幾年中已經非常流行(對于使用Spark和Python的好教程,我推薦免費的eDX課程)。盡管數據科學家經常通過分布式云計算來處理數據,但是即使在一般的筆記本電腦上,只要給出足夠的內存,Spark也可以工作正常(在這篇文章中,我使用2016年MacBook Pro / 16GB內存,分配給Spark 8GB內存)。

我寫了一個簡單的Python腳本,用來合并Julian McAuley、Rahul Pandey和Jure Leskovecucehua在2015年發布“Inferring Networks of Substitutable and Complementary Products”論文時準備的亞馬遜產品評論數據集中每個類別的評級數據 。成果是一個4.53 GB的CSV,肯定不能在Microsoft Excel中打開。選取和整合的數據集包括:留下評論的用戶的用戶名,指明是哪一個接收評論亞馬遜產品的id,從1到5的用戶給出的評級,以及評論寫入的時間(精確到天)。 我們還可以從數據子集的名稱推斷已評價產品的類別。

然后,使用面對R語言的新的升級包,我可以使用一個spark_connect()命令輕松啟動本地Spark集群,并使用單個spark_read_csv()命令很快將整個CSV加載到集群中。

用Spark分析Amazon的8000萬商品評價(內含數據集、代碼、論文)

在數據集中總共有8074萬條記錄,即8.074e + 07條。如果使用傳統工具(如dplyr或甚至Python pandas)高級查詢,這樣的數據集將需要相當長的時間來執行。

使用sparklyr,操作實際很大的數據就像對只有少數記錄的數據集執行分析一樣簡單(并且比上面提到的eDX類中教授的Python方法簡單一個數量級)。

試探性分析

(您可以查看用于Spark處理數據的R代碼,并在此R Notebook中生成可視化數據)有20,368,412個有效id的用戶在此數據集中提供評論。 其中51.9%的用戶只寫了一篇評論。

用Spark分析Amazon的8000萬商品評價(內含數據集、代碼、論文)

相應地,此數據集中有8,210,439個單獨的產品,其中43.3%只有一個評論。

用Spark分析Amazon的8000萬商品評價(內含數據集、代碼、論文)

刪除幾個重復的評分后,我為每個評分添加了幾個函數,這可能有助于說明審核行為隨時間的變化:一個能表示給定該評論的作者的#評論排名值(作者的第一次評論,第二次評論等),一個指示給定接到該評論的產品已經接收到的#評論(產品的第一評論,產品的第二評論等)的評級值以及進行評論的月份和年份。

前兩個添加的函數需要非常大的處理能力,這突出Spark的性能事實上,Spark使用默認情況下所有的CPU核心,而典型的R / Python方法是單線程的!)

這些更改被緩存到Spark DataFrame df_t中。 如果我想確定哪個亞馬遜產品類別獲得最佳平均評論評分,我可以按類別整合數據,計算每個類別的平均評分,然后排序。多虧Spark的強大功能,這個數百萬記錄的數據處理需要幾秒鐘。

?

用Spark分析Amazon的8000萬商品評價(內含數據集、代碼、論文)

也可以使用ggplot2以圖表形式顯示:

用Spark分析Amazon的8000萬商品評價(內含數據集、代碼、論文)

數字音樂/ CD產品平均獲得最高評價,而視頻游戲和手機得到最低平均評價,評分范圍為0.77。 這確實說明了一些直觀的聯系; 購買數字音樂和CD這類產品時,你知道你會得到什么,沒有產生隨機缺陷機會,而手機和配件根據背后的第三方賣家的會有不同的質量(電子游戲尤其容易由于微小的不合理而產生評論的“爆炸”)。

我們可以將每個條細分分成從1-5的每個評級的百分比,更利于該可視化。 也可以將餅圖圖表劃分成不同類別,但像這樣碼成條形圖再縮放到100%能看起來更清爽。

用Spark分析Amazon的8000萬商品評價(內含數據集、代碼、論文)

新的圖表確實有助于支持上述理論; 頂部的類別的4/5星評級的百分比顯著高于底部類別,并且1/2/3星級評分的比例低得多,底部類別與之相反。那么這些故障如何隨時間而改變? 還有其他因素在發揮嗎?

隨時間變化的評級

也許出現在二十世紀二十年代社會媒體中的二元評級“喜歡/不喜歡”已經轉化為五星級評論系統的行為。 以下是從2000年1月至2014年7月每月撰寫的評論的評分細目:

用Spark分析Amazon的8000萬商品評價(內含數據集、代碼、論文)

投票行為在一段時間內非常輕微地振蕩,沒有清晰的尖峰或拐點,這與該理論沖突。

平均值分布

我們應該看看亞馬遜的產品分數的全球平均值(即客戶在購買產品時看到的),以及給出分級的用戶。在我們期望中兩者分布匹配,所以任何偏差都會很有趣。關注至少評級5的產品時,有4.16平均總評級:

用Spark分析Amazon的8000萬商品評價(內含數據集、代碼、論文)

當查看反應用戶給出的總體評分類似的圖表時(5個評級最低),平均評級略高于4.20。

用Spark分析Amazon的8000萬商品評價(內含數據集、代碼、論文)

這兩種分配的主要區別是亞馬遜客戶只有5星評價的比例明顯更高。歸納和總結兩個圖表可以清楚突出了差異。

用Spark分析Amazon的8000萬商品評價(內含數據集、代碼、論文)

特別的評論

幾個帖子前,我討論了Reddit帖子的第一個評論為何比以后的評論有更大的影響。 在做出越來越多的評論后,用戶評分行為是否會改變? 同一件產品的第一次評價,與典型的評級行為是否不同?這里是某個用戶給出的幾個亞馬遜評論的評分細目:

用Spark分析Amazon的8000萬商品評價(內含數據集、代碼、論文)

第一個用戶評論的評分比之后的評價稍高。其他情況下,評級行為大部分是相同的,雖然用戶給4星而不是5星評價的比例增加,由于這樣更舒適。相比之下,這里是某亞馬遜產品收到的幾個評論的評分細目:

用Spark分析Amazon的8000萬商品評價(內含數據集、代碼、論文)

第一個產品評論是5星評價的可能略高于隨后的評論。 然而,在第10次審查之后,評級分布沒有變化,這意味著特殊評級行為獨立于該閾值之后的當前評分。

總結

的確,這篇博文中使用數據多于分析它。 在未來技術發布中,可能更有趣的是特定條件下的行為,例如根據該產品/該用戶以前的評價,預測評論的評級。 然而,這篇文章表明,雖然“大數據”可能現在仍是一個令人費解的流行語,但即使你不必為一家財富500強公司工作,也能夠理解它。 即使數據集由5個簡單的函數組成,您也可以歸納大量的結論。

而這篇文章甚至不需要查看亞馬遜的產品評論的文本或與產品相關的元數據! 只要有想法,就能完成。

您可以在 R Notebook 中查看所有用于可視化Amazon數據的R和ggplot2代碼。您還可以在此GitHub存儲庫中查看用于此帖子的 鏡像/數據。

原文鏈接>>>

End.

轉載請注明來自36大數據(36dsj.com): 36大數據 ? 用Spark分析Amazon的8000萬商品評價(內含數據集、代碼、論文)

隨意打賞

spark streamingamazon.comspark數據分析spark大數據spark數據論文代碼
提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 免费永久欧美性色xo影院 | 国产精品久久精品牛牛影视 | 天色噜噜噜噜 | 99精品视频只99有精品 | 性做久久 | 国产成人精品男人的天堂网站 | 日日操日日 | 97国产成人精品免费视频 | 激情婷婷网 | 91系列在线观看 | 欧美成人一区二区 | 人人操天天射 | 欧美网色 | 成人欧美精品一区二区不卡 | 九九在线观看高清免费 | 狠狠操图片 | 狠狠综合 | 日韩在线播放中文字幕 | 久久天堂网 | 国产精品尹人在线观看免费 | 伦伦影院精品一区 | 成在线人永久免费播放视频 | 免费一级欧美片在线观看 | 成年人性生活免费视频 | 天天摸天天舔天天操 | 国产精品久久久久久麻豆一区 | 伊人久久网国产伊人 | 97se亚洲国产综合自在线 | 豆国产97在线 | 中国 | 奇米狠狠 | 欧美综合网| 伊人久久中文字幕久久cm | 99久久精品免费看国产四区 | 很很鲁在线视频播放影院 | 中中文字幕亚州无线码 | 久草新视频 | 久久久美女视频 | 久久精品美女视频 | 狠狠综合久久综合网站 | 久久精热 | 国产一级爱c片免费播放 |