欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

基于統(tǒng)計思想下的推薦系統(tǒng)-36大數(shù)據(jù)

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個廣告,點擊進來看看。  

基于統(tǒng)計思想下的推薦系統(tǒng)-36大數(shù)據(jù)

作者:沙韜偉

我們先做如下設(shè)定:

  1. 每個用戶的打分都是獨立事件。
  2. 用戶只有兩個選擇,要么投喜歡’1’,要么投不喜歡’0’。
  3. 如果總?cè)藬?shù)為n,其中喜歡的為k,那么喜歡的比例p就等于k/n。

這是一種統(tǒng)計分布,叫做”二項分布”(binomial distribution)

理論上講,p越大應該越好,但是n的不同,導致p的可信性有差異。100個人投票,50個人投喜歡;10個人投票,6個人喜歡,我們不能說后者比前者要好。

所以這邊同時要考慮(p,n)

剛才說滿足二項分布,這里p可以看作”二項分布”中某個事件的發(fā)生概率,因此我們可以計算出p的置信區(qū)間。

所謂”置信區(qū)間”,就是說,以某個概率而言,p會落在的那個區(qū)間。

置信區(qū)間展現(xiàn)的是這個參數(shù)的真實值有一定概率落在測量結(jié)果的周圍的程度。置信區(qū)間給出的是被測量參數(shù)的測量值的可信程度,即前面所要求的“一個概率”,也就是結(jié)論的可信程度。

二項分布的置信區(qū)間有多種計算公式,最常見的是”正態(tài)區(qū)間”(Normal approximation interval)。但是,它只適用于樣本較多的情況(np > 5 且 n(1 ? p) > 5),對于小樣本,它的準確性很差。

這邊,我推薦用t檢驗來衡量小樣本的數(shù)據(jù),可以解決數(shù)據(jù)過少準確率不高的問題。

這樣一來,排名算法就比較清晰了:

第一步,計算每個case的p(好評率)。

第二步,計算每個”好評率”的置信區(qū)間(參考z Test或者t Test,以95%的概率來處理)。

第三步,根據(jù)置信區(qū)間的下限值,進行排名。這個值越大,排名就越高。

基于統(tǒng)計思想下的推薦系統(tǒng)-36大數(shù)據(jù) 基于統(tǒng)計思想下的推薦系統(tǒng)-36大數(shù)據(jù)

解釋一下,n為評價數(shù),p為好評率,z為對應檢驗對應概率區(qū)間下的統(tǒng)計量

比如t-分布:

基于統(tǒng)計思想下的推薦系統(tǒng)-36大數(shù)據(jù)

可以看到,當n的值足夠大時,這個下限值會趨向p,如果n非常小,這個下限值會大大小于p,更加符合實際。

Reddit的評論排名,目前就使用這個算法。國內(nèi)的化,滴滴也有部分業(yè)務涉及,效果也不錯。

除此之外,在計算排名的時候,我們通常會考慮三個事情

  1. 上文講到的,次數(shù)+好評率的分布,次數(shù)越多好評率越可靠,好評率越高該項越值得推薦
  2. 時間因素,如果一個項目是10天前推送的,一個項目是昨天推送的,很明顯前者的次數(shù)遠大于后者
  3. 影響權(quán)重,你這邊只考慮了喜歡和不喜歡,其實所有的排序不可能只以1個維度考慮,通常會考慮多個維度,比如瀏覽次數(shù),搜索次數(shù)等,你需要考慮每個的重要性或者說權(quán)重大小

1這里就不講了,其他方法也有很多,比如貝葉斯平均的優(yōu)化版本、再比如經(jīng)典的Hacker公式:


2.時間因素:

時間越久,代表之前的投票結(jié)果對當前的影響越小,這邊有很多不同的影響方式,舉幾個例子:

比如艾賓浩斯遺忘規(guī)律:


這里的c、k決定下降速度,業(yè)務運用過程中,c值一般在[1,2],k值一般在[1.5,2.5]

比如時效衰減:

基于統(tǒng)計思想下的推薦系統(tǒng)-36大數(shù)據(jù)

這里就是比較常見的移動窗口式的,永遠只看近期某一段時間,而且時間內(nèi)呈線性下降,不過可以改變變化方式

3.不同種的屬性對于結(jié)果的影響自然不同

舉個例子,用戶主動搜索和用戶瀏覽相比,用戶主動搜索的情況下,用戶的需求更為強烈

通常需要判斷這些強烈程度都是通過:

  • 相關(guān)性:看因變量與自變量之間的相關(guān)系數(shù),如:cor函數(shù)
  • importance:看刪除或者修改自變量,對應變量的判斷影響大小,如:randomForest的重要性
  • 離散程度:看自變量的數(shù)據(jù)分布是否足夠分散,是否具有判斷依據(jù),如:變異系數(shù)或者pca等等。

End.

轉(zhuǎn)載請注明來自36大數(shù)據(jù)(36dsj.com): 36大數(shù)據(jù) ? 基于統(tǒng)計思想下的推薦系統(tǒng)

本文被轉(zhuǎn)載1次

首發(fā)媒體 36大數(shù)據(jù) | 轉(zhuǎn)發(fā)媒體

隨意打賞

數(shù)據(jù)分析思想大數(shù)據(jù)思想大數(shù)據(jù)統(tǒng)計大數(shù)據(jù)思維基于大數(shù)據(jù)36大數(shù)據(jù)
提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 日韩麻豆 | 最新狠狠色狠狠色综合 | 国产一区二区免费在线 | 国产中日韩一区二区三区 | 尹人成人 | 60岁妇女毛片 | 天堂精品高清1区2区3区 | 久久国产美女免费观看精品 | 亚洲欧美久久精品一区 | 夜色视频一区二区三区 | 欧美亚洲国产精品久久第一页 | 日本 国产 欧美 | 久久精品五月天 | 成年超爽大片免费视频播放 | 亚洲精品成人网久久久久久 | 日本一级aaaa特黄毛片 | 福利视频在线观看午夜 | 日本黄色免费网址 | 在线观看欧美亚洲日本专区 | 国产亚洲精品自在久久77 | 尹人香蕉99久久综合网站 | 国产一区精品在线 | 日韩欧美在线免费观看 | 特黄一级大片 | 久久狠色噜噜狠狠狠狠97 | 久久做 | 一级毛片在线播放 | 亚洲婷婷网 | 99精品国产高清一区二区麻豆 | 久久精品麻豆 | 亚洲国产色综合有声小说 | 天天干天天草天天射 | 欧美精品国产第一区二区 | 国产福利免费在线观看 | 国产精品第7页 | 中文字幕一区二区三区在线播放 | 97免费观看| 欧美一区二区三区在线视频 | 久久久午夜影院 | 一级毛片看真人在线视频 | 欧美中文在线观看 |