基于Python的搜索引擎檢索數據分析
1、前言
2、分析目的
3、數據準備
數據樣例如下:
00:00:00 2982199073774412 [360安全衛士] 8 3 download.it.com.cn/softweb/software/firewall/antivirus/20067/17938.html
4、分析過程
4.1 不同時段的檢索情況

上圖中的print()函數主要用來看生成的數據。注釋掉也可以。根據操作,生成相應數據,并根據數據生成分析折線圖如下圖所示:

上圖中Console中顯示的數據就是當天檢索量排名前50的用戶。有興趣的同學,可以到搜狗實驗室官網上下載一下這個數據,查看一下檢索量431的那位客戶當天究竟檢索了什么內容。一定是一位重度依賴網絡的朋友。具體訪問了什么,我們稍后再看。經過數據分析,我們決定取排名前20的用戶,用柱狀圖顯示出他們的檢索情況。選取20名用戶主要原因是,一是為了圖示美觀,另一個是為了縮小數據范圍,集中于幾個用戶進行分析,節約分析成本。排名前20的用戶檢索情況如下圖所示:
由于數據比較多,時間關系,我們接下來選取其中一個用戶分析一下其檢索數據。接下來進入下一環節。
4.3 用戶檢索數據析
接下來我們以全天的視角,分析一下當天不同關鍵詞的檢索情況。基本分析思路是提取出當天所有關鍵詞的數量,然后通過詞頻云圖進行直觀展示。根據數據,我們生成詞頻信息,同樣,為了便于觀測,我們按詞頻數進行倒序排列。由于數據比較多,我們僅作部分展示。如下圖所:
為了詞頻云圖的展示,我們需要引入“import collections”和“import wordcloud”這兩個庫。具體用法可以查閱相關資料,就不在此過多講述了。如果大家在使用過程中,有任何疑問,也可以隨時咨詢我。我看到了,會第一時間回復大家。由于大部分檢索詞還是挺“奇怪”的,所以就大家不要看的那么清晰了,知道大體分析思路就可以。根據詞頻,生成詞頻云圖,如下圖所示:
作者:王佳亮,中國計算機學會(CCF)會員。微信公眾號:佳佳原創