數(shù)據(jù)分析你放在人人貸的錢(qián)都去了哪里?-36大數(shù)據(jù)
作者:貓尾KUN
摘要: 本文使用 python 抓取分析數(shù)據(jù) — 人人貸,并從中獲取貸款用戶(hù)。
一、抓取準(zhǔn)備 ?? ???
導(dǎo)入必要的庫(kù)
import requests # 提取頁(yè)面信息 import json from urllib.parse import urlencode from pandas import DataFrame
二、獲取 URL 地址
使用 chrome 瀏覽器 — 檢查功能,因?yàn)轫?yè)面是動(dòng)態(tài)加載,我們以獲取頁(yè)面的兩個(gè) url 講解:
url1= https://www.renrendai.com/pc/loan/list/loanList?startNum=0&limit=10&_=1504013654389 url2=https://www.renrendai.com/pc/loan/list/loanListstartNum=1&limit=10&_=1504013654389
可以觀察到頁(yè)面是隨著 startNum=N 中 N 變化的,所以可以 N 為參數(shù)進(jìn)行不同頁(yè)面信息的抓取
接下來(lái)設(shè)置一個(gè)請(qǐng)求的頭文件信息,目的是包裝一下我們的爬蟲(chóng),以防反爬蟲(chóng)的攔截而抓不到數(shù)據(jù)。
Headers={ ‘Host’:’ www.renrendai.com’, ‘Referer’:’ https://www.renrendai.com/pc/loan.html’, ‘User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36’ }
三、頁(yè)面信息提取
采用 requests+json 庫(kù)進(jìn)行提取 :
Res=requests.get(url,Headers) html=json.loads(Res) result=[] ??? if data and 'data' in data.keys(): ??????? loan = data.get('data') ??????? for item in (loan['loans']): ??????????? items={ ??????????????? 'loanId':item.get('loanId'), ??????????????? 'title':item.get('title'), ??????????????? 'amount':item.get('amount') ??????????? } ??????????? result.append(result) ??????? return result
四、數(shù)據(jù)保存
采用 pandas 庫(kù),因?yàn)槲覀兊捏w量并不是很大,因此直接保存為 xlsx 格式就可以了。
data=[] for i in range(10): ??? detail.extend(get_comments(i)) f = DataFrame(data) f.to_excel('renrendai.xlsx')
最后我們就可以得到 excel 格式的數(shù)據(jù)了。
五、貸款項(xiàng)目分布
用excel做餅圖,可以看到貸款項(xiàng)目主要用于資金周轉(zhuǎn),占比超過(guò)一半,其次是用于裝修,占比18.97%
End.
轉(zhuǎn)載請(qǐng)注明來(lái)自36大數(shù)據(jù)(36dsj.com): 36大數(shù)據(jù) ? 數(shù)據(jù)分析你放在人人貸的錢(qián)都去了哪里?