数据分析:你放在人人贷的钱都去了哪里?
猫尾KUN | 2017-09-01 10:37
【数据猿导读】 本文使用python抓取分析数据—人人贷,并从中获取贷款用户。采用pandas库,因为我们的体量并不是很大,因此直接保存为xlsx格式就可以了。

一、抓取准备
导入必要的库
import requests #提取页面信息
import json
from urllib.parse import urlencode
from pandas import DataFrame
二、获取URL地址
使用chrome浏览器—检查功能,因为页面是动态加载,我们以获取页面的两个url讲解:
url1=https://www.renrendai.com/pc/loan/list/loanList startNum=0&limit=10&_=1504013654389
url2=https://www.renrendai.com/pc/loan/list/loanListstartNum=1&limit=10&_=1504013654389
可以观察到页面是随着startNum=N中N变化的,所以可以N为参数进行不同页面信息的抓取
接下来设置一个请求的头文件信息,目的是包装一下我们的爬虫,以防反爬虫的拦截而抓不到数据。
Headers={
‘Host’:’www.renrendai.com’,
‘Referer’:’https://www.renrendai.com/pc/loan.html’,
‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36’
}
三、页面信息提取
采用requests+json库进行提取:
Res=requests.get(url,Headers)
html=json.loads(Res)
result=[]
if data and 'data' in data.keys():
loan = data.get('data')
for item in (loan['loans']):
items={
'loanId':item.get('loanId'),
'title':item.get('title'),
'amount':item.get('amount')
}
result.append(result)
return result
四、数据保存
采用pandas库,因为我们的体量并不是很大,因此直接保存为xlsx格式就可以了。
data=[]
for i in range(10):
detail.extend(get_comments(i))
f = DataFrame(data)
f.to_excel('renrendai.xlsx')
最后我们就可以得到excel格式的数据了。
五、贷款项目分布
用excel做饼图,可以看到贷款项目主要用于资金周转,占比超过一半,其次是用于装修,占比18.97%
来源:数据分析网
刷新相关文章
我要评论
活动推荐more >
- 2018 上海国际大数据产业高2018-12-03
- 2018上海国际计算机网络及信2018-12-03
- 中国国际信息通信展览会将于2018-09-26
- 第五届FEA消费金融国际峰会62018-06-21
- 第五届FEA消费金融国际峰会2018-06-21
- “无界区块链技术峰会2018”2018-06-14