分析泰坦尼克号沉船数据 机器学习告诉你谁获救概率更大
【数据猿导读】 让我们假设这样一个略显沉重的应用场景:泰坦尼克号沉船事件。通过分析泰坦尼克号沉船事件幸存者和丧生者的数据,机器学习是否能够判断拥有什么样的属性的人有更大的概率获救

1、实验流程
让我们假设这样一个略显沉重的应用场景:泰坦尼克号沉船事件。通过分析泰坦尼克号沉船事件幸存者和丧生者的数据,机器学习是否能够判断拥有什么样的属性的人有更大的概率获救 ?
2、数据准备
原始数据
将数据导入MaxCompute,
PassengerId:用户的ID号
Survived:乘客是否获救,“1”表示获救,“0”表示没有获救。目标队列(target)
Pclass:乘客的社会阶层,“1”表示Upper,“2”表示Middle,“3”表示Lower
Sex:乘客的性别,“1”表示男,“0”表示女
Age:乘客的年龄
sibsp:乘客在船上的配偶数量或兄弟姐妹数量
parch:乘客在船上的父母或子女数量
fare:乘客的船费
cabin:是否住在独立的房间,“1”表示是,“0”为否
embarked:表示乘客上船的码头距离泰坦尼克出发码头的距离,数值越大表示距离越远
3、搭建实验流程
实验流程
1) 首先将数据集按照 7 : 3 进行拆分,一部分作为 titanic 训练集,一部分作为预测集。
2) 将数据进行标准化处理,去除量纲对于数据造成的干扰。
3) 训练数据通过逻辑回归 LR 算法生成模型。
4) 对预测集进行预测。
5) 通过 ROC 曲线和混淆矩阵来对结果进行评估。
4、评估结果
混淆矩阵结果
混淆矩阵结果分析
说明:
1. 正确率:预测正确的正例个数占预测为正例的比例,即 P=TP/(TP+FP);
2. 召回率: 预测正确的正例个数占实际正例的比例,即 R=TP/(TP+FN);
3. F1 指标: P 和 R 的中权调和平均,即 F1=2PR/(P+R) 。当 F1 较高时说明实验方法比较理想;
ROC 曲线评估结果
ROC 曲线结果分析
说明:
1. TPR=TP/(TP+FN);
2. FPR=FP/(FP+TN);
3. ROC 曲线:
① Y 轴: TPR; X 轴: FPR ;
② (0,1):FRP=0,TPR=1 。 FN=0,FP=0 ,将所有样本都正确分类;
③ (1,0): 即: FPR=1,TPR=0, 预测结果相反,正变负,负变正;
④ (0,0):FRP=TPR=0 ,将所有样本划分为负样本;
⑤ (1,1): 所有样本划分为正样本;
⑥ ROC 曲线越接近左上角,该分类器越好;
4. y=x ,随机猜测,一半正样本,一半负样本;
5. AUC:ROC 曲线下面积,应该介于 0.5~1 之间。 AUC 越大,分类器越好;
5、模型分析
逻辑回归生成模型:
模型分析
根据 Logical regression 的特性, model 输出的是每个特征的线性组合。 3.199 为常数项,不予考虑。其它系数绝对值越大说明对结果影响越大。通过这一结论得出 age 、 sex 和 pclass 对于结果影响最大。
根据 sigmoid 函数得出负号系数的绝对值越大其结果的正例可能性越大。所以我们可以得出结论, age 、 pclass 和 sex 的值越小,目标值越大。
也就是有钱人家的女人和小孩有更大的获救概率。
通过真实数据比对也印证了我们的分析结果:
来源:大数据文摘
我要评论
活动推荐more >
- 2018 上海国际大数据产业高2018-12-03
- 2018上海国际计算机网络及信2018-12-03
- 中国国际信息通信展览会将于2018-09-26
- 第五届FEA消费金融国际峰会62018-06-21
- 第五届FEA消费金融国际峰会2018-06-21
- “无界区块链技术峰会2018”2018-06-14