܄

大数据技术在金融行业有哪些应用前景?​

【数据猿导读】 信用评级分为个人的或者公司的,对于银行对公投行业务来说,银行还需要做一个内部评级。这种内部信用评级是银行计算风险权重资产(RWA)等重要关键数据的基础

大数据技术在金融行业有哪些应用前景?​

感觉答案里实际经历或纯金融和大数据结合的例子不多。我介绍个某行的实验项目和分析的公司案例(雅虎),劝当娱乐~ 这方面有兴趣也有技术背景的同学可以和我保持联系,之后有意往这方面发展。: )
 



先科普,介绍下为什么做这个项目:我们都知道信用评级(可以理解为违约概率),有个人的(类似于个人征信,比如芝麻信用),有公司的(大到标普穆迪,本地的如中诚信,大公)。对于银行对公投行业务来说,银行还需要做一个内部评级(internal rating, 分自动评分和人工两种)。这种内部信用评级是银行计算风险权重资产(RWA)等重要关键数据的基础。目前来看,无论是基于财务分析或非财务分析,无论是系统根据模型自动评分或人工依据预设分析模板手动计算评分,都属于传统方法 - 即客户经理或信贷员将财务数据填入系统,然后得出一个信用评级。

但是这样的评分仍然片面,因为一个公司,假设上市有年报的话,里面提供的信息往往不是财务信息所能表达的,然而传统评级方法很难体现这类的考虑同时,很多公司,比如一些大型银行,年报厚达600页,国内比如万科的年报也有200多页。靠人来读然后给出评价的话基本不现实。也因此,我们目前在做的这个实验项目就是通过成千上万家上市公司年报进行大数据文本挖掘,借助机器学习算法,看是否可以相对准确快速的预测公司的信用评级,将这类结果提供给银行业务人员做为一个重要的参考指标。

#更新:评论区有朋友说有点粗糙,不够细致(但是感谢点赞!)。我想开脱两句:一是毕竟是行内在做的实验性东西(其实就是几个部门有类似兴趣爱好的同事),不好放上来所有具体的细节,只希望提供观点和实际经验引起讨论,谢谢理解;二是我尽量服从需求,往这里添加一些可以公开的信息和细节,供大家讨论交流。当然,这个只是初步尝试,还有很多缺陷,路还很长。评论区有些讨论很有意义,权当对答案的补充。

#更新1:具体使用的数据库:


整体过程大概分如下五步:


1. 模糊匹配 (fuzzy matching):因为数据量大,我们不能手动匹配公司年报与我们已有的公司评级数据库(已有的评级数据库是用来之后机器学习培训模型用的),所以我们将下载的所有年报公司名称通过模糊匹配的方法对应到我们已有的公司评级数据库里(这个数据库我们用的是标准普尔的):模糊算法主要是传统的Jaro-Winkler和Levenshtein。

2. 预处理数据,去掉噪音:目前我们只做英文年报,去掉年报中的文本噪音,比如the, and这类意义不大的词条,也包括去掉空格,将大写字母换成小写字母,去掉标点符号,数字等

3. 文本分割与词条分析:去掉噪音后,剩下的我们认为有意义的文本,计算词条频率,又称文本-词条矩阵;补充更新:其实这步还做了一些其他处理(feature selection & Binning),只是没有全写下来,这里补充下:

    • 把一些稀有词条去除:在所有年报中出现频率小于1%的词条
    • 去掉解释力量较弱的词条:与评级的相关性很低
    • 去掉冗余词条:与其它词条有高相关性
    • Data Binning:为之后的分类算法做准备

4. 机器学习:主要是分类算法,目前我们尝试的方法如下

    • 支持向量机 (support vector machine)
    • 朴素贝叶斯分类 (naïve bayes)
    • 线性降维算法 (linear discriminant analysis)
    • 决策树 (decision trees)
    • 神经网络 (neural network)
    • 逻辑回归 (logistic regression)

5.模型应用:根据前一步培训的模型预估信用评级(具体预测的评级分布见下图更新2,深蓝色Base代表的是正确的评级,浅蓝色代表的是不同算法得出的结果,可以看出SVM和NSVM的评级分布拟合的最好

#更新2:不同算法得出的评级分布与正确评级分布的对比


综上,目前来看,支持向量机(svm和nsvm)得到的结果最好,但是总体来说准确率不到60%,还有很多地方可以改进来提升模型评估能力。

最终,我们将评估结果,外加语义情感分析(sentiment analysis)等做成自动报告供银行内部相关部门使用。

说到这儿,我有说所有的这些我们都用的是免费开源的R语言吗?: ) 这年头银行也很会省钱。

最后放个雅虎公司的报告做例子。基于2015年的年报,2.78%的词条有正面情感,3.08%负面,94.14%方向不清晰。模型结果:支持向量机的最准确,BB-,和标普以及行里内部给的评级一致,朴素贝叶斯和线性降维给的是BBB-,差了点儿。
 


来源:知乎​

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

旅游交通大数据——大众旅游时代的“富矿”
旅游交通大数据——大众旅游时代的“富矿”
#榜样的力量#疾控AI分析平台WDCIP——以科技力量贡献“大数据”智慧丨数据猿新冠战“疫”公益策划
#榜样的力量#疾控AI分析平台WDCIP——以科技力量贡献“大数...
张涵诚:大数据招商平台可推动地方供给侧改革
张涵诚:大数据招商平台可推动地方供给侧改革

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部