܄

中国工程院院士邬贺铨:大数据是博大精深的

【数据猿导读】 在数博会“第一届大数据科学与工程国际会议上,中国工程院院士邬贺铨发表了以《大数据之博大精深》为主题的演讲。他说,大数据不仅是数据的量的庞大,而且是多维度与代表性,但大数据不能以大盖全,大数据是已发生事件规律的总结

中国工程院院士邬贺铨:大数据是博大精深的

5月25日,中国工程院院士邬贺铨在数博会“第一届大数据科学与工程国际会议(2016)——大数据科学认识与理解”论坛上发表《大数据之博大精深》为主题的演讲。他说,大数据不仅是数据的量的庞大,而且是多维度与代表性,但大数据不能以大盖全,大数据是已发生事件规律的总结,同时,大数据追求数据精准,而且强调规律,大数据的“深”又在于大数据的分析不仅需要大量的数据而且需要建立模型。

邬贺铨说,大数据具有多个来源,其中包括社会空间数据、物理空间数据、信息空间数据三个方面。分局分类可以分为国家安全数据、商业秘密数据、个人隐私数据,但其中只有部分数据是开放的。从结构上来看,大数据可分成结构化、半结构化、非结构化,其中,非结构化,是不能用表格来表示的数据。

邬贺铨说,大数据具有增长性、长期性、颗粒性、移动性、多维性、语义性、隐私性等特点,以医疗大数据为例,中国一个千万人口的城市50年所累计的医疗数据量就会达到10PB级。每天都会有大量的数据导入区域医疗数据中心,其中,门急诊患者的数据保存不得少于15年,疏远数据保存30年,影像数据无限期保存。这些数据通常需要带有时间、位置、环境和含着病史及家族史等信息,即数据的移动性,而这些医疗数据把患者、医生、医疗机构在不同层次上关联,体现了它的多维性,存储需要加入语义标签,对影像的理解需要有更专业经验,即语义性,而这些医疗数据涉及患者隐私,即大数据的隐私性。

邬贺铨说,大数据的量是非常的大的,2020年人类的数据量可能会到40ZB,装到光盘上,重量可以装几十艘现在美国的“尼克兹航母”。比如说,政务大数据,一个8M摄象头每小时产生3.6GB,很多城市的摄象头多达几十万个,一个月的数据量达到数百PB,若需保存3个月则存储量达到EB量级。比如北京公交,公交一卡通每天4千万人次,地铁1千万人次,北京交通中心每天数据增量30GB,存储量20TB。比如法院系统大数据,一个8M摄象头每小时产生3.6GB,很多城市的摄象头多达几十万个,一个月的数据量达到数百PB,若需保存3个月则存储量达到EB量级。

同时,邬贺铨说,大数据只有大于一定量时才有用,但大数据不仅是数据大,而且是多维度与具有代表性。麦肯锡曾评价大数据价值堪比石油,但矿产资源因儿科再生通常会随时间而增值,信息资产随着互联网发展会越来越多但折旧很快。大数据不能以大盖全,大数据是已发生事件规律的总结,能否用于预测取决于后续事件的发展有无新的重大因素影响。比如,谷歌公司,根据美国阿特兰大中部地区2008年春夏之交有关流感的搜索词频率异常长生而成功判断机降爆发流感,但流感疫情的前兆与有关流感搜索词突发的相关性的逆命题并不成立,导致谷歌对2012年底美国流感的预测结果比实际情况过分夸大。这不是大数据的失效,如果谷歌内容能更多关注和收集搜索引擎之外的大数据就更好。

提到大数据的“精”,邬贺铨说,通常指的是大数据追求数据精准但强调规律,这应理解为对于一个人大数据集而言,我们很难要求所有数据都精准,都只需要大多数数据有代表性,这并不妨碍数据集合得到较为准确的结果。比如,谷歌的无人驾驶汽车牌照,利用传感器、雷达、导航系统、数据地图、实时街景数据和大数据分析等技术支撑无人驾驶车,这个精度要求面积,它通过大数据进行扫街扫出来的地图,比百度地图精确度高得多,这要求非常精密。

邬贺铨还说,大数据可以提高分析精度。最近十年,语音识别错误率和机器翻译的准确性都成倍改进,其中20%的贡献来自方法的改进,80%则在于数据量的提升。传统用OCR办法识别文字的成功率到98%后就很难再提升,通过大量收集已知文字的照片和图片等用于比照,识别成功率提高到99.9%。

而对于大数据之“深”,邬贺铨认为,这指的是大数据的分析不仅需要大量的数据而且需要建立模型。


来源:贵阳网

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

旅游交通大数据——大众旅游时代的“富矿”
旅游交通大数据——大众旅游时代的“富矿”
#榜样的力量#疾控AI分析平台WDCIP——以科技力量贡献“大数据”智慧丨数据猿新冠战“疫”公益策划
#榜样的力量#疾控AI分析平台WDCIP——以科技力量贡献“大数...
张涵诚:大数据招商平台可推动地方供给侧改革
张涵诚:大数据招商平台可推动地方供给侧改革

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部