百度高级经理刘占亮:大数据的“能”与“不能
刘占亮 | 2016-02-22 14:53
【数据猿导读】 在近日举办的bit沙龙上。各行专业人士针对大数据领域发表了他们的看法。大数据为什么这么受欢迎?百度高级经理刘占亮也在bit沙龙上以“大数据的能与不能”为题发表了自己独特的观点与想法

大数据为什么能?
大家都在讲现在是大数据的时代,我认为大数据时代,实际上它有这两点:
1.一个是这么多年的IT技术的发展,大量的新技术使得现在数据的收集和分享变的非常容易,得益于互联网和各种各样的传感器,我们能把物理世界的信号变成数字世界的信号,我们才能用计算机和互联网处理它。因为我们有数据了,所以我们才用大数据的方法。
2. 数据越多,我们越不需要模型,怎么理解呢?就像小学的时候做数学题,这个题我做过,我还需要推导一遍吗,直接把答案写了就行了。数据越多,我越不需要模型,就是覆盖度和精准的问题。如果对下来将要面临的事件和问题,我有足够的样本覆盖,其实我可以直接从历史上拿过来之前东西的判断或者是结论定就好了。
传统方法和大数据方法有什么不一样吗?
传统方法是什么样的,我拿来一个新的样本。我把这个样本就某种程度做一个特征表示。再就是利用我们之前见过的小数据训练模型进行判断得出结论。
大数据的方法,是什么呢?是拿来一个新样本,我根本没有什么模型。我查找拥有这么多大数据里面,以及我当前面临的新样本,哪一个最像,我把最像的拿出来或者完全相同的,它就是我的结论。我们在大数据的算法里面,最重要的算法只有一个。
我认为大数据是在现代社会已经掌握了海量数据收集、存储和处理技术之上所产生的以群体智慧来进行判断和预测的能力。
它反应一个内在含义是什么呢?
1.传统经验主义的复活,经验主义大于理性主义,我知道这个事情是什么,它就是什么。你不要跟说背后的缘由是什么。
2.数据远比模型重要,模型可能是错的,但是数据毕竟是发生的事情。数据在大数据里面是最重要的一样东西。
3.相关关系大于因果关系,我可能真的不知道这个事情,它到底是怎么一回事。但是只要能够对我的预测,对我的判断能够有作用,我觉得从可用性的角度上来说,它就已经足够了。
基于这三点,对于我们做大数据的数据平台来说,我认为你能够把这些数据拿过来,并且做处理,是要大于你这个平台的。可能你选用合适的平台或者是自己从头开始打造,但是远远没有数据重要。
模型真的没有用吗?大数据什么解决不了?
其实有两个很现实的问题,数据总是不够,远远没有一个够的时候。因为时间永远是往前的,哲学上来说,人是不可能同时迈进同一条河流的。即使是时间不太敏感的时候,数据也还总是不够。
有两种情况。第一种是机器翻译里面所有可能的句子,我觉得这个样本空间可能太大了。我做过一个统计,我们做数据分析或者说做搜索引擎,我们会从互联网上把所有最新的新闻或者是最新的语料抓过来,进行分句切词做处理,我能不能进行压缩,我别把句子的原文存下来,我把这个句子算一个ID,每次只有新的句子才入到数据库里面。结果我发现,现在每天晚上新产生的,我拿新闻的语料为例,其实它节省不了什么空间。说明什么呢?说明每一条的句子都在历史上从来没有出现过,句子是非常长尾的。所以机器翻译的句子里面,所有的句子其实也是很不可能穷尽的。
再举一个例子,这个可能跟我们人类做研究或者自动求解学生考试题目,这个事情大数据可以解决吗?反正我个人对这块持悲观态度。比如说我用大数据的方法解一道方程组,大家想一下,我们就拿简单的一解方程来说,加减乘除,五个运算数,左边等于右边,大家算一算每个位置上可以出现多少东西,乘起来的样本量有多大。样本空间在实时的变化,对于搜索引擎来讲,它其实也是在变化的。对于查询结果的排序中,其实每天都会有新的查询和网页出现,怎么来解决?
所以说有一些问题,我认为用大数据的方法永远也解决不了,本质上是这样的问题,你的空间永远是无限往外扩张的,你不可能能够收集来足够稠密的数据。所以你只能靠猜或者我们就认为宇宙是这样一个模型,它靠这个模型来预测。样本空间确实很大,这个时候模型有非常关键的作用。模型它可以跟数据结合,可以提供适当泛化,但是这个又带来新的问题。怎么结合呢?结合到何种程度,这些都是具体的问题。
然后回到主题。我认为界定好大数据的方向以后,怎么做大数据相关的东西,可能这个领域比较窄。
大数据应用开放的流程应该是什么样的?
1. 你需要明确问题的数据类型和样本空间。
2. 对于这个问题,你收集到尽可能多或者是足够多的相关数据覆盖这样的空间。大家注意不要太在意数据的质量和格式。
3. 选择或者是自己来搭建合适我这个问题和对这个问题处理的大数据平台,针对我们目前的应用,对数据进行一些预处理。比如说格式的转换、抽取、数据的集成,其实数据集成是特别关键的东西,多元的数据它们的特征是非常不一样的,怎么把它融合在一起,是非常重要的问题。因为我们不在意数据的质量和格式,我们要注意特别做到数据质量的控制。接下来就是处理数据,结果的解读和应用。这是我认为标准的大数据应用流程。
数据在哪儿?
这是我之前给研究界讲的,所以有些东西是切合他们的应用来的。其实有很多类的数据,数据从有社会以来,大家一直在收集,比如说最多的还是在政府权威机构,统计局的宏观数据、行业数据,尤其是历史的数据。金融机构的交易数据等等各种各样的数据。其实我们在这样的场合,大家讨论的可能是互联网的数据或者是商业社会里面的数据。
我分了几类:
1.第一类是人能看的数据,不管是新闻、论坛、微博、微信等等,其实就是传统的搜索引擎公司,它们利用他们的爬虫技术收取到的技术,这个数据非常大,不管是Google或者是百度,所有的数据是整个互联网的冰山一角,大量的数据都还没有被搜到。一些大型的互联网公司私有数据,比如说业务数据、用户行为数据。向用户购买商品的行为,虽然你在淘宝上抓回来更多,但是更多的还是在阿里内部。大家社交的行为数据更多的还应该在腾讯内部。大家都在看什么、搜什么的数据实际上在百度内部,这个有很高的壁垒和门槛,大家很难拿到。
2.第二类除此之外,还有一个角色就是运营商,运营商的数据也是非常丰富的。因为所有的流量都需要从运营商走,我了解到一些运营商公司,他们也在做相关的大数据事情。但是现在有很多公司已经不想让运营商或者是中间环节获得,具体内容包里面是什么东西已经拿不到的,运营商就拿不到用户的查询词了。
关于大数据我们做这样一个东西,可能遇到的挑战,我认为最主要的挑战是思维方式。其实数据是产生于一个领域,还在原来的领域里面应用,你可能永远是小的应用。怎么把它脑洞大开应用到完全不同创新创造型的领域,我认为它的价值就出来了。
总结来说,着重领域知识,利用好计算机技术,再加上大数据思维,我觉得这是做出好的大数据应用的前提。
来源:以太创业专栏
我要评论
活动推荐more >
- 2018 上海国际大数据产业高2018-12-03
- 2018上海国际计算机网络及信2018-12-03
- 中国国际信息通信展览会将于2018-09-26
- 第五届FEA消费金融国际峰会62018-06-21
- 第五届FEA消费金融国际峰会2018-06-21
- “无界区块链技术峰会2018”2018-06-14