【视频&PPT】《数据猿巅峰思享会》之Cloudera刘贺锋:我们眼中的大数据生态环境
【数据猿导读】 在这次的上海《数据猿巅峰思享会》上,Cloudera Sr Partner Alliance Mgr.刘贺锋分享的内容主题为“大数据环境”,同时,也欢迎大家下载PPT
今天我们为大家带来的是《数据猿巅峰思享会》第四位分享嘉宾Cloudera Sr Partner Alliance Mgr.刘贺锋分享的精彩内容(前三位分享嘉宾为谢军、王涛、张夏天)。
刘贺锋现为Cloudera Sr Partner Alliance Mgr.曾在英特尔有超过10年的工作经验,其对数据研究和数据解决方案有丰富的经验。
(刘贺锋46分钟完整分享视频)
索取刘贺锋完整PPT的正确姿势:关注数据猿官方微信(datayuancn)并在后台回复关键词“刘贺锋”即可
以下为数据猿编辑整理的内容:
Strata+Hadoop大会每年召开四次,是由O’Reilly与Cloudera联合主办。Cloudera作为东道主,今年将会在中国举办Strata大会,届时我们也会在北京、上海开展一系列的活动。除了这个峰会之外,我们在业界的影响力还体现在:
一,市场份额大,我们在整个Hadoop市场所占的份额最大,业务营收占整个市场的60%以上。其中,第二名占20%—25%,第三名占10—15%,三家市场总占有率超过95%。所以,Hadoop市场基本已被我们三家瓜分完毕,其他平台的软件厂商几乎没有市场空间了。
二,技术领先,我们每年都会在Strata大会发布一系列新的技术产品。比如,去年我们推出的新产品Record Service,就会把Data Mask放在Record Service这一底层解决数据脱敏问题。另外,新产品Kudu还可以实现数据的可读可写。
三,生态完整,Cloudera的生态包括上、下游产业链中的硬件、软件、服务、实施等一整套服务,是全球大数据最大的生态公司。我们推出的市场策略与红帽公司非常类似,红帽做操作系统,我们是做大数据的操作系统,但是不做应用。其中有文件系统和计算引擎,而且还会提供API和各种各样的接口。
从整个大数据生态中可以看出,技术的演进都是螺旋式上升。比如,对于已有40年历史的关系型数据库来说,最早时,所有数据都放在文件中,然后发展到有一个文件系统,再发展到有数据库、分布式数据库、MPP、Hadoop,其发展过程中出现的很多问题,只有新技术才能解决,老技术会无力解决。
大数据生态环境
每年的Strata+Hadoop大会都是由Hadoop的创始人Doug Cutting主持。Doug Cutting是在2003—2004年写出Hadoop,他被我们尊称为Hadoop之父。
Hadoop发展到现在,变化非常大。十年以前,只有HDFS和MapReduce,而今天,以Cloudera为例,其整个CDH(Cloudera distribution of hadoop)有25种开源组件,有企业版和免费版之分。对于使用企业版的客户来说,产品会经过测试,客户完全不用担心售后支持,而且会受到全方位的保护。而对于大学生这类普通用户,就可以使用免费版。
如今,全球超过百分之七八十的客户都在用免费版CDH,真正用企业版的相对比较少。如果产品全部闭源,只推出商业版,便可以实现利益最大化。但公司并没有这样做,说明其更希望能够发挥一些价值,让更多的人熟悉并掌握大数据平台Hadoop。
而对于现在想做开源社区的创业者来说,如果一个项目的背后有大佬支持,最好不要再做这一领域。比如Hadoop背后有英特尔支撑。
如何做好大数据?
大数据时时刻刻出现在我们生活中,也在改变着各行各业。如果按照数据的结构种类划分,大数据可以划分为结构化数据、半结构化数据、非结构化数据;按照数据源划分,大数据可以划分为IOT数据、社交网络数据、实验数据,当然也有传统数据库和数据仓中的数据。
经常会有客户问我们,如何用大数据解决自己企业的问题,解决自己用户的需求。现在很多产业都是如此,发现需求后就去做产品,生产完以后却不知道卖给谁,也不知道周围的市场在哪。所以,对于任何一个企业来说,了解客户和渠道是其本质需求。
针对这种市场打造产品要基于数据驱动,比如每个月的产品生产量是多少,货要发到哪里,这些需要根据数据模型和过去的市场变化做出预测和决策。另外,一定要安全合规。对于我们公司来说,使用免费版的客户不付钱,所以我们需要依靠企业版赚钱才能发展壮大。
购买企业版的客户有钱有数据,需要的是技术方面的支持。以国内做的最好的金融客户——银联、陆金所和保险公司为例,数据和技术对他们来说非常关键,像日志分析、反洗钱、反欺诈、风控,这些核心应用都会架设在Hadoop上。
同时,这些金融客户对安全性要求非常高,因为某些问题处在美国这种法律健全的国家甚至会有牢狱之灾,所以有些应用不得不做,安全合规便成为其刚性需求,这就需要我们与合作伙伴一起为客户做全方位的保护。
我们发现客户会经历以下阶段。数据是企业的核心资产,所以客户会把数据收集起来,然后再做简单的数据分析。其中,有一些高级分析工具能够解决结构化处理问题,还有大部分用户常用的百度、Google搜索等应用也可以做数据分析。除了这些历史数据处理工具以外,更多的新型数据分析工具也在不断涌现,以后可以做数据模型和分析平台。比如关键字索引,可以写程序、脚本、Spark语言,甚至可以做流失计算。比如股票数据每天都会有,摄像头每时每刻都在拍视频,如果这些数据可以做实时分析,其最大价值就会被挖掘实现。
拿我们在上海做的套牌车查询举例。如果同一个车牌在同一时间内出现在两个地方,那么其中有一个就是假的。这种套牌车查询,说起来简单,但做起来很难。因为上海有太多摄像头和数据,要实时抓住同一时间内出现在两个地方的套牌车很不容易,对方很有可能会以自己的车转移过地点为借口逃脱。对于这种实时性要求很高的情况,我们可以用流失计算的方式解决。
以前知道Hadoop的人很少,有些人把累积起来的关系型数据库称为大数据,这种说法不完全正确。而Clouder的做法是,随着用户案例越来越多,我们把有共性的东西抽取出来做成一个平台,这就是我们的操作系统。
任何产业都是如此,离客户越近,钱会越多,变化也会越来越多。离客户越远,越能发现其共性,然后就会做成平台,所以,操作系统公司很重要。而且和渠道公司是一个好汉三个帮的状态,对于客户来说都是不可或缺的。
开源的生态环境
从整个产业生态圈来看,有些公司提供开源,也有很多公司自己开发应用,完全闭源。不管是开源还是闭源,都要遵从国际标准,而且每个标准跟要求都不一样。我们遵从的是Hadoop所在开源社区的标准,包括Spark在内的几百个项目,也都遵从开源的标准,因为开源是行业发展的趋势。
举个例子,今年台湾的大数据市场非常火爆,有一个厂商告诉我,他们以前被微软或者IBM厂商绑架太久了,因为没有别的选择而无法摆脱。但现在他们看到微软、IBM都主动使用新的开源技术后,发现自己也可以使用,所以完全能够摆脱了。目前台湾的机会非常多,连最大的台积电都成为了我们的客户。
从现状来看,开源是潮流趋势,符合社会的发展方向。比如IT巨头微软就是,现在也要拥抱开源。我们也很重视开源,这是我们的立身之本。同时,因为开源产品太多,任何人都可以贡献或者使用,所以大家非常自由,然而过于灵活就会造成混乱,为了对其进行约束,Clouder提供了行业标准:
我们的企业版产品和免费版产品都是围绕核心CDH所做,其中大部分产品都开源,也有部分企业版的高级功能不开源。因为如果被竞争对手直接拷贝,我们会完全没有办法,同时无法再与IBM这种公司PK。无论是大公司还是小公司,只要大家能够共同接受,那么都会遵循这个标准。
如何做好开源社区?
我认为,在开源社区里面保持互动非常重要。如果是一家小公司,拿来主义很容易,对产品稍微改动就可以去卖,也节约了开发成本。但这里面会出现很多问题,因为改的东西越多,差的会越来越多,而且如果走错了就会出现碎片化,跟主流的脱节也会越来越远,并且会导致此方面的维护越来越重,到最后会成为今天阿里或百度面临的问题。
阿里和百度五六年前就在用Hadoop,但因其改了很多东西,所以后来不得不重写。因为,即便这些公司很厉害,也一定不会超过全球程序员的智慧,所以,其产品也不如主流产品。那么,对于中小企业来说更是如此,在开源社区里边与主流保持同步非常重要。
在开源社区里混,有两个指标可以作为衡量标准,首先你要有一些代码,另外,你写的代码其实是会说话的,而不是你付了钱,成为其中的会员就完事,以为能混的很好。
社区里边相对来说还是比较公平的,如果你写的好,能被别人认可并接受,那么你的地位就会上升。
如果从种类的角度去看生态环境,那就是上面有硬件,中间有数据库,周围还有SI,这是全球生态的版图。但这个情况在国内却不一样,95%的厂商或者软件都在做系统集成,因为在国内做软件产品几乎赚不到钱,厂商首先要解决的就是生存问题,如果没法生存就更谈不上发展。以前闭源是这样,现在开源更是如此。
国内的下面是硬件,上面如果按照行业划分,主要是与行业内的集成商合作,他们会把我们的产品带到其方案中,进而推出一些应用。周围有一些服务商,他们可以做咨询,也可以做后期维护类的工作。因为我们是做开源的,所以我们知道开放式架构非常重要,那么对于合作伙伴,我们就会提供非常全面的接口和生态。
我们有一百多个合作伙伴,我们会为其提供各种各样的开发级和应用级接口。同时,我们的界面可以直接嵌到合作伙伴开发的应用程序中,大大降低了其开发成本。比如,如果有一家厂商的产品经过了平台验证,那么它的产品会同时出现在我们全球官网上。
最后,讲一个题外话。我经常看同人卦方面的东西,“同事”、“同人”就是从同人卦里面来的,我们是志同道合的一帮人,就是同人。同人可以分为三个层次:
第一个层次是同人云,比如,自己家亲戚很团结;
第二个层次是同人于宗,比如,虽然这个人不是亲戚,但却是同学、校友,我们把这叫做宗派,比“家”的圈子更大一些;
最高层次是同人于野,意思是,双方没有任何利益或关系上的连接,完全是为了感兴趣的一件事情团结在一起,就是我们以前所说的统一战线。
现在大数据生态圈类似处于同人同宗的阶段。只有大家共同努力,才能让大数据渗透到生活的点点滴滴。生态圈里面有做底层平台的,有做应用的,也有做实施的,大家都非常重要,一起努力才能为客户提供完整的解决方案,也才能把国内的生态环境打造的更加完善、健康。
延伸阅读
【视频&PPT】《数据猿巅峰思享会》之雅捷股份CTO谢军:Hadoop的企业应用以及GPU数据库
【视频&PPT】《数据猿巅峰思享会》之巨杉数据库CTO王涛:大数据和数据库的未来趋势
【视频&PPT】《数据猿巅峰思享会》之TalkingData首席数据科学家张夏天:硅谷Al/ML技术公司掠影
【综合回顾&视频】《数据猿巅峰思享会》之2016 Strata+Hadoop World
来源:数据猿
我要评论
活动推荐more >
- 2018 上海国际大数据产业高2018-12-03
- 2018上海国际计算机网络及信2018-12-03
- 中国国际信息通信展览会将于2018-09-26
- 第五届FEA消费金融国际峰会62018-06-21
- 第五届FEA消费金融国际峰会2018-06-21
- “无界区块链技术峰会2018”2018-06-14