Hadoop是低成本的大数据解决方案?别逗了!

Hadoop 阿里云大数据解决方案

jean | 2016-06-03 11:56

【数据猿导读】国内做大数据，基本就这两个选择：自建Hadoop或者使用阿里云的MaxCompute(就是原来的ODPS)。你可能不知道这里的成本到底有什么差别，本文我们就来对比一下这两个主流的技术选型

Hadoop是当下流行的大数据并行计算体系，横向扩展、生态圈成熟等一直是它的主要特点。但这些特点当中，绝对不包含廉价。

可能你认为的低成本，实际上只是硬件和软件授权成本，而不是总体成本。在学习成本、开发成本、管理成本上Hadoop并不总是占优。现在伴随公有云技术的成熟，Hadoop甚至连硬件成本也不占优了。

Hadoop与阿里云MaxCompute的成本对比

国内做大数据，基本就这两个选择：自建Hadoop或者使用阿里云的MaxCompute(就是原来的ODPS)。像Amazon、Google、微软的大数据服务在国内基本处于不可用或者很难用的状态。

这里，我们就来对比一下这两个主流的技术选型：

以企业拥有10TB数据为例，自建hadoop集群，则至少需要6台机器(3nodes+2NameNode+1jobtracker)，成本在20万左右。除此之外，还需要投入机房资源，网络设备和运维成本。这其中主要是运维成本，要知道一个运维人员的成本一年至少15万。这样，整体算下来要55万左右。

如果采用阿里云的MaxCompute，按照现在的报价，大约需要32160(存储费用)+45000(计算费用)=77160元。也就是说二者的成本差距在7倍以上。

按照Hortonworks首席技术官EricBaldeschwieler关于成本的陈述，就更为夸张：硬件成本只占Hadoop数据中心总成本的20%。

掀开Hadoop的盖子这些隐性成本你需要知道

“Hadoop是一个框架，不是一个解决方案”——在解决大数据分析的问题上人们误认为Hadoop可以立即有效工作，而实际上对于简单的查询，它是可以的。但对于难一些的分析问题，Hadoop会迅速败下阵来，因为需要你直接开发Map/Reduce代码。出于这个原因，Hadoop更像是J2EE编程环境而不是商业分析解决方案。所谓框架意味着你一定要在之上做个性化和业务相关的开发和实现，而这些都需要成本。

同时，因为Hadoop庞大的生态系统，也导致了学习成本奇高。目前Hadoop生态中包括了几十种相关的产品，常见的就有：MapReduce、HDFS、Hive、hbase、YARN、Zookeeper、Avro、JAQL、PIG、solr、mesos、shark、stream、storm。熟悉这些产品的部署步骤、功能特性、开发方法都需要付出高昂的学习成本。

有开发者评论说，“它变得好像是用一个锤子来建造一个房屋”，这并不是不可能，但是带来了“不必要的痛苦和可笑的低效成本”。

来源：数据猿

收藏分享

声明：数据猿尊重媒体行业规范，相关内容都会注明来源与作者；转载我们原创内容时，也请务必注明“来源：数据猿”与作者名称，否则将会受到数据猿追责。