܄

六把武器? 谈谈DT时代的大数据资产管理(上)

【数据猿导读】 在大数据时代,数据资产变现是大部分企业最关注的,这里的数据资产管理就显得尤为重要。如果没有数据管理,数据的世界也就乱了,再好的数据也只能烂在数据库里无法使用了

六把武器? 谈谈DT时代的大数据资产管理(上)

很早就想写一些数据资产管理的文章,因为在大数据领域,当前数据资产变现概念很火,这个时候数据资产管理就显得很重要,是个值得讲讲的课题,特别是最近浙江移动大数据平台终于上线了,对于大数据资产管理又领悟了一些东西,希望能跟大家分享下一些观点。

首先限定一下范围,我这里谈的数据资产管理,是指针对大数据平台的数据资产管理,这里的大数据平台,跟传统的数据仓库类似,它通过从各源系统进行统一数据采集、清洗及转换,并通过数据建模等手段,实现数据整合和增值,并对外提供数据服务,相对来讲是狭义的一个说法。

要理解啥叫数据资产管理,有一些定义,比如《大数据时代》一书作者维克托·迈尔-舍恩伯格的认为:“数据资产须具备可控制、可量化、可变现的特性。数据资产管理是规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值”。

我尝试着活泼一点,把这个概念说得更形象一点,如果把数据资产当成人,我们对于数据资产的管理就类比于国家对公民的管理,那么国家是怎么管理自己的公民的呢,国家对人的管理可以认为是国家通过赋予你身份,并通过各种机制,流程及系统的控制或约束来确保你能为社会创造价值的任何管理行为,虽然不严谨,但其实就是这个理,同样,对于数据资产的管理,就是通过给数据资产贴个标签,然后通过各种机制,流程和系统的控制来确保这个数据能够创造价值的过程。

举个例子,给出一行数据“100, 100, 95, 100, 95”,我们认为这是数据,如果我们加了解释,这行数据代表周一至周五的浙江移动用户的通话时长,那么,这个解释“通话时长”就是数据的定义,也可以叫做元数据(即是数据的数据),这个世界数据是如此之多,每类数据的定义都不同,针对这些定义我们就需要专门去做管理,比如分门别类给每个数据贴个标签,以便后续根据定义去找到所需的数据,这个管理就叫做数据管理,就好比我们需要给每个商品定义一个与众不同的名字,以便我们的买卖能够正常进行,否则你说买一个苹果,人家给你个梨子,这个交易世界就乱了,恩,如果没有数据管理,数据的世界也就乱了,再好的数据也只能烂在数据库里无法使用了,大数据时代,这些数据实际可以创造价值,比如去年贵阳、武汉等成立了大数据交易所,数据被当成股票商品一样直接可以交易,因此我们把数据当成了资产的一种,针对数据的管理也等同了数据资产管理。

针对数据管理的书和文章也有不少,我不去解释,这里简要的列一下,如果有兴趣大家可以去看下。

1、DAMA管理体系

DAMA针对数据管理定义了10个主要的数据管理职能,并通过7个环境元素对每个职能进行描述。

2、企业数据管理能力成熟度模型

CMMI协会于2014年发布企业数据管理能力成熟度模型Data Management Maturity(DMM),它可以用来评估和提升组织的数据管理水平,帮助组织跨越业务与IT之间的鸿沟,根据企业的数据管理能力提出五个层次:

3、元数据管理

公共仓库元模型(Common Warehouse MetaModel,CWM)是被对象管理组织 OMG(Object Management Group)采纳的数据仓库和业务分析领域元数据交换开放式行业标准,在数据仓库和业务分析领域为元数据定义公共的元模型和基于 XML 的元数据交换(XMI)。CWM 作为一个标准的接口,可以帮助分布式、异构环境中的数据仓库工具,数据仓库平台和数据仓库元数据存储库之间轻松实现数据仓库和业务分析元数据交换。CWM 提供一个框架为数据源、数据目标、转换、分析、流程和操作等创建和管理元数据,并提供元数据使用的世系信息。

CWM 元模型、规范以及生成的产品同 MDA 非常契合,从技术平台角度来说,所有的平台相关模型(CWM XML、CWM IDL 和 CWM Java 等)都是自动地从平台无关模型(CWM 元模型和规范)中产生的;从产品平台角度来说,平台相关模型(比如 DB2、ORACLE、SQL SERVER 等)都是人工从平台无关模型(CWM 元模型和规范)中构造出来的。

以上几个观点,对数据资产管理的目标、方法和技术架构上,对数据资产管理做了高度的抽象概括,对于理解数据管理体系有点帮助。但这些书和文章比较抽象,对于非业内人士或新手可能读起来比较累,如果自己没实践过,可能也不知道到底如果将其应用到实际工作中。

中国移动自2004年开始经分系统建设,在经分2.0规范明确提出了元数据管理的建设要求,这个实际就是数据管理的概念,应该是非常有前瞻性的,但要做好数据管理,让其在生产中发挥作用,难度是超过想象的,远远不是一个规范或一本书就直接能够给予指导的,浙江移动数据管理建设多年,中间经历了很多失败和教训,在此,我简单的将我的理解分享一下,希望能从一些切入点把一些道理讲讲清楚。

现实挑战

国家对于公民在各个人生阶段都会做出一些管理动作,确保你为社会创造价值,同理,数据资产也一样。下面,我会结合实践说一下数据资产管理的内容和挑战,后面再讲讲浙江移动的一些做法,姑且叫作“六把武器”吧。

我们需要管好数据资产的“生老病死”,好比人一出生就要注册身份一样,数据从一出生就需要被注册和标识,一个没有标识的数据没有价值,我们往往给数据的“身份”取一个好听的名字,即通常所说的数据字典。注意,我这里的数据字典是广义的概念,不仅仅是指对于数据仓库中的一些表字段的定义,其含义要的广阔的多,包括技术描述、业务描述、血缘关系、数据归属、数据位置等等,给大家看一张元数据的功能图,大家就大致了解了应该包含哪些内容,这是个庞大的体系,远远超过你的想象,而且也远远不止这些:

数据资产管理第一要务是维护好一本数据字典,但现实中的问题很多。

一:缺乏管理意识

很多公司建了不少系统,但却没有严格意义上数据管理团队,没有任何数据管理的规范和流程,比如说没有维护数据字典,即使对于数据有定义,也仅仅存在于设计文档中,但并没有独立进行管理,因此,即使是再大的企业,产生再多的数据,如果这些数据没有系统化地标识和管理,实际上它是很难作为一种资产而创造更多价值的,因此大数据时代,并不是你有数据就代表有数据竞争力,首先得你能够很好的管理好它。

二:缺乏管理手段

很多公司把数据字典当成是设计过程中的产物,自它上线以后就没人搭理了,大量的线下PDM散落在各个地方,数据字典可能还藏在开发人员脑中,但员工会离职,调离岗位,也会忘记,当数据出现问题或需要用到数据的时候,往往连最基本的定义也不清楚,也不知道是谁开发的,只能去核查代码,这个时候的效率往往比较低,这些数据的资产价值也大打折扣,特别是很多公司需要更换厂家的时候,完全缺失的数据字典、大量的沟通成本,含糊的自我保护解释,导致代价是如此巨大。

三、缺乏自动方式

即使一些公司注意到了数据字典的重要性,因此安排了专门的维护团队人员,甚至采购了一些管理系统,比如元数据管理系统,但更多是后向的方式,这些系统的数据字典,更多需要依赖人工录入及日志解析的方式,往往在系统上线后补充进来,但实际上由于人维护的可靠性及解析的能力不足,数据管理系统和实际源系统的数据定义并不一致,这种不一致问题会逐步扩大,直至失去本应有的价值。

四、缺乏系统衔接

大数据平台(或者传统数据仓库系统)其数据来源于各类源系统,比如浙江移动的大数据平台的数据来源于40多个源系统,横跨了B(业务)、O(网络)及M(管信)三域,各个源系统的接口总计超过1600个,字段近5万,大家在做数据仓库项目时,往往毕其功于一役,项目化的进行一次数据字典梳理,但实际上问题很多,首先你能确保你梳理的数据字典跟源系统完全一致吗,其次,源系统的变化你能及时感知到而自行作出调整吗,最后,你有足够的人力去跟踪这些变化,打造一本真正与时俱进的数据字典吗?我想大多数企业都会觉得困难,因此有这么一说,90%以上的数据管理系统是失败的。

如何解决以上一些问题正是我重点要谈的,其实有人会说,没有数据字典我照样能活的很好啊,但要记住,当你的公司拥有大量的数据,并认为其可以变现的时候,你实际上将其当成了资产,你就不能这么忽视了,任何公司的财务都会把资产列表理得清清楚楚,数据也一样,今年你可能还质疑这有啥价值?但10-20年后呢,可能这些数据资产就真正的分门别类的出现在你公司的资产列表上了。

举个未来场景吧,如果你希望跟其他公司交易数据,作为销售,首先得介绍你的产品吧,没有一本数据字典,针对这些数据有较为详细的描述,你能想象这种交易该如何进行吗?再比如阿里的DMP,它会提供给商家一些数据用作营销推荐,在它提供的数据清单里,你会发现它很多数据还有个置信度的标识,以表明这个数据的真实价值,这个不就是数据管理中给数据贴上的更深层次的标签吗,只是更进一步了,所有的目的就是为了促成交易的完成,当前国家也在谈用大数据进行社会治理,希望数据对公众更为透明化,数据的透明化哪里有这么容易,数据透明化首先需要解释的平民化,我们需要的是一本人性化的数据字典,否则,谁知道GDP,CPI是啥意思。

通过这些例子,我相信你至少能理解一点,数据管理的最终目的其实就是为了让数据产生价值,对于程序员来讲,数据字典也许只是一本躺在你电脑中的PDM文档而已,但对于数据资产管理员,它就是发现宝藏的一张地图。

作者介绍:

傅一平,浙江移动大数据中心数据管理部经理,中国移动经营分析专家,中国信息通信大数据产业联盟专家委员,浙江大学信电系博士,在大数据系统、大数据建模、大数据营销、大数据行业研究、运营商大数据挖掘及商业变现上具有丰富的经验,也是中国统计网等杂志与媒体的专栏作家。

注:傅一平是数据猿特约专栏作家


来源:数据猿

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

旅游交通大数据——大众旅游时代的“富矿”
旅游交通大数据——大众旅游时代的“富矿”
【金猿人物展】张涵诚: 2020年大数据产业发展将进入深水区,产业价值必须量化
【金猿人物展】张涵诚: 2020年大数据产业发展将进入深水区,产...
【金猿案例展】国网上海市电力:智能配用电大数据应用平台建设
【金猿案例展】国网上海市电力:智能配用电大数据应用平台建设

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部