数据质量是数据人永恒的话题
数据海洋 | 2016-08-02 13:23
【数据猿导读】 一个还在生在的公司,还在发展的公司,如果这家公司需要看数据,那一定都或多或少存在质量问题。 所以很多公司业务团队如果有数据人员,都希望可以直接访问后台数据,自己写代码去取
1、 数据流长导致数据质量问题
如下图所示:常规数据流:从业务发生->系统记录->数据处理->使用,整个数据流程是非常长。所以任何一个环节如果出问题,都会对最终数据质量有问题。
所以很多公司业务团队如果有数据人员,都希望可以直接访问后台数据,自己写代码去取。
2 、数据质量需要持续迭代的资源投入
曾经在上消费者行为学的时候,我记得曾经有这样的一个案例:
问: 你觉得做飞机,最重要的是什么?
99%的回答是:安全。但是当大家实际做出购买飞机票选择的时候,可能安全这个因素,都没有进入很好多人购票决策流程中,或者是根本不考虑这个因素。
问: 你问从事数据工作的人,在数据仓库建设、数据分析、数据挖掘等过程中什么最重要?
如果有数据质量选项,我想也许90%会选择这个选项。就像你如果问一个要乘做飞机的人,但实际工作中,却是没有多少人愿意投入资源和精力持续去提升数据质量!回答的与实际行动可能完全不一样。
为什么呢?你们公司或者你自己有花多少时间在思考数据质量的问题?
3 、数据质量产生的问题
1、在一个会议上,来自不同部门的同事,对着同一个指标【指标名称相同】。例如:网站转化率。但各部门统计出来的结果不同,从趋势来看,甚至有可能是相反的。都说自己的统计口径是对的,“争吵”了半天,开始确定各自统计的口径与逻辑,然后对对方的统计的逻辑“讨论”一番,讨论好后会议时间也差不多到了,大家很不愉快结束了本次会议。
2、业务方反馈数据部门统计的数据不对,然后做数据同学查了半天,发现是原始数据记录有问题。
3、业务部门上线了一个产品,感觉效果很好,来找数据部门要相关数据,结果“傻眼”了,因为当初产品上线,没有埋点,结果没有办法相关数据记录。
4 、数据质量问题,可能归纳为有以下几种
1、原始数据记录有误;例如:用户访问的页面类型是促销页,但数据记录成为:搜索页。
2、原始数据缺失;例如:像一些日志数据因为没有埋点而没有收集。
3、指标定义错误;例如:对于指标定义,业务描述错误。
4、统计指标过程中代码写错;一般是指数据分析师或者数据提取人员在取数据的时候没有把代码写清楚。
5、同一指标统计口径不一样;对于同一指标,不同人理解不一样,有的网站转化率是按订单/UV;还是订单/会话;还是会员数/UV等。
6、数据不足;在分析的时候,发现数据只有最近几天的,历史数据没有记录或者删除了。
7、.......
5 、数据质量永远都存在
数据质量是数据人要面对的一个永恒的课题,如果谁和你说他们公司没有任何数据质量的问题或者说数据质量问题得到彻底的解决,我很负责责任的说一句,要么他不懂,要么他在“扯蛋”,要么他们公司的业务已经“消失”。
一个还在生在的公司,还在发展的公司,如果这家公司需要看数据,那一定都或多或少存在质量问题。
对数据人来说,永远记住一句话:“garbage in garbage out”。
来源:数据海洋
我要评论
活动推荐more >
- 2018 上海国际大数据产业高2018-12-03
- 2018上海国际计算机网络及信2018-12-03
- 中国国际信息通信展览会将于2018-09-26
- 第五届FEA消费金融国际峰会62018-06-21
- 第五届FEA消费金融国际峰会2018-06-21
- “无界区块链技术峰会2018”2018-06-14