慧辰资讯CTO马亮:揭秘大数据商业应用第一股HCR价值变现之路(三)
【数据猿导读】 基于大数据与标签化思路的消费者画像分析,是B2C企业深入认知目标消费者特性的重要工具。2015年8月正式挂牌新三板的慧辰资讯在这方面可谓是经验十足,CTO马亮在系列文章第三部分为建立消费者画像模型提供了指引
马亮是HCR慧辰资讯CTO 、大数据首席专家,清华大学计算机系博士,在大型数据系统建设、数据分析技术(统计/机器学习/自然语言处理)与大型企业(世界500强/中国前100强)商业数据挖掘方面具有10年以上经验。
当前,基于大数据与标签化思路的消费者画像分析,成为B2C企业深入认知目标消费者特性的重要工具,并在电商、DSP广告等互联网企业发挥作用。越来越多的传统B2C行业,也开始重视其价值。同时,更多的数据资源方(如运营商等)也希望凭借其大数据资源上的消费者画像服务,获得更多的衍生收入。
消费者画像,本质作为消费者研究的一种量化形式,核心问题仍然是消费者的洞察。而HCR作为市场研究公司,在消费者研究方面有着长期的模型积累和经验丰富的研究人员。如今,HCR借助自身研究优势,同时吸取其他系统优点,建立推出真正具有全景、深入洞察能力的消费者画像模型。
HCR消费者画像模型体系由两大部分组成:标签体系与相应的分析模型。首先我们来介绍一下标签体系。
1.消费者标签体系 ( 如何定义用户 )
已经完成的标签体系中,设计用户标签近200个(根据业务/.研究深入在不断扩展中),共分为5大类,如下图(限于篇幅图中仅列举部分标签)
数据来源 : 大数据平台部@HCR
HCR用户标签体系所具有的全景刻画能力,主要表现在:
- 提供对消费者更全面的刻画维度。当前众多标签体系(以电商和在线广告为代表)基本是面向精准营销和个性化推荐为目的,虽然也号称全景,但实际标签集中于购买兴趣/爱好和消费倾向这些与后续营收相关的用户特性。而这只是HCR用户标签的一个子集(第四大类)。仔细研究HCR的标签体系你会发现,除了兴趣爱好外,HCR的基本属性、社会/生活属性与行为习惯的相关标签类,真正从消费者实际日常生活的更多基本角度(如健康/车辆使用/住房/移动通信/居住/日常交通等等)全面立体地描述消费者的特性。
- 标签的刻画粒度也更加细化。比如年龄段,常规的多采用70后/80后/90后这样的划分原则,而HCR除此之外还能提供更多描述粒度,如中学生/高中生(甚至高三学生)/大学生… 这对发现和细分目标用户更有价值。
而HCR用户标签的深入洞察能力,则主要表现在:
- 更加丰富的标签体系带来更多洞察可能,但这还不够,HCR首创引入了心理学属性标签(第五大类 共30多个),融合了消费者研究的思想,以生活方式/个性/价值观等深层标识,来揭示消费者的内在特性,使得我们能够深入探查消费者的本性,也使得画像结果有更泛化的应用价值。
- 更深入的算法模型。基于标签体系上的分析算法模型,在标注精度和广度上都有了更大进步(见后面详细介绍)
- 标签的标注结果,加入程度指标来细化,这样更准确地区分消费者对某种特性的贴近程度(如爱好游戏可分为轻度、中度和重度三种程度)。这对于更准确地理解消费者大有帮助。
2.标签分析方法(如何打标签)
与标签体系一样,HCR的标签分析模型也具有独特而有效的的分析方法。
- 主要通过行为类数据为分析依据
在标签分析中,主要借助行为类大数据(而非直接的属性数据)来推演得到相应结果(如不是基于客户身份证信息推导其性别标签)。 这样的方法,难度大,需要对行为理解更深入,但可以避免涉及大量用户敏感信息,同时也更具有更好的适用性。
HCR认为,用户的行为数据(当前主要为线上行为)主要由下几种行为场景模式组成(这里浏览包含网页与视频)。当市面上大多数标签研究聚焦于搜索/浏览和购物行为数据时,我们选择了手机App使用行为这个独特的突破口。
数据来源 : 大数据平台部@HCR
- 分析方法的三驾马车
HCR消费者画像分析团队由HCR资深消费者研究员与大数据平台部挖掘算法人员组成。双方配合探索研发兼具研究与技术分析优点的可计算模型。
- 行为规则库抽象用户行为模式: 因为消费者的日常行为会反映其个人特性(标签),因此通过行为模式的推理就能为消费者打上相应标签。相比其他方案,HCR通过研究员团队,,把消费者行为推理思路进行抽象,得到可以用于自动分析的方法规则,记录到规则知识库。该规则知识库是对消费者研究的经验浓缩,覆盖大量常规行为场景,并具有相当的洞察深度(如可以推演出生活方式等深层次标签),这是当前基于纯技术驱动的分析方法所无法做到的。
- 规则推演引擎自动分析常规标签标注:基于分析规则库,挖掘算法人员研发了智能推演算法与自动处理程序,可快速计算消费者相关行为的统计/分布特性,并结合规则库自动计算得到消费者的标签(以概率值形式代表可能性)。自动推演引擎解决了符合规则特征的海量用户的标签快速推演,模式具有独创性,相关算法正申请专利中。
- 机器学习算法给更多消费者打标签。实际分析中,很多标签所对应的行为特点是隐性的,无法被发现和规则抽象。此时,挖掘算法人员进一步通过机器学习算法(有监督学习加推荐计算),通过已标注标签的消费者的行为特性,来推导大量未标注/新用户的特性标签,。这种机器学习的模式通过已分析消费者的结果,极大扩展了标签可标注的用户范围。
3.移动互联网用户标签分析应用
在初步建立相关分析模型后,我们对移动互联网用户的App使用行为大数据进行了标签分析的初步试验。目标数据来自HCR HiMobile业务的数百万移动互联网匿名用户的长期(2个月连续)App使用行为,共300多亿记录),得到了良好的效果。下图是其中某匿名用户分析得到的实际画像结果,非常具有代表性。
数据来源 : 大数据平台部@HCR
从图里可以看出,该匿名属性用户的特性通过行为已被画像结果有效勾勒出来(所有标签通过可信度概率标示,右侧灰色内容为分析得到的心理学属性标签)。无论目标描述的特性范围和深度,都比其他系统有较大的优势。
4.HCR消费者画像的未来
在大数据产业链中,HCR的定位是数据洞察者。而消费者画像分析作为典型的研究洞察服务,将逐步成为HCR的核心竞争力,在未来得到不断地加强和广泛应用。主要的应用模式包括:
- 作为HCR所有消费者研究业务的基础分析功能,帮助研究员在研究业务中洞察消费者的群体/个体特性。
- 为具有消费者画像能力的企业(如电商),提供更多角度的用户画像分析结果,作为其自身用户画像的有效补充,从而大大增加其产品推荐的精度与适用性。
- 为具有用户行为大数据但缺乏用户画像能力的大量B2C企业(尤其移动互联网企业),以标准化API的方式,提供快速的标签化分析服务,帮助企业轻松获得用户标签化分析能力,从而将分析结果轻松应用于后续的业务服务中。
在后续的研究工作中,HCR的消费者画像团队将继续完善现有行为规则库和算法模型。并针对更多行为数据空间(如搜索和浏览),扩展标签的分析能力,力求使HCR消费者画像分析成为最具竞争力的消费者洞察服务。
来源:数据猿
我要评论
活动推荐more >
- 2018 上海国际大数据产业高2018-12-03
- 2018上海国际计算机网络及信2018-12-03
- 中国国际信息通信展览会将于2018-09-26
- 第五届FEA消费金融国际峰会62018-06-21
- 第五届FEA消费金融国际峰会2018-06-21
- “无界区块链技术峰会2018”2018-06-14