电力大数据(七):电改为本,技术为王
黄蓉 | 2016-05-03 14:59
【数据猿导读】 电网营销数据运营的关键技术必须上升在电网公司中的战略地位,因为优质的供电服务背后是由海量数据支撑的,如何使这些数据的价值最大化,离不开电网营销数据运营的相关技术支撑
摘要:新 “电改”下新进入者的竞争会使电网公司面临电力销售减少、过网费收入减少以及业务被“管道化”等潜在冲击。以“数据驱动能源世界”为纲领,本文旨在通过大数据相关技术支撑电网数据运营,破解电网公司以往在改革、发展中顾此失彼的两难困境。基于电网营销数据和特点,本文通过研究数据采集、数据存储和处理、数据挖掘、人工智能和数据可视化这5项关键技术,使电网企业置身于这个开放创新的关键技术生态圈中实现电力流、信息流以及资金流的完全整合,为电网企业利用营销数据运营实现“边转型、边增长”提供技术支撑。
一、背景
电网营销数据运营的关键技术必须上升在电网公司中的战略地位,因为优质的供电服务背后是由海量数据支撑的,如何使这些数据的价值最大化,离不开电网营销数据运营的相关技术支撑。数据运营关键技术能促进传统的电网运营模式改变,能催生新的业务模式,能推动电网企业电力变革的脚步。
电网营销数据运营的架构设计的出发点和策略不仅是从数据运营中“节省更多的钱”,更是从数据运营中“生出更多的钱”。这就需要一种支持数据一致性、高扩展性且高可用性的架构。实现这种数据运营管理能力的快速平衡,主要包括以下几项关键技术:
第一,数据采集。收集电网营销内部和外部的各类型、规模较大的数据,内部数据采集侧重在整合不同业务系统之间的数据,外部数据采集侧重在通过网络爬虫获取第三方数据。
第二,数据存储和处理。对这些数据进行存储和处理,基于电网营销数据量越大,越需要各种不同种类的存储,且电网营销数据运营的大数据架构是可扩展的。
第三,数据挖掘。利用数据挖掘技术,在传统结构化数据处理上为用户提供越来越多的实时挖掘和分析,这些实时的智能服务可以支持实时的决策制定。
第四,人工智能。基于人工智能的技术,可以提升非结构化数据如语音、文本、图像等方面的分析和预测,这些技术有助于电网企业提升客户服务水平。
第五,数据可视化。基于电网营销的数据和外部数据的分析结果通过可视化的手段进行展示,为领导层提供管理经营决策支撑。上述当今最具颠覆性的五项关键技术让电网营销数据市场化成为可能,促进电力服务和产品创新,支撑售电公司的快速发展。可以说未来售电公司基于营销数据运营的应用服务和产品将无处不在。本文
下面将通过电网营销数据运营的数据采集、数据存储和处理、数据挖掘、人工智能和数据可视化等5个方面的关键技术分别进行阐述。
二、数据采集
(一)内部数据采集
内部数据采集主要通过内部已有的、彼此分离的传统业务系统中提取数据。对于结构化的数据通过数据抽取转化工具来实现,包括数据的初始化、数据的增量抽取;对于非结构数据通过程序语言开发特定工具实现数据直接采集。内部数据采集的主要困难在于打破部门职能藩篱、进行跨部门数据共享的思维和意
识。只有充分认识到内部数据采集共享的价值,才能打破内部数据孤岛,实现数据的互联互通。内部数据的抽取有利于电网公司整合内部资源,一定程度上能加强数据的可见性、协作性与创造性,从而帮助电网企业大幅节约成本、提升竞争优势。但内部数据的维度相对集中,属于特定领域的点状数据。需要整合更多的外部数据
来扩展数据的维度,丰富数据的属性刻画,帮助电网企业进行已有业务的优化和新增业务的衍生。
(二)外部数据采集
外部数据采集一般有3种方式实现:第一种方式可以通过合作伙伴进行数据共享,第二种方式可以通过数据交换实现第三方公司的数据采集,第三种方式可以通过网络爬虫获取外部数据。这里重点阐述第三种数据采集方式:网络信息抓取服务。网络数据爬虫是指输入固定的数据源,按照一定的过滤和数据获取规则,自动抓取互
联网网上数据。网络数据爬虫的难点有两个,一个是数据源网站的反爬虫设置,如通过用户请求的Headers、基于用户行为反爬虫等技术,造成的数据抓取困难;一个是数据源本身以图片为载体造成的数据获取困难。针对第一个难点,需要针对源网站的反爬虫技术,分别采用相应的破解技术,如在爬虫中修改或者添加Headers、使
用IP代理等方式,实现相关数据的顺利爬取。针对第二个难点,可以利用特定技术,如光学字符识别方法,通过图像增强、锐化、边缘检测等方法,进行特征提取和模型训练,从而获取图片中的数据。外部数据的爬虫有利于电网公司整合外部数据资源,使得点状数据扩展为带状和网状的数据,更好地增强数据的互联性、智能
性、弹性和快捷性,激发出全新的工作思路和工作方式,利于已有业务的财务表现和新增业务的价值构建。
三、数据存储和处理
(一)数据存储
数据存储主要提供分布式的存储功能。数据存储面临的主要挑战是数据大容量通常可达到PB级的数据规模,那么对于海量数据存储系统扩展能力的要求也会很高。同时,这海量的数据中存在大量信息是无效的,有效信息可能只分布在一个较短的时间段内,大量的数据存储给数据库带来不小的压力,而无效的数据更
是对于资源的浪费。存储层一般由HADOOP生态系统以及关系型数据库构建,HADOOP生态系统主要用于海量数据的存储主要包括HDFS分布式文件系统、HBASE分布式数据库以及HIVE分布式数据仓库。存储层支撑对PB级别甚至更大级别的数据整合、存储与管理,同时具有强大的容错能力和平滑的线性扩展性。HDFS分布式文件
系统是整个大数据存储的基础,在它之上构建HBASE分布式的数据库和HIVE数据仓库。
(二)数据计算
数据计算主要提供分布式的计算与处理功能。数据计算的挑战是数据处理速度响应的及时性。系统中的分布式数据计算模型一般基于Spark框架来实现,应用于大数据的实时处理和批处理计算分析任务执行,可以解决大数据计算中的交互查询及流式计算等核心问题。Spark由于其提供了一套支持DAG图的分布式并行计算的编程框
架减少多次计算之间中间结果写到HDFS的开销,提供Cache机制来支持需要反复迭代计算或者多次数据共享减少数据读取的IO开销,使用多线程池模型来减少task启动开稍等诸多优点,是满足电网业务数据计算需求的最佳选择。
四、数据挖掘
数据挖掘和分析是从大量的数据中通过算法搜索信息并发现隐藏于数据中有趣、有用的模式和关系的过程。数据挖掘和分析的主要难点是如何将技术和算法应用到实际业务中去,从而提升传统的电网营销业务运作效率并改变运营模式。一般的数据挖掘方法及电网营销领域的应用如下图所示:
五、人工智能
人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、自然语言处理、语音识别等。人工智能是对人的意识、思维的信息过程的模拟。现在,人类已经掌握了弱人工智能。人工智能革命是从弱人工智能,通过强人工智能,最终到达超人工智能的旅途。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大。可以设想,不久的将来人工智能带来的科技产品,将会是人类智慧的“容器”。甚至未来,在几乎所有领域都比最聪明的人类大脑都聪明很多,包括科学创新和社交技能。
(一)机器人
机器人大部分的硬件和软件都是为了特定任务设计的,机器人是人工智能的容器。机器人有时候是人形,有时候不是,人工智能自身是机器人体内的电脑。即人工智能是大脑的话,机器人就是身体,而且这个身体不一定是必需的。比如说 Siri 背后的软件和数据是人工智能,Siri 说话的声音是这个人工智能的人格化体现,但是 Siri 本身并没有机器人这个组成部分。迄今为止,机器人主要擅长的事情就是把人们每天重复的劳动自动化。工人们在流水线上工作,每个月都重复同样的动作。现在部分这样的工作已经可以有机器人来实现。当然,机器人在一些垂直细分的领域也有了很多令人振奋的应用,比如无人驾驶,还有精准农业、电子商务自动取件等应用。对于电网企业来说,智能机器人可以应用在电站自动检查、客户的用电小秘书等,使这些业务成为既能自我生长、又能抵御颠覆性冲击的法宝。
(二)自然语言处理
自然语言处理是一门研究人与人,以及人与计算机交际中的语言问题的学科,是人工智能中最为困难的问题之一。自然语言处理主要是建立计算机框架来研究、实现和优化语言能力表示、语言应用的模型,同时根据这样的语言模型来设计各种实用系统,并探讨这些实用系统的评测技术。自然语言理解的研究内容主要包括中文自动分词,词性标注,句法分析,自然语言生成,文本分类,信息检索,信息抽取,文字校对,问答系统,机器翻译,自动摘要,语音识别、文字蕴涵等等。自然语言处理现在实际的技术困难是语义的复杂性,包含因果关系和逻辑推理的上下文等。从应用角度来看,自然语言处理具有广泛的应用前景,例如:机器翻译、手写体和印刷体字符识别、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等。对于电网企业,针对工单记录,利用自然语言处理可以实现用电客户的来电原因分析、超长电话原因分析、重复来电原因分析、投诉分析等。
(三)语音识别
语音识别技术所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。语音识别技术相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。语音识别一般的方法是首先录制语音波形,再把波形通过静音或静默分割为多个表达句,然后去识别每个表达句所表达的意思。为了达到这个目的,需要用单词的所有可能组合去匹配这段音频,然后选择匹配度最高的组合。目前语音识别还有两个主要的挑战:第一个是对于长句子的识别,目前的语音识别系统还做不到像人一样很好的利用上下文信息。另一个主要的挑战就是理解文本的内容,而不仅仅是转录。对于电网企业来说,针对客户中心95598呼叫平台积累的海量语音数据,利用中文普通话语音识别技术,提升客户服务的服务质量和运营管理水平。
(四)深度学习
深度学习是一种多层描述的表征学习,通过组合简单、非线性模块来实现,每个模块都会从原始输入开始,将最简单的描述转变成较高层、较为抽象的描述。深度学习是人工智能的一个重要部分,也是近几年最热门的技术之一。深度学习理论显示,与不适用分布式表征的经典学习算法相比,深度网络有两处异常明显的优势。第一,学习分布式表征能够将通过训练而学习获得的特性值泛化为新的组合。第二,深度网络中的表征层相互组合带来了另一个指数级别深度的优势潜力。深度学习所创造的所有价值主要体现在有类别标签下的学习,举例来说包含以下几种:判断一封电子邮件是不是垃圾邮件,给出一个图像的对象标签进行物体识别,给出一个图片返回对应的文字说明进行图说,给出一个英语句子返回对应的法语句子进行机器翻译,给出一个图片问题对返回相应的答案进行基于图像的匹配问答问题。有了很多标记过的数据和一个足够大的网络,可以证明一个深度学习算法可以以极高的精度学习任意函数。对于电网企业,可以将深度学习技术应用到语音识别、自然语言处理等过程中,促进预测效果提升。
六、数据可视化
可视化是利用计算机图形学和图像处理技术,涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。
(一)常见展示
图形常见的可视化图形有直方图、分布图、圆饼图、连线图、平行坐标图、属性相关图、网络图、散点图、散点图矩阵等基础图件,其中直方图用于展示数据分布情况。 分布图用于展示名词型属性的占比情况。圆饼图用于展示名词型属性的占比情况。连线图用于表示两维属性之间的关系,用折线连接起来。平行坐标图用于展示高维属性的样本分布情况。属性相关图用于展示属性之间的相关性。网络图用于展示属性和属性之间的关联性。散点图用于展示二维属性之间的关系。常见的展示图形特点是直观、容易理解,但表述的信息量较少。
(二)高维展示
图形为了解决可视化在二维平面的信息量太少问题,适应不同的平台接口,人们研究一种新的图形展示方式:高维展示图形。相比常见的展示图形,高维展示图形能更漂亮地融合更多的信息,更好地展示数据之间的关系,将数据进行多角度的呈现,清晰有效地传达数据信息。由于篇幅限制,这里选取几个有代表性的图进行示例说明:
唱片图
以时间周期为轮,显示各业务指标的变化关系,颜色用于区别不同类别数据,环的长度用于表示数值大小。如右图表示各业务系统的每年分配容量及利用情况。
词云图
词云图用来展现文本信息中词汇的显著程度,通常和时间结合起来,反映各类词汇信息随时间的变化趋势。如下图展示文本分词后的关键字出现频率情况。
网络图
网络图表现了不同数据元素之间的多元关系,连接两点的线越粗,表示两个属性同时出现的次数越多,相关性越强。如右图展示了用户的交际关系图。 未来,在高维可视化的基础上,进一步提高和丰富用户与数据之间的连接性、体验性和互动性,人们正兴致盎然地研究和实现增强现实和虚拟现实技术。目前比较普遍的一种观点是:VR/AR 的硬件设备、应用在 VR/AR 上的新的三维交互方式,和基于 VR/AR 设备的应用内容,就是下一个新革命!
(三)增强现实
增强现实(Augment Reality简称AR)是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术, 目标是在屏幕上把虚拟世界套在现实世界,体验到实体信息(视觉信息、味道、触觉等)并进行互动。增强现实提供平视式显示屏,支持“免手”操作,将便利的数据呈现在使用者眼前,适合在室外、公共场合使用,实现难点在于硬件的整合和现实应用切入下促进运行的稳定性和外观的满意度提升上。对于电网企业,检修专家可以获得实时所在变电站的地理信息、被维修变电器的内部结构和零件图等,利用增强现实轻松进行故障部位的精确定位和检修。
(四)虚拟现实
虚拟现实(Virtual Reality简称VR)是通过一个支撑手机的支架或者一个与其他设备(PC、游戏手柄、手机或者平板)捆绑在一起的屏幕或者一个独立的设备形成一个封闭的世界,使用户沉浸到该环境中。虚拟现实适合在室内,与增强现实的主要区别在于完全割裂现实世界,需要包裹中眼镜和耳朵,实现难点在于如何设计、尺寸、安全性和内容符合特定个人、地方和场景的需求,过程中捕捉用户动作和视线、设备及时响应避免延迟,保证场景中呈现的内容逼真、形象、有内涵。对于电网企业,未来虚拟现实技术可以实现虚拟客服。假设在未来的客服呼叫系统中,可以用一个虚拟的空间将所有的用户放在一起,每个人都按照其呼叫需求定制化一个虚拟客服,给予每个用户独一无二的关注,处于一个如此真实而正能量的服务氛围之下,客户满意度提升的效果不言而喻。
七、小结
如今,电网公司营销部正处于一个变革浪潮的中心。面对变化,电网企业需要积极拥抱创新技术,在一个崭新的世界中开展数据运营,着力提升自身的创新意识和敏捷性。在这篇文章里分享了“电网营销数据运营”这一研究项目的核心技术观点,并强调了这些技术的重要性,使得具有长远思考的电网公司在营销数据运营的生态系统中占据一席之地,为电网企业在市场转变中更好把握正在崛起的发展机遇提供借鉴。
来源:美林数据
我要评论
活动推荐more >
- 2018 上海国际大数据产业高2018-12-03
- 2018上海国际计算机网络及信2018-12-03
- 中国国际信息通信展览会将于2018-09-26
- 第五届FEA消费金融国际峰会62018-06-21
- 第五届FEA消费金融国际峰会2018-06-21
- “无界区块链技术峰会2018”2018-06-14