【金猿人物展】香港科技园公司董事车品觉:大数据揭示了大语言模型的特征与趋势
车品觉 | 2023-12-20 18:50
【数据猿导读】 本文由香港科技园公司董事车品觉撰写并投递参与“数据猿年度金猿策划活动——2023大数据产业年度趋势人物榜单及奖项”评选。
2023年正好是大数据发展至今的第十三年,过程中大数据的发展深深地塑造了大型AI模型的进步与应用,如深度学习和机器学习模型。随着大数据资源及技术的普及与可访问性的提升,大规模模型训练已不再是天方夜谈。在大数据时代前,海量数据的收集和存储是一项巨大挑战,这限制了大规模模型训练的可能性。记得在大数据时代的初期,算力及稳定性是行家们都很疼苦的经历,但随着云计算平台及数据分析技术的提升,使得我们现在能够处理和分析以往无法处理的非结构性数据(例如文章、影像等),从而后来可以训练出更复杂的大语言模型,回头看来这都是随着技术的逐步迭代自然发展的路径。
前阿里巴巴首席参谋长最近在一个演讲“下一个十年”里提到,“语言让我们可以沟通,语言的背后天然就蕴含着人类的智慧,而且人类海量的知识,1万年左右的知识,基本上都被最近二十年的IT通过文字、音频、视频给沉淀下来了。所以,你掌握了文字,掌握了语言,基本上就破解了人类到今天为止“所有”的“知识”。
这段话正好也帮助我更确定大语言模型的明线是类似GPT的智能产品,但暗线是把人类的思想逻辑数据化,通过对大量的语料上下文的分析,形成庞大的向量数据厍(另一种大数据)。这个超级数据厍可以帮助人类开发聊天机械人, 但同时也可以作为大数据的底层,因此向量数据厍的可能性还有待开发。需然大模型的发展还在起步阶段,但如果把过去大数据的Volume(体量)、Velocity(速度)、Variety(多样性)和Veracity(真实性)作为框架。不难发现4V特性同时也在大型语言模型(Large Language Models,简称LLM)中得到体现,也许会对未来的大语言大模型有所启发。
1、Volume(体量):
大数据和LLM都需要处理大量数据,这是一项巨大的挑战,但也是模型实现深入的洞察并展现有意义结果的关键。如OpenAI的GPT,通过大量数据训练,让模型理解和学习从大量文本中获得的复杂信息,从而生成连贯、相关和有深度的文本。这需要投入巨大的资源,数据处理的成本,不仅包括存储和处理这些数据的硬体和软件成本,还包括获取、清洗、管理和保护数据的人力成本。同时,对数据的安全和隐私保护投入也是处理大数据和LLM的重要成本组成。组织需要确保他们的数据存储和处理方式符合各种隐私法规,这需要在安全技术和专业人员等方面进行投入,以防止数据泄露和滥用。因此,大数据和LLM之间的一个重要的共通点是,它们都需要投资大量的资源来处理海量数据。当然更值得我们深刻思考的是,数据量真是越大越好吗?还是也会出现边际效应
2、Velocity(速度):
处理速度在大数据和LLM中都起着至关重要的作用。在大数据环境下,数据以前所未有的速度产生和流动,需要在短时间内获取、存储、处理和分析这些数据。比如,实时交易系统、社交媒体监控、在线推荐引擎等场景都需要快速处理庞大的数据。正如LLM也需要能够快速处理和理解输入的文本数据。这是因为,用户期望能在短时间内得到模型的答案,以满足用户的实时需要。但追求速度的背后,伴随着的是高昂的成本,追求投资回报平衡是技术得到普及的重要因素。
3、Variety(多样性):
数据的多样性是大数据和LLM的另一个核心特性。大数据来自多种不同的来源,包括结构化数据(如数据库中的表格数据)和非结构化数据(如社交媒体上的文本数据)。处理和分析不同类型的数据,可以让我们从多个角度理解一个问题,从而获得更全面的洞悉。LLM也需要处理和理解多种类型的文本数据,包括新闻文章、社交媒体帖子、科学论文等。通过在这些不同类型的文本上进行训练,模型可以学习到各种语言模式和知识,从而使得LLM能够处理各种语义情境和上下文关系。它们可以从多个角度理解一个问题,提供更全面和准确的结果。然而,处理这种多样性的数据也是一项挑战,由于数据的来源和类型的不同,数据质量和准确性也可能存在差异。因此,数据清洗和验证也是处理这种多样性数据的一个重要环节。那么大模型是否会像大数据一样,需要有很多小模型作为连接点,从而产出价值
4、Veracity(真实性):
大数据的价值在很大程度上取决于数据的质量。如果数据包含错误、重复或者过时的信息,那么基于这些数据的分析和决策就会出现偏差。因此,数据清洗(也称为数据清理或数据修正)是大数据分析的一个重要步骤。这包括找出和修正数据中的错误,删除重复的数据,以及处理缺失的数据。同样,LLM的表现也取决于其训练数据的质量。模型是通过从训练数据中学习来生成文本,因此如果训练数据包含错误或误导性的信息,那么模型可能会生成不准确或误导性的文本。进而,对训练数据的清洗和验证也非常重要的。这可能包括删除错误或不相关的文本,以及确保数据的代表性和公正性。但因为多源异构的关系,数据质量是无法通过像处理小数据一样的模式进行清洗及验证,使用的时候要格外小心及进行多方验证,甚至仅可以作为大方向的指引,或者与传统分析方法混合使用。
然而在大数据和LLM的监管上存在一些区别。这些区别主要源于两种技术的使用方式,以及它们所引发的潜在问题。虽然大数据和LLM都涉及数据隐私和安全问题,但重点可能有所不同。对于大数据,监管主要关注的收集、存储和使用数据过程中数据的安全保护和隐私泄露风险。对于LLM,虽然亦需要关注训练过程中数据安全及隐私泄露风险,但更重要的是如何确保模型生成的文本,即模型输出的结果不会泄露敏感信息,例如,如果模型在训练过程中接触到了某些敏感信息,那么它可能会在生成文本时泄露这些信息。另一方面,大数据和LLM都需要提高模型的透明度和可解释性,但挑战来源有所不同。对于大数据,监管主要关注如何理解和解释数据分析的结果。对于LLM,监管可能更加关注如何理解和解释模型的决策过程,例如,如果模型做出了一个重要的决策,那么人们需要能够理解和解释这个决策是如何做出的。
那么以上的观点对于大语言模型有什么启发?
毋庸置疑LLM具有巨大的潜力,可以提高生产力,甚至帮助获取新的知识和技能。我们需要在创新与效率之间找到平衡。早期阶段,大数据经常被描述为一种“炒作”,原因是人们过度夸大了大数据的潜力,而对于其实施的复杂性和挑战性理解不足。同一道理,现在有些人也把LLM描述为一种“幻觉”(Hallucination), 原因可能在大家对LLM的能力有过高的期望,过分夸大其在理解和生成复杂语言结构上的能力,而忽略了它仍然依赖大量的数据训练,而且在一些复杂的语义理解和推理任务上可能仍然表现不佳。
如果我们把2023年作为LLM的元年,那么我相信2024年将会是LLM落地很关键的一年。大家开始会更关注它的实际价值而非一时的冲动,企业会发现使用成本其实不低,衍生出来的问题也难以控制。相比于大数据,大语言模型的透明度及可解释性更低。这意味着大语言模型的稳定性将是它需求全面爆发之前,大家必须面对的困难。因此2024年我们可能会见到各式各样的技术解决方案,甚至替代品。建议企业可以多观察一段时间,才确定投入的力度和方向亦未为晚。
·关于车品觉:
太平绅士;香港致公协会成员;香港科技园公司董事;香港特区政府数字经济发展委员会委员。
车品觉先生拥有十多年丰富的数据实战经验,并在实践中形成了独特的数据化思考及管理方式。他亲自领导阿里数据团队在大数据实践领域取得了一系列重要成果,包括为阿里建立集团各事业群的业务及决策分析框架,开发智能化的数据产品,成立了驱动集团数据化的营运团队,成功发起了公共与数据资产管理体系,还发布了数据安全规范等。
车先生2010年8月加入阿里巴巴,曾任阿里巴巴集团副总裁兼首任数据委员会会长。2014年在任职阿里期间领导阿里数据团队获得Top CIO评选为中国最佳信息化团队,2017年被国家信息中心选为中国十大最具影响力大数据企业家。2018年,荣获“中囯大数据科技领军人奖”。2016年加入红杉中国基金,曾任红杉中国基金的专家合伙人,在红杉期间,对多家投资企业进行经营分析的指导,数据平台建设的技术指导和帮助企业解决大数据上的问题。著有:畅销书《决战大数据》、《数据的本质》及《数循环》。并译有《数据驱动的智能城市》。
来源:数据猿