܄

现在入局大模型,难点不在技术,而在数据|数据猿直播干货分享

【数据猿导读】 数据猿邀请了实在智能创始人兼CEO孙林君,知道创宇业务安全产品线总经理何悄然,华院计算技术总监、数字人事业部负责人贾皓文,围绕“大模型、AIGC重构企业服务的底层发展逻辑”的话题做了精彩的讨论和交流。

现在入局大模型,难点不在技术,而在数据|数据猿直播干货分享

自年初以来,ChatGPT的火爆带动了人工智能、AIGC以及大模型等话题的热度,这些概念从年头开始到现在,一直都是一个常聊常新的话题,从开始尝试使用大模型产品到技术探讨,从风险防范到行业应用……

科技圈对于人工智能的热情也很高涨,很多人都在讨论,大模型究竟会火多久?这么多躬身入局的企业以及准备入局的企业,未来该朝着哪个方向发力?大模型究竟是一个新物种,还是旧技术的量变到质变?如何应对安全风险问题?

为此,数据猿邀请了实在智能创始人兼CEO孙林君,知道创宇业务安全产品线总经理何悄然,华院计算技术总监、数字人事业部负责人贾皓文,围绕“大模型、AIGC重构企业服务的底层发展逻辑”的话题做了精彩的讨论和交流。

大模型能火多久?

其实最近几年的新技术一直都很多,元宇宙、数字孪生等,刚出现时非常火热,但是很多热度下降了不少,只有很少的企业依旧坚持投入。那大模型是否会像之前的那些概念一样,热度过后就逐渐被潮流遗忘呢?它究竟能“火”多久?企业未来应该朝哪个方向发力和实践?

孙林君认为,AIGC和大模型就现在来看,一定是产业革命级别的事件或技术,几乎所有的行业、所有的人,在未来都会受新技术的影响,几乎所有的产品都需要思考和大模型相结合所带来的全新价值。但是大模型现在仍处于探索的阶段,无论是 to c的领域还是to b的领域,包括改变人们工作方式和生活方式的领域,都在做探索。实在智能科技有限公司是一家RPA厂商,主营业务是围绕数字员工来打造产品矩阵,面向的核心客群主要是to b的企业用户,正是由于这些标签,所以也结合当前所掌握的行业know how和客户的需求做大模型的探索和投入,至于在可控的成本投入下是否能给客户带来足够的价值,也就是“模型可用、成本可控”的问题,现在还没有定论,但无论如何,大模型是产业革命级别的技术。

大模型技术_数据_数据猿直播-1

何悄然也认为当前大模型正处于探索阶段,而且大模型技术是真实存在且非常厉害的技术。但是,以目前的发展水平来看,以深度学习算法为核心的AIGC给企业带来的更多的是量的变化,而不是质的变化。大模型并不能完全取代某些流程或者某些岗位,它只能极大的提升这些岗位人员的工作效率,包括在知道创宇公司内部,有一些业务审核就使用大模型来帮助审核人员快速的上手培训以及咨询,从效果看确实能给员工的工作带来便利,工作效率提升50%-60%,但它还达不到提升10倍或者20倍效率的情况,所以大模型确实很好用,但是还达不到真正意义上的好用。

贾皓文认为,大模型看起来从ChatGPT到现在国内的千模大战,其实大模型原始的技术并不是很新,它是一些很老的技术集合,如果回看人工智能原始的发展,人工智能就是一些参数化集合,但是如果把这些思想和理念,照搬到现在大模型实际的结构来看,现在大模型还是一堆的参数化集合形成的知识库的黑盒。从技术角度上来说,只是参数量从以前的可能几百个、几千个,变成了现在万亿个;另外,大模型的应用架构其实从17年开始火起来,到现在虽然已经有6年了,但它还是一个呱呱坠地的孩子,未来也可能会产生新的版本,或者其他的工程或者是数学上的新结构。因此还是应该要理性的去看待它,因为AI刚出来的时候,它的目的很简单,就是给用户、给企业去做降本增效,所以对企业而言,如何在短期内把大模型用起来、如何提高效率、如何把它的工具属性发挥好,才是最实在的事情。绝大部分公司不会真正的投入大量的人力、物力、财力去训练基座模型,其实现在基座模型国内已经很成熟了,关键是要看怎样结合自身积累的领域知识,把大模型用起来。

从三位嘉宾的观点中不难发现,大家对于大模型未来的走向可以达成共识,就是人工智能、大模型技术目前只是开始,众多企业都处于探索阶段,而且初步的产品已经可以实现降本增效的效果,远远没有到结束的时候,未来入局的企业,将所处行业的know how集合到模型里面做行业模型,或者是垂类的小模型,还是值得大力投入和探索的方向。

新物种还是旧技术量变引起质变?

当然,从三位嘉宾观点的字里行间能发现,虽然大模型让用户和企业觉得非常便利、高级,但似乎并不是一项新技术。这种质疑和争论最近一段时间也比较多,一部分人认为,大模型是一个全新的技术和产品,比如创新工场的李开复讲的AI2.0,其实就是指人工智能大模型的出现,而也有相当一部分人认为,大模型是传统技术由量变产生的质变,并非新技术。对此,三位嘉宾也展开了一番讨论。

孙林君认为,大模型的出现主要还是量变引起质变的过程,其实深度学习的这些理论,包括神经网络计算的理论,早在二三十年前都已经在数学上得到证明,理论上没有什么问题,但是,当初GPT2 的1.2B的参数规模在当时看虽然已经是大模型,但与现在的大模型相比,最小的模型也有6B,即60亿参数,这其实是量的变化。在之前很多年的探索中,好像没有人突破这一点,究其原因,其实有点像跳蚤实验,之前的探索中总是跳不过那个高度,之后就不想再去跳那个高度了,也就是说,前些年技术的发展被很多无形的条件——算力、成本等给限制住了,大家都在思考的方向是“怎么能够用更精确的数据、更小的模型完成更高质量的工作”,都是在这个假设上做探索。现如今突破了原来的假设之后,带来的结果上的变化是:大模型从原来的智障体验,由于参数量增加以后,ChatGPT的体验非常像一个人,原来是低于人的水平,现在变成了跟人类持平,甚至是更高的水平。所以它其实是长期积累、从量变到质变的过程。

贾皓文认为,整个大模型的训练流程,从数据准备到训练、到最后的推理,本质上还是生态的问题。过去几年,随着硬件成本的降低,摩尔定律被突破使得算力资源大幅增长,以及互联网的快速发展积累了大量的数据,数据处理框架日益成熟等等,为大模型的发展创建了比较成熟的生态,这些生态条件的成熟本身也是量变到质变的过程。整个生态其实都已经具备了大模型训练、推理、应用所需要的条件,所以它自然而然就结出了大模型的果,然后越长越大。如果一家小公司或者三方公司,需要借助大模型的能力给自己的业务添砖加瓦,可能就要花费大量精力针对自己的业务做一些精调、推理的优化等,那么这个过程反而挑战难度更大。

大模型技术_数据_数据猿直播-2

不难发现,无论是孙林君还是贾皓文,都认为大模型并非新技术,而是旧技术由量变到质变产生,过去受制于各项条件的限制,大模型技术并没有完全“施展拳脚”,而现如今各项条件都成熟之后,才给了大模型生长和发挥的空间。在量变到质变的过程中,安全性的问题也成为很多人的关注。

何悄然说到,现在大模型项目的参数是60亿起步,以前的项目可能就是在1亿以下的参数里面转,感觉自然语言处理的所有任务都已经用大模型来做了。如果只让大模型做一件事情,比如做一些传统的文本任务、关系抽取,它可能不存在什么安全风险,但是一旦把它做成聊天机器人,它可以对外产出内容时,风险就会来了,因为大模型的训练,它来的数据都是从各种各样的网络上面爬取,经过了一些规则的清洗而来,而数据清洗规则不可能每条都面面俱到,清洗过程中总有遗漏,所以它会导致训练数据里面有各种各样涉黄、涉暴、涉政的内容,这就使得大模型在应用中会产生安全风险,所以必须对模型的输入、输出都进行安全方面的控制,尤其是这种聊天类的应用,内容安全的审核非常重要,除了在模型应用阶段、部署阶段需要进行输入输出的审核之外,在模型训练阶段,也需要对训练语料进行严格审核。

由此可见,大模型在由量变到质变的过程中,安全问题始终相伴,从最基础的语料、到模型应用和部署,都需要严格的把关,否则很容易为后续的应用带来风险隐患。

大模型究竟可以多大?

在大模型不断升级和成长的过程中,参数量和需要的算力也在逐渐的增大,所以很多人也在追问,大模型究竟可以多大?

贾皓文先从人工智能的概念拆解出发,他认为“人工智能”四个字,之所以“人工”在前面,是因为“智能”附加的那些能力本质上都是“人工”提取出来。当数据质量足够高、足够准确时,完全可以实现小模型对更高级的模型的“越级式吊打”,因此背后还是数据准确性的问题,如果真的有某家公司,或者有一些职业人群专门做高精准数据的采集,做没有任何人类偏好的、没有主观意识的数据采集,并将这些数据用于某个模型的训练,可能很小量级的模型,其内容生成质量会高于6B或者13B量级的大模型的内容生成质量,因此大和小并没有特别的倾向。

换言之,贾皓文认为,大模型的大小取决于数据质量,如果数据质量足够高,其实大模型的量级可能不会很大,但如果数据质量无法保证,需要深度学习的能力越强,大模型就只有更大。

何悄然认为,模型会变得越来越大。因为数据会越来越多,现在每天互联网上新产生的图片有30亿张,累积起来之后让模型去理解这些图片,理论上都要深度学习,用深度学习作为AI的核心,它的弊病就是拟合的数据越多,模型必须做的越大,因为模型容量大,才能拟合这些数据。但是数据太多了模型就必须做的更大,所以模型只会有更大,没有最大。

大模型技术_数据_数据猿直播-3

孙林君认为,当网上充斥着大量的AI生成的信息后,对模型产生的影响有这样一种可能,当大量的信息都是AI自己生成的情况下,然后它又来学习自己的东西,这就会造成一种退化,这种退化就是它把自己所产生的东西当成是正确的东西,又重新学习;也可以从性价比的角度出发,就是理论上来讲,当模型规模超级大,把所有数据都给它学习,也很有可能将来的 GPT 6、GPT7相对GPT5来说,性能没有明显的提升,这种情况下,从人的角度和使用的角度上来看,可能就会做相应的取舍。

孙林君的角度非常有趣,如果站在技术角度上看,大模型没有最大,只有更大,但是站在用户使用的角度看,或许随着大模型的级别不断升高,它的效率和性能提升不明显的时候,它的规模也就算到头了,或许从经济学的角度看,边际收益很低了,大模型的升级意愿就减弱了。

从三位嘉宾的观点来看,技术上大模型可以越来越大,这一点毫无疑问,但是如果从实际用途和经济效益考量,大模型的大小要取决于它的性能和所带来的效益。

如何应对大模型的“胡说八道”?

在初次使用大模型时,很多人都体会过大模型“胡说八道”的“可爱”回复,基本上任何一个大模型都会经过这样的阶段,甚至即便大模型提供的信息看似很靠谱,但有时候也经不住“深究”。所以我们该如何面对大模型提供的信息?究竟是该相信还是该质疑?

何悄然认为,分辨消息的真假最关键,至于来源何处可能并不重要。因为数据会不断的出现,所以模型一定会越做越大,模型越做越大,再加上模型的硬件成本进一步下降,训练框架进一步成熟之后,越来越多的公司都可能去做大模型,那模型多了之后,安全就是非常大的问题。理论上来说,很多不同版本的模型放在网上,它都可以发声、回应,对它们进行管控就是非常大的挑战,那现在对图片管理还比较容易,因为现在国内外都在强制要求AIGC的服务商、内容提供商,必须要在AI生成的图片或者视频里面加上它的数字水印,让它不可更改,但是文本管理就难了,很难知道文本内容是不是由AI生成。当然,或许人们也不需要分辨文本内容到底是人说的还是机器说的,只需要反哺归真,分辨信息到底是有害的还是有益的、是真的还是假的即可,至于它到底是谁说的,其实可能不是这么重要。

孙林君也认为,当人们甄别某些消息时,更多的是对消息的真伪更感兴趣,比如人工智能或者是一些手段所挖掘出来的信息,它反而可能会是一些很有价值的信息,可以辅助我们去做决策,做靠谱判断,从这个角度看,更多的还是应该放在消息的真伪上。

何悄然和孙林君对于大模型“胡说八道”的看法非常独特,很多时候大家都比较在意如何避免大模型生成虚假信息或者不实信息,而他们两位则认为,判断消息的真假更重要,不管它是由大模型产生的还是由其他人产生的,真实性比来源更重要,毕竟文本内容的管理难度太大了。

根据天眼查提供的数据,截至2023年10月9日,中国已发布的各类大模型数量超过100个,呈现出“百模大战”的态势。其中,百度、腾讯、阿里、商汤、华为等企业发布的大模型数量较多,智源研究院、中科院自动化所等研究机构也发布了部分大模型。根据智源研究院发布的《2022年中国人工智能发展报告》,截至2022年年底,全球已发布的小模型数量超过1000万个。其中,中国发布的小模型数量占全球的20%以上。

每一个模型都是一个行业的机会,都是一家企业的希望,模型的成功将帮助企业提升产品和业务竞争力,在竞争环境和行业生态位上行稳致远。

文:赢家 / 数据猿


来源:数据猿

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

百度发布首个量子领域大模型;微软计划造核能数据中心;ChatGPT将推出语音和图像功能丨每日大事件
百度发布首个量子领域大模型;微软计划造核能数据中心;ChatGP...
阿里计划在土耳其投资20亿美元;波兰一公司聘请人工智能CEO:广州市全面推行首席数据官制度丨每日大事件
阿里计划在土耳其投资20亿美元;波兰一公司聘请人工智能CEO:...
【直播预约中】 腾讯大数据 x StarRocks|构建新一代实时湖仓
【直播预约中】 腾讯大数据 x StarRocks|构建新一代实时湖...

我要评论

数据猿微信公众号
2023第七届上海AI大会暨医药和医疗创新峰会
2023深圳物联网展
人工智能博览会
FMW2023全球闪存峰值
2023世界农业科技创新大会暨世界农业科技博览会
返回顶部