数据复制低头不语,做好大模型时代的幕后英雄丨数据猿专访
原创 俊驰 | 2024-08-27 15:45
【数据猿导读】 深入探讨数据复制如何在新技术浪潮中重塑行业格局,数据猿特别专访了英方软件战略部技术总监崔立达,跟他探讨数据复制与大模型的共生关系,及其对大模型和数据复制行业所带来的影响。
8月23日,数据复制行业的唯一上市企业英方软件发布了半年度业绩报告。财报显示,2024年上半年,公司实现营收8357.25万元,同比增长2.84%;研发投入5140.02万元,占营业收入比例达61.50%,同比增加26.51%。英方软件加大对人工智能的投入,并积极拥抱全球化。重大的技术革命与企业发展的重要节点形成交汇,共同推动着数据复制这一重要业务领域焕发新的生命。
为深入探讨数据复制如何在新技术浪潮中重塑行业格局,数据猿特别专访了英方软件战略部技术总监崔立达,跟他探讨数据复制与大模型的共生关系,及其对大模型和数据复制行业所带来的影响。
命运的齿轮开始转动:数据复制迎头碰上大模型
如果说什么是当下最大的技术革命,那一定非大模型莫属。大模型带来的不仅是技术层面的革命和颠覆,由于其运作逻辑是建立在对人类大脑神经网络的模拟之上,大模型在某些层面展现出“生命”的属性。
这使得人们对于生命的概念有了新的认知,传统生物学中,生命通常被认为是由DNA和蛋白质构成,具有新陈代谢、生殖发育、遗传演化等一系列性状的自然系统。随着人工智能的飞速发展,物理学家薛定谔重新对生命进行了定义,他认为生命是一个能量-信息耦合的负熵系统。这一定义跨越了生物和机械的边界,越来越多的人开始接受这样一个事实:这个世界是碳基生物和硅基生物共同组成的。
马斯克甚至发表了一个暴论,碳基生命是硅基生命的引导程序。
不论是硅基生命还是碳基生命,他们的终极使命就是复制。碳基生命生物秘密的复制依赖DNA,作为人类基因的载体,DNA通过复制、转录和翻译等过程,实现了遗传信息的传递和蛋白质的合成,保证了人类的遗传信息能够稳定地传递给下一代。
对于硅基生命而言,数据就是它的DNA。数据具有可复制性的“天然属性”,二进制代码就是它的基因组。数据通过复制、加工、传播,构成了硅基生命体系下的“遗传密码”。ChatGpt大约学习了5000亿个单词,这些数据浓缩了人类几千年来群星闪耀的时刻。当数据与人工智能巧妙地结合在一起,硅基生命具备了向更高维度进化和升级的力量。
在数字革命闪烁的灯光下,数据复制从来都不是舞台中最耀眼的角色,长久以来只是被用于灾备或者数据流动,扮演一个不可或缺的幕后角色。
而随着大模型时代的加速到来,数据复制命运的齿轮开始转动,它的价值像滚动的雪球一样,裹上了新的雪衣。由此带来的,一个关于数据复制和大模型共生、共进的新剧情缓缓拉开大幕。
数据复制与大模型走向共生
在生物学中,共生关系是两种生物之间按照某种模式互相依存和相互作用,形成共同生存、协同进化的自然现象,是塑造生态多样性的重要机制。
数据与大模型之间就是这样一种共生关系,数据复制就是维护好这种共生关系的一个重要桥梁。
这样的关系由数据复制和大模型的技术逻辑和底层架构所共同决定的。英方软件战略部技术总监崔立达表示:“大模型的技术内核是一个巨大的深度学习神经网络,它的运行依赖规模化数据的持续性训练,与数据形成稳定的交互。只有把准确、可靠、安全的数据源源不断输送给大模型,大模型才能发挥作用。所以说,数据复制是大模型发展的重要基石之一。
同时,大模型是建立在分布式架构之上的系统,数据复制也是分布式系统的产物,它是在由两个或者多个数据库系统构成的一个分布式数据库环境中拷贝数据的过程。
可以说,数据复制与大模型是在同一个技术土壤中生长起来的,两者天然就有很强的适配性,这为两者的共生提供了物理前提。”
那么数据复制到底能为大模型带来了什么?
1、提高数据训练和共享效率
大模型通常需要处理海量的数据,这些数据如果集中存储,可能会导致单点故障和访问瓶颈。数据复制可以将数据存储在多个节点上,让大模型就近取数,就近训练,大大加强了数据的流动性,提高了训练效率。
同时,数据复制使得数据可以在多个节点之间实现共享。这使得大模型可以同时在多个节点上进行数据处理和分析,这不仅有助于强化数据的交互和协作,还能提高整个系统的协同工作效率。
2、多模态数据的融合
随着OpenAI发布视频生成模型Sora,多模态成为了大模型的主要应用形态。多模态意味着大模型要处理大量的结构化数据和非结构化数据,如文本、图像、音频等。数据复制可以实现多模态信息的融合和联合处理。这将有助于大模型更全面、更及时地理解最新数据,提高模型的准确性和适应新环境的能力。
3、跨平台的大数据迁移
随着大模型产业化落地的加速,数据的跨平台迁移越发频繁。崔立达举了一个案例:在自动驾驶的场景下,我们经常可以在一些封闭的园区或者固定的路段上,看到一些自动驾驶的训练车辆。这些车辆需要大量收集行驶数据,这些收集的数据存放在车载的存储系统里,然后再从车载的存储系统导入到后台,通过这种方式来进行数据转移。这个时候,如果数据复制的技术足够好,结合5G,或者控制中心的网络,就直接能够完成数据的跨平台复制,省去车载存储这一个中转地。
更进一步,不只是数据的跨平台复制。在不远的将来,也许我们能直接将训练好的模型复制、迁移到新模型之中,省去新模型数据训练的过程。
当然,除了这些好处之外。数据复制的“传统艺能”,灾备和安全冗余对大模型也非常重要。大模型通常需要持续运行,对数据的可靠性和稳定性有很高的要求。
崔立达说:“客户用于大模型的数据,很多都是有价值的机密数据,这些数据一般都存放在客户的数据中心。但是,我们不能把所有的鸡蛋放在同一个篮子里。这些关键数据需要进行同城或者是异地的保护,通过数据复制将每一份数据摆放在不同的位置,提高安全等级。这是永远都不会变的理性决策。”
这是数据复制为大模型带来的促进作用,那么大模型又为数据复制带来了什么呢?
大模型对于数据复制技术的影响主要体现在以下几个方面:
1、优化数据处理流程
大模型能够优化数据复制过程中的数据处理流程。例如,在分布式存储系统中,大模型可以智能地调度数据复制任务,根据当前系统的负载情况和节点的状态,选择最优的复制路径和复制策略,从而减少数据复制过程中的等待时间和数据传输量,提高数据复制的效率。以往,这些工作需要经验丰富的工程师来完成,大模型将大大提高自动化处理能力,解放人力。
2、优化数据复制网络系统
基于不确定的网络条件,在带宽控制方面,大模型可以实现更加智能化和自动化的调整,从而提高数据传输效率。
3、智能调度和负载均衡
大模型具有智能调度和负载均衡的能力,可以根据系统的实时状态和资源使用情况,智能地分配数据复制任务给不同的节点或处理单元,避免某些节点或处理单元过载而导致性能下降。提高数据复制的效率。
4、端到端的优化
大模型还可以从端到端的角度对数据复制过程进行优化。这包括从数据源到目标存储的整个过程中的各个环节,如数据提取、转换、加载(ETL)等。通过优化这些环节,大模型可以确保数据复制过程的高效性和准确性,从而提高整体的数据复制效率。
冲破四大挑战
尽管数据复制与大模型的共生共融,是发展的必然。但是在实际应用场景中,有很多拦路虎横亘在路旁。
崔立达表示,数据复制与大模型的共生发展,在技术、应用、市场和用户四个层面遇到了诸多挑战。
1、技术层面:
一致性。由于数据复制会在不同的节点上存在多个数据副本,确保这些副本数据的一致性,是大模型可靠运行的前提。
实时性。数据实时复制需要花费大量的带宽和时间,并且会增加系统的延迟。崔立达举了一个形象的例子:“就像股票交易,看历史K线不能用来指导当下的获利。大模型需要更加实时的数据,这对数据复制是一个巨大的挑战。”
安全性。在数据复制的过程中,保证数据安全以及隐私,是一个巨大的挑战。而数据安全不仅是技术的问题,同时也需要一套完整的法律体系支撑。
2、应用层面:
面对应用端不断升级的操作系统、数据库和云平台,以及由于信创带来的大批国产化系统。我们需要找到通用型的数据复制方式,解决兼容性问题。只有做到无限兼容,才能在市场竞争中得到客户的信任。
3、市场层面:
当前数据复制市场的竞争非常激烈,这是一个由甲方市场主导的竞争环境,客户的需求有时会比较严格,这对于技术提供方来说,面临着巨大的压力。
而且近年来,产品同质化竞争、价格战越演越烈,给企业经营带来了不小的压力。一些中小厂商为了拿到行业入场券,会选择用牺牲技术配置、拉低价格的策略。导致市场价格的失灵,进而也会导致技术创新的失速。在越发同质化的竞争环境下,一些企业为了博得用户的垂青,往往会对客户过渡许诺。但当客户真正购买产品后,发现距离自己的期待相差甚远。久而久之,对行业的整体发展会产生极为不利的影响,并且最终受到伤害最大的还是客户。
4、用户层面:
用户需求的多样化。对于数据复制,不同位阶、不同岗位的人有不同的诉求和理解,领导主要关注管理和运营的环节;中层的聚焦点在于产品是不是能带来价值;而对于运维部门的人员来说,产品是不是使用简单、容易上手则是最重要的事。
崔立达表示:“这些需求必然会传导到产品的设计之上,要考虑定时备份、实时备份以及容灾等功能,目前我们的产品中有70%以上是标准化产品,极少数是定制化产品。同时,对于特殊客户我们还会提供咨询服务,提供一个量身定制的落地方案,从0到1帮助它构建整个系统。这个时候,我们提供的就不仅是方案,而是一种答案。”
面对这些挑战,崔立达以英方软件自身的实践和视角出发,提出了一些应对之道。
1)优化数据复制的算法。通过优化算法保证数据的一致性,进而提高模型的准确性。
2)隐私保护。英方软件将加密技术、访问控制等技术应用到数据复制,全链路地保证数据安全。
3)智能管理。英方软件通过界面的形式,利用AI技术对于数据复制流进行统一的监测和管理,大大提高全流程管理效率。
面向未来 更强的大模型、更安全的数字时代
数据复制与大模型融合发展充满了无限想象,英方软件跨越了数据复制的三个阶段,从数据复制,到跨集群的大数据平台实时复制,再到系统复制,生动地演绎了数据复制与人工智能协同进化的历史。
如今,历史的指针指向了大模型时代。在今年的WAIC 2024上,英方软件发布新一代 AI+ 文档共享和管理平台i2Share,以其专业的数据复制与保护技术,展示了在AI+数据管理方面的领先实力。
通过先进的数据复制保护技术和产品方案,英方软件实现产品从AI基础设施层到应用层的数据连接与灾备守护,确保了数据在流动中的安全性、完整性和可用性。无论是云计算环境的灵活迁移,还是大数据平台的深度整合,亦或是AI模型训练与推理过程中的数据支撑,英方软件都能提供高效的数据管理方案,助力用户跨越数据孤岛,加速数据的流通、共享和交换。
数据复制能力的升级,势必将带来更强的大模型,更节省的计算成本,更安全的数据环境。
英方数据在数据复制的细分领域,经过了十几年的沉淀,成为了国内业界第一家上市企业。崔立达表示,“大模型将会加速数据复制的发展,数据复制的市场在几年内将会形成一个稳定的竞争格局。在国内站稳脚跟后,我们正在把视野投向了海外市场。以香港为桥头堡,我们目前已经成立了全资子公司。出海的第一站我们选择了东南亚和中东,这是“一带一路”战略的前沿地带,是国家力量的重要投射之地。”
“海外市场和国内市场有巨大的差异,但因为以前的研发积累,英方的产品具有很好的兼容性和适应性,对国内外基础软硬件产品都可以快速适配,目前已经在印尼、印度及中东、北非等地区落地项目。”崔立达非常坚定自家的产品在海外市场的发展前景。
来源:数据猿