解锁对象存储+AI,数据管理现代化快人一步
原创 放飞 | 2025-03-13 21:52
【数据猿导读】 数据存储领域正经历着一场深刻变革,AI成为了中心,正在重塑系统处理海量数据的方式。

数据存储领域正经历着一场深刻变革,AI成为了中心,正在重塑系统处理海量数据的方式。
过去,企业组织多依赖传统的SAN/NAS架构,但随着以PB为单位的非结构化数据的爆炸式增长,传统存储技术在成本与效率方面明显难以适应需求。
在软件定义存储(SDS)的架构体系下,基于对象存储的解决方案快速发展。SDS对于对象存储的性能、可靠性以及灵活扩展等都发挥着关键作用。而对象存储有望成为存储的主导技术,以满足企业AI日益复杂且庞大的存储需求。
对象存储借助API,通过HTTP或HTTPS协议来进行数据的读写操作。其系统将数据分散存储于多个硬件设备上,能自动处理数据冗余备份和扩展性难题,在大规模数据存储场景中展现出卓越性能。
市场调查发现,企业超70%的云原生数据都存储于对象存储中。对象存储强大的可扩展性、丰富的元数据等,为AI对数据的海量需求提供了有力支撑,正在革新AI模型的构建、训练及部署方式,成为AI驱动的新时代中数据存储的理想选择。
对象存储
AI和高级分析工作负载的基础
AI不仅基于数据运行,而且建立在数据之上。AI模型做出的每一个决策,发现的每一个见解,都来自为其训练和操作提供支持的庞大数据。
然而,随AI模型变得越来越广泛和复杂,与数据的交互方式带来了传统存储系统无法解决的挑战,不仅在于数据量庞,像GPT-4这样的模型要能处理数万亿个Token,而且还在于访问和管理数据的复杂性。
分散在分布式系统中的小文件以及对随机访问的需求凸显了AI的需求与最初为结构化、顺序工作流构建的基础设施功能之间的不匹配。
对象存储为AI对数据的渴望提供动力,其可扩展性、元数据丰富性和不变性改变AI模型的构建、训练和部署方式。
法规遵从促进了对象存储的发展。法规遵从要求组织在特定时间段内保留数字信息,包括电子邮件和文档等,要求IT基础设施必须以一种易于检索的格式集中存储海量数据。在此背景下,面向法规遵从的存储产品——对象存储应运而生。
与传统存储将数据作为文件存储到文件系统不同,对象存储把数据以对象形式存储于更扁平的层次结构中,使系统具备更强的可扩展性。同时允许用户以不可变方式存储数据,且其元数据集更丰富。受监管的行业,尤其是金融、电信等广泛采用了此类存储平台。
云服务上将对象存储从小众用途转变为如今广泛应用云存储。其中,Amazon S3已成为事实上的行业标准,为大量以数据为核心、基于云的新型应用打开了便捷之门。同时内容密集型组织借助不断涌现的对象存储技术,能够经济高效地在本地管理呈爆炸式增长的数据。
对象存储沿着公有云与企业本地存储两条截然不同的方向发展。在公有云领域,随着S3不断发展,其应用范围持续拓展,逐渐成为新型Web规模应用和大数据的基础。如今,S3客户数量已达数百万,存储对象约450万亿个。AWS持续投入创新,促使S3对象存储功能不断扩展,为数据湖仓一体、元数据等提供附加服务。
在2024年AWS re:Invent上,AWS正式发布Amazon S3表,同时推出Amazon S3元数据预览版。Amazon S3表能让S3对象成为Apache Iceberg中用于创建数据湖的表格数据,由AWS完全管理;Amazon S3元数据可自动生成与数据管理和信息相关的对象元数据。越来越多企业将AWS S3对象存储用于生成式AI等新工作负载,S3表和S3元数据服务将对象存储进一步融入关键工作负载。
与之形成对比的是,企业对本地对象存储平台的采用率较低。Enterprise Strategy Group的研究显示,约1/3的组织在一定程度上使用本地对象存储。尽管对于拥有大量非结构化数据,或无法、不愿使用公有云的用户而言,其使用量有所增加,但在常规企业中,对象存储仍非主流。主流应用,特别是对存储性能要求高的应用,大多运行在SAN、NAS或统一存储上。
在企业里,对象存储主要承担以容量为核心、注重持久性和低成本扩展而非性能的角色,常作为备份、存档、大规模数据湖等的存储库。当一些组织大规模部署含大量非结构化数据的AI时,倾向使用高性能文件存储,如并行文件系统,对象存储可能作为面向容量的底层混合存在,但尚未成为核心。
不过,本地对象存储正步入新的创新阶段,角色或将再次转变。有观点认为,提升性能后,对象存储可作为传统存储方法更具扩展性、易用性且成本效益更高的替代方案,在企业中发挥更大作用,甚至直接支持高性能AI工作负载,为基于文件系统的方法提供新选择。
对象存储正成为AI和高级分析工作负载的基础。MinIO公司最近发布的对象存储和AI的调查报告显示,企业超70%的云原生数据存于对象存储,预计两年内这一比例将升至75%。
对象存储呈现爆炸式增长,主要归因于AI支持、性能要求和可扩展性,AI计划对大规模性能的需求,使对象存储成为高效处理海量数据的理想选择。
企业使用对象存储的前三大场景分别是高级分析、AI模型训练和数据湖仓一体存储。在GenAI工作负载推动下,对象存储因其独特优势,契合这些工作负载对吞吐量性能、不变性和大规模存储的需求。
针对AI和机器学习工作负载,68%的受访者因担心公有云运行AI工作负载的成本,正考虑采用混合云,未来混合云方法的采用趋势日益明显。不过组织需谨慎权衡成本与绩效。
尽管AI支撑着对象存储的增长,但96%的受访者称面临AI带来的挑战,主要源于管理大量非结构化数据和保障大规模一致性性能的需求。IT领导者将安全和隐私(44%)、数据治理(27%)、云原生存储(25%)列为组织AI成功面临的三大挑战。
三大优势确立对象存储江湖地位
应用场景丰富多彩
传统的文件或块存储适用于事务性较强的应用,在处理AI和ML工作负载时显得力不从心。随着AI和ML项目在各行各业的快速扩展,企业对高效、灵活的存储解决方案的需求日益增长。对象存储因其独特的设计和功能,正成为AI和ML领域的理想选择。
首先,无与伦比的可扩展性。AI和ML模型的训练依赖于海量且多样化的数据,如图像、文本、结构化与半结构化数据等。这些数据的“数量”和“种类”是构建高效模型的关键。对象存储通过水平扩展架构,能够无缝支持数据存储的无限增长。
与文件和块存储的纵向扩展(通过增加单个节点的资源)不同,对象存储允许企业通过添加节点实现横向扩展,轻松应对数据量的激增。
此外,对象存储采用单个全局命名空间,支持跨多个地理位置的分布式部署,进一步提升了其扩展能力。这种灵活性使对象存储成为处理大规模AI和ML数据集的理想选择。
其次,强大的API支持。AI和ML工作负载通常涉及多种数据类型和复杂的数据处理流程,因此需要存储平台提供强大且灵活的API支持。对象存储,尤其是基于Amazon S3 API的设计,能够满足这一需求。标准的存储API支持丰富的功能,如版本控制、生命周期管理、加密、对象锁定和元数据操作等,使对象存储能够轻松适应AI和ML的多样化需求。
此外,存储API的标准化使得在公有云、私有云和本地环境之间无缝迁移AI和ML工作负载成为可能。例如,企业可以将本地训练的模型快速迁移到公有云进行扩展,或将在云中开发的应用部署到本地环境,而无需担心功能丢失。同时,主流ML平台(如TensorFlow和Apache Spark)已内置对存储API的支持,进一步加速了AI和ML社区的开发进程。
丰富的元数据能力。元数据(关于数据的数据)是AI和ML模型训练的核心。对象存储支持无限制、可自定义的元数据标签,使数据科学家能够为数据添加丰富的描述信息,如数据的来源、类型、创建时间等,对于查找和分析特定数据集至关重要,能够显著提升模型的训练效率和准确性。
相比之下,文件和块存储仅支持有限的元数据,无法满足AI和ML对数据深度分析的需求。如在医疗领域,对象存储可以为每张X光图像添加精细的元数据标签(如患者年龄、性别、受伤类型等),帮助训练更精准的图像识别模型,并从中获得新的医学见解。
对象的内容、元数据和唯一标识符是对象的组成部分
对象存储的主要应用场景包括:
机器学习数据存储。对象存储适合存储机器学习的训练数据集、中间处理数据和最终模型文件。以自动车牌识别系统为例,可保存用于训练模型的海量车牌图片及特征数据,优势是高度可扩展、持久且成本效益高,提供快速数据访问速度,提升模型训练和推理效率等。
数据湖构建。对象存储是构建数据湖的理想选择,能容纳管理海量结构化和非结构化数据。如企业用阿里云对象存储OSS构建数据湖,收集多源数据,供大数据分析工具访问分析,可存储多源数据,为数据分析提供基础,进而获得商业洞察、辅助决策。
数据分析。在对象存储中可收集存储几乎无限、任意类型的数据,进行大数据分析,能获取关于运营、客户和市场等的宝贵见解。
备份和灾难恢复,以及数据存档。对象存储因其持久性和可扩展性成为数据备份和恢复的首选。企业定期将重要文件和数据库备份到对象存储,数据丢失或损坏时可快速恢复。优势是能有效保障数据安全,减少业务中断时间。
对象存储适合长期数据留存,可取代本地磁带和磁盘存档一类基础设施。对象存储既能优化数据持久性、检索速度、安全性与合规性、可访问性,而且还可归档富媒体和监管数据,能获得高级分析及业务情报能力,以经济高效方式存储大量数据。
全球内容分发。对象存储与CDN紧密集成,实现媒体文件全球分发。如在线游戏公司将游戏更新和补丁文件存储其中,借助CDN分发,缩短用户访问延迟,确保全球用户及时获取内容。
静态网站托管。对象存储可存储和提供静态资源并作为Web服务器。如简单博客或公司介绍网站将静态文件托管在对象存储上,通过配置权限可直接访问,访问速度快、成本低。
云原生应用数据,以及支持富媒体应用。对象存储为云原生应用提供数据管理,满足其快节奏、灵活的需求。应用由微服务组成,对象存储支持组件间数据共享通信。这样用户可以添加任意数量内容,可以在任意位置访问,加快应用部署。
对于富媒体应用,对象存储可以加速应用,降低存储富媒体文件的成本,能够创建经济高效的全局复制架构,并能通过存储和复制功能将媒体交付给分布式用户。
创新技术引领对象存储发展
服务更多企业创新应用
为了满足AI、ML等场景的应用需求,企业如何选择对象存储的解决方案和服务商呢?目前,对象存储市场目前主要有三大类供应商,其解决方案丰富多彩,可供用户选择。
第一类云服务商。阿里云、腾讯云、亚马逊云科技(AWS)等云服务商是对象存储的主力军,也是对象存储业务发展的最大受益者。
阿里云对象存储OSS是可提供12个9的数据持久性,99.995%的数据可用性,并提供标准存储、低频访问存储、归档存储、冷归档存储和深度冷归档多种存储类型供选择,全面优化存储成本。
阿里云对象存储在客户端签名直传、服务端签名直传、微信小程序直传实践、支付宝小程序直传、云端图片处理、CDN加速访问、搭建在线教育视频课程分享网站、数据库备份、第三方数据源迁移到 OSS等方面都有成功实践。
正如前文所言,亚马逊云科技Amazon S3是一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能。各种规模和行业的客户都可以使用S3,来存储并保护各种使用场景如数据湖、网站、移动应用程序、备份和还原、存档、企业应用程序、IoT 设备和大数据分析等的数据,容量不限。
Amazon S3 提供管理功能,以便用户可以优化、组织和配置对数据的访问,以满足用户的特定业务、组织和合规性要求。
例如,Amazon S3 允许客户在云存储平台对数据运行复杂数据分析,不需要将数据提取并移动到单独的分析数据库。熟悉SQL的客户可以使用Amazon Athena在Amazon S3中按需分析大量非结构化数据;借助Amazon Redshift Spectrum,客户可以对Amazon S3中的数EB数据运行复杂的分析,还可对在Amazon S3和Amazon Redshift数据仓库中的数据运行查询。
腾讯云的GooseFS是一款分布式缓存加速服务,主要用于解决对象存储在AIGC、大数据分析等场景下的性能问题。它通过多级缓存调度、分布式缓存池以及自研元数据引擎,使数据访问吞吐量提升8 - 10 倍,存储带宽消耗降低了90%。目前,该技术已成功应用于蔚来、博世等企业,为大模型训练、自动驾驶等场景提供了有力支持。
腾讯云对象存储(COS)支持多种数据存储类型,包括标准存储、低频存储、归档存储等,满足不同业务场景的需求。用户可以通过简单的API接口或SDK工具将数据上传到COS,并实现数据的高效访问和管理。
第二类是IT基础设施供应商。IT基础设施供应商提供各种存储方案,而其对象存储方案为组织提供了一种传统存储的替代方案,帮助大规模数据湖、分析或AI计划等业务实现整体数据和存储架构的现代化。
浪潮信息的对象存储产品AS13000是面向企业级用户的高性能分布式存储系统,支持海量非结构化数据的存储和管理。AS13000采用分布式架构,支持多节点集群部署,提供高可靠、高性能的存储服务,适用于大数据、人工智能、云计算等场景。
AS13000应用场景多样,如适用于海量非结构化数据的存储和分析,如日志数据、用户行为数据等;适用于AI模型训练数据的存储和管理,如图像、视频、文本数据;适用于云平台的数据存储,如虚拟机镜像、容器数据;适用于企业数据的备份和归档,如历史数据归档、灾备数据存储,以及 多媒体存储与处理等。
HPE最近推出了其首个自主开发的对象存储平台,在全闪存架构上构建的 Alletra Storage MP X10000。针对高速数据湖以及更传统的用途,如备份和存档,HPE对象存储的系统的性能是竞争对手产品的6倍。
此外,HPE还与Nvidia 合作,在GPU内存、系统内存和X10000之间实现直接内存访问,将进一步增加系统的带宽,减少延迟并提高GPU利用率,使其更适合作为高性能AI应用的存储层。
Hitachi Vantara的最新对象存储产品VSP One Object 针对各种企业用途,涵盖S3原生分析、备份甚至高性能AI/ML数据湖工作负载。
第三类是存储初创企业。依靠SDS创新技术与软件,存储初创企业也独领风骚。
金山云和天翼云虽然是云服务商,但也推出了对象存储创新技术。金山云申请了基于分布式对象存储的数据存储方法专利,旨在解决存储空间资源浪费的问题。天翼云则申请了对象存储方法专利,通过多网关部署提高数据存储效率。这两项专利技术分别从不同角度对对象存储的性能和资源利用率进行了优化。
驿心科技与Hammerspace合作,推出了超大规模AI存储解决方案。该方案整合了软硬件优化技术,支持对象存储与文件存储的统一管理,能够为多模态AI工作负载提供自动化数据编排服务。
MinIO下载量超过15亿次,是很受欢迎的开源S3兼容对象存储系统之一。由于其将性能和简单性相结合,已被用于各种应用的数据的存储。
随着生成式AI的迅速发展,MinIO公司推出了AIStor。AIStor为对象存储添加了特定于AI的功能,包括与S3兼容的新API promptObject,允许用户与非结构化数据“对话”,以及AI模型的私有存储库,是Huggingface的替代品。AIStor还添加了支持新兴AI数据工作负载的新功能,如支持通过S3建立RDMA连接,以及使管理更轻松的新全局控制台。
对象存储企业Cloudian将其 HyperStore产品与Nvidia Magnum IO GPUDirect Storage技术集成,实现了Nvidia GPU和Cloudian存储节点之间的直接通信,在行业内尚属首次。通过以这种方式绕过CPU,该方案可以为训练和推理等AI工作负载提供高水平的并行吞吐量和可扩展性,而不会产生文件系统的复杂性,也不必在层之间迁移数据。
克服多重挑战
对象存储必将迈向发展的康庄大道
对象存储在AI和机器学习应用中也面临不少挑战。
首先,存储容量与云成本问题。对象存储需要大量容量来存储海量数据,云因此成为重要选择。但企业将对象存储用于AI时,必须考量云成本。由于对象大小各异,若在同一云服务商中存储大量对象,数据定位可能耗时较长,可能还会对网络带宽造成影响。
其次,云管理相关问题不可回避。组织在云中存储对象时,需要考虑云管理相关的成本、安全性以及服务级别等问题。而现场存储虽不存在这些问题,但即便对对象进行数据压缩,所需的存储量仍可能导致高昂的存储成本。
此外,对象版本管理难题与对象安全问题也不容忽视。在AI/ML应用中,数据是主要考量因素。当多个用户处理同一对象时,可能会创建出不同版本,每次对象更改都会自动生成新对象,使得选择使用哪个版本的对象成为挑战。组织还必须关注对象的安全性,明确授予哪些用户访问权限。
未来,对象存储将与AI和机器学习深度融合。随着AI和ML技术的普及,对象存储因其处理海量非结构化数据的能力,正成为训练和部署模型的核心基础设施。其丰富的元数据支持和强大的API将进一步推动AI/ML应用的发展。
对象存储在多云和混合云中将加速部署,并将扩展到边缘计算。对象存储的标准化API使其在多云和混合云环境中无缝迁移和扩展成为可能。企业将更多采用跨公有云、私有云和本地环境的混合存储架构,以提升灵活性和成本效率。
同时随着边缘计算的兴起,对象存储将扩展到边缘节点,支持实时数据处理和低延迟访问,满足物联网和5G应用的需求。
对象存储将增强智能存储与自动化管理功能。对象存储将集成更多智能功能,如自动分层存储、生命周期管理和智能数据分析等,帮助企业优化存储资源,降低运营成本。
同时对象存储将强化数据安全与合规性,将加强加密、访问控制、对象锁定等功能,确保数据的安全性和合规性,满足企业对数据保护的更高要求。
对象存储的角色正随着市场发展不断演变,为组织提供了一个新的替代方案和战略机遇。
无论是数据湖、AI还是边缘计算,对象存储都在推动数据架构现代化,成为未来数据管理的核心支柱。
来源:数据猿
刷新相关文章
我要评论
不容错过的资讯
大家都在搜
