珠海社区

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz

小编推荐

查看: 23803|回复: 0

占预算仅20%,却是影响算力性能的关键

[复制链接]

136

主题

136

帖子

570

积分

高级会员

Rank: 4

积分
570
发表于 2024-2-27 17:45:01 | 显示全部楼层 |阅读模式


戴尔科技解决方案架构师林小引

ChatGPT迅速火爆全球后,人工智能进入了“暴力美学”时代。所谓暴力美学就是我们把模型的架构做到了超大规模,把算力的需求做到超大规模,训练的数据做到超大规模。

如果说算力是人工智能发展的引擎,那么数据就是人工智能发展的燃料。AI应用的核心是高质量数据,数据的质量又决定着算法的性能、泛化能力和应用效果,而高质量数据的得到又与存力(即数据存储能力)息息相关,存力是释放数据价值必不可少的关键因素



但目前,从业界AI项目的建设情况看,“重算力、轻存力”的现象较为明显,大部分用户非常看重GPU等算力资源的部署,却往往忽视了存力建设的重要性

其实按照英伟达的官方资料显示:一个AI数据中心购置预算的构成中,存储仅占20%。但恰恰是这20%的存储往往成为限制AI算力性能和AI团队效率发挥的瓶颈。



那么今天,我们就来谈一谈用于人工智能的存储该如何选型。而在选型之前,我们不妨先来了解一下深度学习的数据流是怎样的?以及对存储有哪些挑战?

深度学习的数据流



以AI的训练为例,首先,外部数据经过收集后,会注入到原始数据的存储中。在这里,数据会经过大量的数据清洗、数据转换、数据增强、数据标准化、数据打标签等数据预处理工作,然后通过元数据管理、数据分片等数据组织工作将预处理数据转换为训练数据

算力集群分批读取训练数据馈入AI模型的神经网络,经过一系列的前向传播、反向传播、梯度下降来训练模型,并通过对模型性能的评估来进行迭代,这其中包括改变模型参数、调整模型架构或者更换优化器等,最终得到一个预训练模型并保存在模型仓库中。

在这个过程中,通常需要耗费大量的时间和计算资源。由于训练时间较长,如果训练过程中出现异常或不得已而中断了训练,通常使用checkpoint来保存当前的模型状态,以便在下一次训练时,可以从这个保存的状态继续训练,而不需要从头开始。

此外,在一些特定场景或者计算资源不足的情况下,还可以直接对预训练模型做微调,此时需要少量的有标签微调训练数据。那么在这样一个复杂的流程和海量数据规模下,如何对AI存储进行选型呢?

AI存储选型的挑战

挑战一

存储性能“卡脖子”

AI存储选型的第一大挑战就是存储性能不能成为瓶颈。

在以上流程中,预处理数据的存储和训练数据的存储是对性能要求最高的。如果这两部分的存储性能不够,会导致算力集群中的GPU和CPU资源利用率降低。而算力成本占据了整个数据中心成本的70%,算力利用率的降低就是对资源极大的浪费。

戴尔科技集团的PowerScale存储在支持人工智能应用的高性能方面具有多个特性,这些特性使其成为AI工作负载的理想选择。具体来说:

1、增强的AI性能:PowerScale通过与NVIDIA DGX SuperPOD的验证合作,增强了OneFS软件的功能,使得企业能够更快地准备、训练、微调和推理AI模型。同时PowerScale将是唯一一个经过NVIDIA DGX SuperPOD验证的以太网存储。

2、高性能存储:PowerScale节点提供了高性能存储,特别是NVMe PowerScale节点,这为需要快速读写大量数据的AI应用提供了强有力的支持。并且,PowerScale通过了NVIDIA GPU Direct Storage认证,该存储与GPU直通功能,可在存储和GPU之间直接进行数据传输并提升2-8倍的带宽, 降低3.8倍的端到端延迟,同时减轻了AI服务器CPU和内存的消耗。

3、高度弹性:PowerScale具备高度弹性,能够根据企业的需求伸缩自如,简捷如一。这意味着它可以根据AI工作负载的变化动态调整资源,保持高效的运行状态。

4、智能横向扩展功能:PowerScale具有智能横向扩展功能,有效地分配资源,帮助客户在集群中获得最优化的性能,这对于需要处理大规模数据集的AI应用尤为重要。





挑战二

存储架构太复杂

AI存储选型的第二大挑战是存储不能太复杂,需要尽可能简化数据流动过程中存储的处理。

我们可以看到AI数据的存储有很多个,包括原始数据存储、预处理数据存储、训练数据存储等,有的AI场景甚至还会包括一些辅助工具所需的存储,比如RAG应用中向量数据库的存储,数据预处理(如Spark)和大数据分析(如Hadoop)使用的HDFS/S3存储等。

在现实中,一方面,数据科学家团队和数据工程师团队往往会按照自己的需求采购存储。而另一方面,按照英伟达建议的AI数据存储架构,存储是按照存储容量和性能进行分级的



当以上两个因素叠加起来,往往就会形成多个数据存储竖井——不同品牌、不同种类的存储混杂在企业内部,而这种混杂带来几个维度上的复杂性:

数据管理

相同的数据在不同的存储中存放的位置不一致

数据治理环节需要管理多个元数据

存储效率

无法跨越多个存储进行全局统一的冷热自动分层调度

无法跨越多个存储实现全局统一的数据去重

如果存储有压缩功能,数据每进出一次存储就会有一次压缩/解压缩,跨多个存储调度数据需要多次进行压缩/解压缩,浪费存力

存储运维

不同的项目组对数据的访问权限不同,需要对多个存储设置相关访问权限

跨越多个存储无法实现统一的快照策略,需要单独维护每个存储的快照策略

跨越多个存储无法实现统一的数据容灾保护,需要单独为每一个存储提供复制保护



作为横向扩展文件存储系统,Dell PowerScale通过OneFS操作系统,可以为不同类型的AI数据提供统一数据湖支持:包括统一的数据管理和命名空间、统一的多组合和权限控制、统一的元数据管理、统一的基于策略驱动的冷热自动分层、统一的在线数据去重压缩功能、统一的数据快照、复制功能。

并且,Dell PowerScale还提供了多协议支持,可以满足人工智能中不同数据源和应用程序的需求,同时简化了数据的管理、提升了存储的效率并降低了运维的成本。

挑战三

存储安全要保证

AI存储选型的第三大挑战是存储需要安全可靠,能提供对关键数据资产的安全可靠保护。

在AI场景下,有几类数据资产是非常宝贵的:

高成本的训练数据

长周期训练的Checkpoint

高价值的AI模型成果

Dell PowerScale在保护数据安全方面具备多种特性:首先,PowerScale提供了内置的安全功能,包括数据加密、访问控制和安全审计等。这些功能可以保护数据免受未经授权的访问和泄露,确保数据的机密性和完整性。

其次,PowerScale还具备强大的容灾和恢复能力。它可以通过快照和克隆等技术,实现数据的快速备份和恢复。同时,PowerScale还支持远程复制和同步,可以在不同地理位置之间实现数据备份和容灾,确保数据的安全性和可用性。此外,PowerScale还提供了多租户功能,可以实现不同租户之间的数据隔离和安全控制,以满足多用户环境下对数据安全性和隔离性的需求。

最后,PowerScale还支持安全协议和标准,如SSL/TLS等,可以与各种应用程序和系统无缝集成,确保数据的安全性和可靠性。



除了传统的数据安全保护机制外,针对时下非常疯狂的勒索病毒攻击,Dell PowerScale也提供数据避风港保护方案来防护人工智能数据。



总结来看,Dell PowerScale存储在人工智能中可以发挥关键作用,尤其是在处理大规模非结构化数据和提高AI工作负载效率方面,PowerScale具备以下六大优势:

1、处理非结构化数据:随着数据量的爆炸性增长,其中大部分数据为非结构化数据。PowerScale存储系统专为处理这类数据而设计,能够有效地管理和存储大量的非结构化数据。

2、提升AI工作负载效率:PowerScale存储系统具有低延迟、高吞吐量和大规模并行I/O的特点,这些特性使其成为GPU加速计算的理想补充,能够有效压缩针对多PB数据集训练和测试分析模型所需的时间。

3、支持AI工作负载:戴尔科技集团致力于消除数据访问瓶颈,提供快速、高效且安全的数据访问技术,使得PowerScale成为适用于一般AI工作负载的存储优化型产品。

4、性能提升:基于最新一代PowerEdge服务器打造的新款PowerScale全闪存存储系统,将流式读取与写入性能提升达到2倍,这对于需要高速数据处理的AI应用来说是一个重要的优势。

5、满足人工智能中不同数据源和应用程序的需求:PowerScale支持多种文件协议、对象访问协议和大数据访问协议,可以与不同的操作系统和编程语言进行无缝集成,从而方便了不同用户对数据的使用和管理。

6、出色的数据安全性和可靠性:由于人工智能的数据涉及到许多敏感信息和隐私,因此需要保证数据的安全性和可靠性。PowerScale采用了多种加密和安全措施以及勒索病毒防护解决方案,可以确保数据的安全性和隐私保护。同时,PowerScale还具备高可用性和容错能力,可以保证数据的可靠性和稳定性。

综上所述,Dell PowerScale存储系统通过其高性能、高效率和专为AI优化的设计,能够在人工智能领域中发挥重要作用,帮助企业和研究机构更好地存储、管理和分析大量数据,推动AI技术的发展和应用。


回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则