人工智能正在改变行业的每一个角落。机器学习算法正在优化全球物流,而像 ChatGPT 这样的生成式 AI 工具正在重塑日常工作和沟通。根据 Statista 的数据,预计到2030年全球人工智能市场将达到8260亿美元。尽管这种增长正在重塑每个行业的组织的运营和成果,但它也给管理 AI 工作负载的基础设施带来了重大挑战。
AI 接入的快速增长
AI 已经从科幻小说走向现实,并且迅速成为商业战略以及许多行业发展方向的关键因素。Gartner 报告称,70%的企业高管正在积极探索为他们的组织采用生成式 AI,麦肯锡强调,72%的公司已经在至少一个业务功能中采用了 AI。
以下是一些 AI 如何改变行业的例子:
-
医疗保健:AI 驱动的诊断工具将疾病检测率最高提高了30倍,而药物发现的时间线则从数年缩短到数月。
-
零售:电子商务平台使用 AI 来提供个性化推荐,从而实现了5%到25%的收入增长。
-
制造业:AI 在预测性维护中的应用可以帮助提高25%的生产力,降低25%的维护成本,并减少70%的机器停机时间。
AI 是一个强大的工具,无论在哪里使用都能带来深远的影响。但它需要一个复杂的基础设施,包括电力分配、冷却系统、计算、GPU、服务器和网络设备,而最大的挑战在于管理这个基础设施。
AI 独有的基础设施挑战
AI 环境复杂,工作负载资源密集又对延迟敏感。这意味着组织面临着一些 AI 独有的挑战:
-
能源需求飙升:AI 机架需要的功率在40千瓦到200千瓦之间,是传统 IT 设备的10倍。在 AI 数据中心实现能源效率是首要任务,尤其是在数据中心占全球电力消耗1%的背景下。
-
停机成本:AI 系统特别容易受到中断的影响,这可能会产生连锁反应并推高成本。根据 Uptime Institute 的估计,单台服务器故障可能会破坏整个模型训练过程,导致企业每分钟停机成本高达9000美元。
-
网络安全风险:AI 处理敏感数据,使数据中心成为被攻击的主要目标。Sophos 报告称,2024年,59%的组织遭受了勒索软件攻击,恢复的平均成本(不包括赎金支付)为273万美元。
-
运营复杂性:人工智能环境依赖于多种硬件和软件系统。有效监控和管理这些组件需要实时了解热条件、湿度、颗粒物以及其他环境和设备相关因素。
带外管理在 AI 中的作用
带外(OOB)管理是组织扩展其 AI 能力的必备条件。与依赖生产网络的传统带内系统不同,OOB 独立运行,为团队提供不间断的访问和控制能力。即使生产网络离线,他们也可以远程执行对 AI 基础设施的监控和维护、故障排除以及完整的系统恢复等任务。
带外管理如何解决关键挑战:
-
最小化停机时间:有了OOB,IT 团队可以通过远程故障排除大幅减少停机时间,而不是派遣团队到现场。
-
能源效率:实时监控和优化电力分配使组织能够消除僵尸服务器和其他低效设备。
-
增强安全性:OOB 系统按照 CISA 的最佳实践建议,将流量管理与生产网络隔离,从而减少攻击面并降低网络安全风险。
-
提高运营效率:通过 OOB 进行远程监控,可提供环境条件和设备健康状况的完整视图,因此团队可以主动操作并在故障发生之前解决问题。
带外管理在 AI 中的用例
AI 的用例不胜枚举,但组织常常忽视在其环境中实施带外管理。除了在数据中心使用 OOB 外,以下是带外管理在 AI 中的一些真实案例。
- 自动驾驶
自动驾驶技术的开发者发现管理其高密度人工智能集群非常困难,尤其是因为停机会延迟测试和开发。通过实施带外管理,这些开发者可以将恢复时间从数小时缩短到数分钟,并缩短开发时间。
- 金融服务公司
银行部署 AI 以检测和打击欺诈,但这些耗能的系统常常导致数据中心能源使用效率低下。通过带外管理,他们可以深入了解 GPU 和 CPU 的利用率。这样不仅可以消除能源浪费,还可以优化资源以提高模型处理速度。
- 大学 AI 实验室
大学在超级计算机上进行人工智能研究,但这也给底层基础设施带来了高温度的负担,可能会导致故障。带外管理可以提供对空气温度、设备风扇速度和冷却系统的实时可见性,以预防基础设施故障。