推理创新:人工智能行业如何降低推理成本

April 18, 2024

Why managing AI risk presents new challenges

Aliquet morbi justo auctor cursus auctor aliquam. Neque elit blandit et quis tortor vel ut lectus morbi. Amet mus nunc rhoncus sit sagittis pellentesque eleifend lobortis commodo vestibulum hendrerit proin varius lorem ultrices quam velit sed consequat duis. Lectus condimentum maecenas adipiscing massa neque erat porttitor in adipiscing aliquam auctor aliquam eu phasellus egestas lectus hendrerit sit malesuada tincidunt quisque volutpat aliquet vitae lorem odio feugiat lectus sem purus.

  • Lorem ipsum dolor sit amet consectetur lobortis pellentesque sit ullamcorpe.
  • Mauris aliquet faucibus iaculis vitae ullamco consectetur praesent luctus.
  • Posuere enim mi pharetra neque proin condimentum maecenas adipiscing.
  • Posuere enim mi pharetra neque proin nibh dolor amet vitae feugiat.

The difficult of using AI to improve risk management

Viverra mi ut nulla eu mattis in purus. Habitant donec mauris id consectetur. Tempus consequat ornare dui tortor feugiat cursus. Pellentesque massa molestie phasellus enim lobortis pellentesque sit ullamcorper purus. Elementum ante nunc quam pulvinar. Volutpat nibh dolor amet vitae feugiat varius augue justo elit. Vitae amet curabitur in sagittis arcu montes tortor. In enim pulvinar pharetra sagittis fermentum. Ultricies non eu faucibus praesent tristique dolor tellus bibendum. Cursus bibendum nunc enim.

Id suspendisse massa mauris amet volutpat adipiscing odio eu pellentesque tristique nisi.

How to bring AI into managing risk

Mattis quisque amet pharetra nisl congue nulla orci. Nibh commodo maecenas adipiscing adipiscing. Blandit ut odio urna arcu quam eleifend donec neque. Augue nisl arcu malesuada interdum risus lectus sed. Pulvinar aliquam morbi arcu commodo. Accumsan elementum elit vitae pellentesque sit. Nibh elementum morbi feugiat amet aliquet. Ultrices duis lobortis mauris nibh pellentesque mattis est maecenas. Tellus pellentesque vivamus massa purus arcu sagittis. Viverra consectetur praesent luctus faucibus phasellus integer fermentum mattis donec.

Pros and cons of using AI to manage risks

Commodo velit viverra neque aliquet tincidunt feugiat. Amet proin cras pharetra mauris leo. In vitae mattis sit fermentum. Maecenas nullam egestas lorem tincidunt eleifend est felis tincidunt. Etiam dictum consectetur blandit tortor vitae. Eget integer tortor in mattis velit ante purus ante.

  1. Vestibulum faucibus semper vitae imperdiet at eget sed diam ullamcorper vulputate.
  2. Quam mi proin libero morbi viverra ultrices odio sem felis mattis etiam faucibus morbi.
  3. Tincidunt ac eu aliquet turpis amet morbi at hendrerit donec pharetra tellus vel nec.
  4. Sollicitudin egestas sit bibendum malesuada pulvinar sit aliquet turpis lacus ultricies.
“Lacus donec arcu amet diam vestibulum nunc nulla malesuada velit curabitur mauris tempus nunc curabitur dignig pharetra metus consequat.”
Benefits and opportunities for risk managers applying AI

Commodo velit viverra neque aliquet tincidunt feugiat. Amet proin cras pharetra mauris leo. In vitae mattis sit fermentum. Maecenas nullam egestas lorem tincidunt eleifend est felis tincidunt. Etiam dictum consectetur blandit tortor vitae. Eget integer tortor in mattis velit ante purus ante.

寻找降低推理成本的方法可能是企业在实施人工智能战略时面临的最关键挑战。

在人工智能生命周期中,训练模型的过程是一项巨大的资本支出,其特征通常是在规定的时间段内对计算和数据有大量的需求。但是,推断(这些经过训练的模型的应用)代表了经常性运营成本,由于其持续性质,该成本可能很快超过初始培训费用。

人工智能行业了解这一挑战,这就是为什么专注于降低人工智能推理成本的解决方案提供商之间存在激烈竞争的原因。这一进展使人工智能技术得以在各个行业中更广泛、更频繁地部署,从而使包括预算有限的初创公司在内的更多企业可以使用人工智能。这种协调一致的努力不仅为能够占领市场份额的解决方案提供商带来经济利益,而且还刺激了硬件和软件开发方面的技术创新,这对于可持续和包容地推进人工智能应用至关重要。

推理成本的技术驱动因素

模型的架构复杂性,包括神经网络的深度和广度,直接影响推理成本。具有更多层次和参数的更复杂模型不仅需要更多的内存,还需要更多的计算能力来处理每个推理请求。

FLOPS 要求

  • 计算强度:人工智能模型,特别是 GPT-4 或 Llama-2 等深度学习模型,需要大量的计算能力,以 FLOPS 为单位进行测量。该指标表示系统每秒可以执行的浮点运算次数,这对于确定运行此类模型的可行性和成本至关重要。
  • 成本影响:推理成本在很大程度上受模型的 FLOPS 要求的影响。更高的 FLOPS 表示每秒计算更复杂,从而增加计算资源和能源的使用,这反过来又增加了运营成本。

按申请划分的处理成本

在人工智能应用的背景下,文本、图像和视频等不同数据类型的推理成本差异很大,这主要是由于数据复杂性和处理要求的差异。

  • 文本处理:基于文本的推理主要依赖于令牌处理,其中每段文本(单词或单词的一部分)都是标记。由于数据结构不那么复杂,与图像或视频相比,每单位数据的文本计算成本通常更低。但是,文本的长度和模型的参数大小会增加所需的 FLOPS,从而影响成本。例如,与高分辨率图像分析相比,在 GPT-4 等模型上处理 512 个令牌输入所需的计算资源可能要少得多,这使得文本推理在计算需求方面的成本通常更低。
  • 像素处理:对于图像和视频处理模型,成本由分辨率和要处理的像素数据量决定。更高分辨率的图像和视频自然需要更多的计算能力来进行分析,从而增加了所需的FLOPS,从而增加了成本。
  • 图像/视频生成:对于图像生成任务(用于数字艺术生成、医学成像和虚拟设计等应用),计算成本主要取决于所生成图像的分辨率和复杂性。视频生成增加了复杂性和成本,因为它本质上涉及每秒生成多个图像(帧)。例如,生成 1080p 分辨率和每秒 30 帧的 10 秒视频片段的要求和成本要高得多,因为处理多达 300 个帧的计算负载会成倍增加。该过程不仅将计算负载乘以每秒生成的帧数,而且还增加了与时间一致性和帧插值相关的成本,以确保生成的视频的流畅性和连续性。视频生成中使用的模型通常使用顺序帧数据,整合了时间动力学,这增加了计算开销。

推理定价动态

企业越来越精明地确保服务提供商提供的定价模式符合其运营需求和财务目标,将灵活性、成本效益和可预测性相结合,以最大限度地利用其技术投资。

推理定价模型的类型:

  • 计算时间:费用基于每项任务所需的处理时间,并受处理单位和区域选择的影响。例如,在AWS的EC2服务上使用诸如NVIDIA Tesla V100之类的GPU实例的价格可能约为每小时3.06美元,具体取决于地区和特定的实例配置。
  • 查询量:提供商可能会按执行的个人推理收费,这可能会在用户密集型应用程序中迅速累积。例如,每月前 100 万个查询的起价可能为每 1000 个查询 1.50 美元。
  • 数据传输费:人工智能处理环境中数据入口和输出所产生的成本,在基于云的部署中尤其重要。例如,对于每月前 10 TB 的出站流量,公司可能会按每 GB 收取大约 0.087 美元的费用。

AWS、Google Cloud和Azure等大型云提供商提供可扩展的基础架构,并可能利用规模经济来提供某些优势。但是,他们的定价模型可能复杂且不可预测。小型提供商通常提供更透明、有时更经济的选项,但可能缺乏大型竞争对手提供的广泛基础设施和可扩展性。

推理定价概述(美元/人力资源/GPU)

降低推理成本的高级解决方案

为了有效降低人工智能推理成本,各公司正在积极寻求各个技术领域的创新。从这个意义上讲,成本优化通常来自更快的推理/更低的延迟或更高效地使用计算资源。以下是一些有助于降低成本的主要进展:

硬件优化:

  • GPU 开发:谷歌的 TPU(张量处理单元)和 NVIDIA 的 Tensor Core(如 A100 和 H100)等示例特别侧重于加速深度学习模型中最常见的计算类型。这种速度是通过架构改进来实现的,该架构允许对数据进行更多的并行处理,这对于处理人工智能中通常使用的大型数据集至关重要。GPU 提供商不断突破界限,以生产更高效的机器。
  • 能源效率:通过降低每次计算所需的功率,公司可以显著降低每次推理的成本,从而在不产生高昂的能源账单的情况下更广泛和持续地使用人工智能技术。此外,较新的硬件型号通常集成了增强的散热技术,从而进一步提高了能源效率并减少了数据中心对昂贵冷却系统的需求。这种高速、低功耗和较低的冷却要求相结合,极大地促进了运营成本的总体降低。然后,云提供商可以以降低推理成本的形式将节省的成本转嫁给最终客户。

软件优化:

  • 模型量化:该技术降低了计算中使用的数字的精度(从浮点精度到低位整数),从而在不损失显著精度的前提下减小了模型大小并加快了推理速度。量化使模型更轻、更快,从而减少了所需的计算资源。
  • 模型修剪:修剪涉及从模型中移除冗余或不重要的权重,这可以大大降低神经网络的复杂性和规模。该模型的这种简化版本需要更少的计算能力来运行,从而降低了能耗和推理时间。

中间件增强:

  • 模型服务框架:NVIDIA 的 Triton 推理服务器等工具通过支持多模型服务、动态批处理和 GPU 共享来优化 AI 模型的部署。这些功能提高了 GPU 资源的吞吐量和效率,有助于降低运营成本。
  • 负载平衡技术:高级负载平衡算法可确保推理请求高效地分布在可用计算资源上,从而防止瓶颈并最大限度地提高硬件利用率。

API 管理:

  • 人工智能托管服务:云提供商通过 API 提供 AI 服务,这些服务抽象了底层基础设施的复杂性并管理可扩展性。该模型允许企业仅为所需的推理计算付费,而无需支付培训或管理物理服务器和数据中心的开销。
  • 自动扩展:现代 API 管理平台包括根据需求自动扩展活动服务器实例数量的功能。这意味着在需求低迷时期,使用的资源更少,从而降低了成本。相反,在需求高峰期,系统可以向上扩展以确保性能稳定,而无需永久分配资源。

即时工程:

  • 减少计算开销:高效的提示旨在以最少的令牌数量或处理步骤从 AI 模型中提取最相关的信息。这直接减少了处理的数据量,从而降低了所需的计算能力。例如,精心设计的提示可以避免后续提问或澄清,从而将流程简化为单一推理周期。
  • 最大限度地减少延迟和处理时间:即时工程还可以通过降低所需计算的复杂性来减少响应时间的延迟。这不仅改善了用户体验,而且还最大限度地降低了处理的每个查询的能耗和相关成本。

这些创新对于降低与运行人工智能模型相关的成本以及使人工智能在各种应用中更容易获得和可持续性是不可或缺的。每种方法都涉及推理过程的不同方面,从初始计算到如何部署和与模型交互,展示了优化效率和降低开支的全面努力。

GMI Cloud的战略

简化的运营效率:

GMI Cloud利用其垂直整合结构来简化人工智能服务的部署和管理。例如,GMI Cloud可能会使用针对特定人工智能工作负载进行调整的NVIDIA GPU,并搭配可最大限度地提高GPU利用率的自定义软件。通过管理从硬件选择到软件开发和部署的整个堆栈,GMI Cloud消除了集成来自多个供应商的组件时经常遇到的效率低下问题。这种方法不仅加快了设置和扩展过程,而且还显著降低了运营复杂性和成本。

高级软件堆栈

GMI Cloud构建了强大的软件平台,使其更容易和更高效地进行推理。以下是一些关键功能:

  • 多租户 Kubernetes 环境:GMI Cloud 利用多租户 Kubernetes 集群来高效协调容器化 AI 工作负载,从而显著降低基础设施成本。这些环境支持精确的资源隔离和每个租户的利用率指标,确保在不浪费资源的情况下实现最佳分配。Kubernetes 动态编排 CPU 和 GPU 资源,以有效应对工作负载峰值。例如,在 AI 模型重新训练或批量推理任务期间,Kubernetes 可以根据 GPU 利用率等实时指标或队列长度等自定义指标,使用水平 Pod 自动缩放来弹性扩展资源。例如,典型部署可能会在峰值负载期间从使用 2 个 GPU 实例扩展到 10 个,然后再向下扩展,根据所使用的实例类型,将每次推理操作的成本从可能的每小时数百美元优化到不到一美元。
  • 与InfiniBand相关的容器化:InfiniBand架构在GMI Cloud的容器化环境中提供了显著的优势,可提供对人工智能数据吞吐量需求至关重要的低延迟、高吞吐量连接。InfiniBand 支持高达 200 Gbps 的带宽和亚微秒的延迟,这对于减少分布式 AI 模型(例如用于并行视频处理或跨多个节点的大规模机器学习算法)中的通信开销至关重要。通过实现 InfiniBand,节点之间的数据传输绕过 CPU,直接访问内存,这极大地减少了延迟和 CPU 负载。这种设置最大限度地减少了与神经网络中大规模张量运算相关的时间和计算开销,从而降低了每帧或每次查询的推理成本,尤其是在涉及高分辨率图像分析或实时视频流分析的用例中。
  • 与 NVIDIA 网络接口微服务 (NIM) 的兼容性:集成 NVIDIA NIM 可显著提高专为 GPU 加速任务量身定制的 GMI Cloud 基础设施中的网络效率。NIM 提供高级网络功能,可优化数据路径并管理多节点部署中的拥塞,这对于维持大规模分布式 AI 应用程序的吞吐量至关重要。例如,在运行 Transformers 等复杂模型的环境中,GPU 间的通信频繁而密集,NIM 有助于减少抖动和提高带宽利用率,这是加速推理和训练阶段的关键。提高的网络效率可确保每个节点都能以 GPU(例如,NVIDIA 的 H100 GPU 和 NVLink 提供高达 900 GB/s 的性能)的峰值理论性能处理数据,从而显著缩短了每个数据点的推理时间,从而降低了与运行高级人工智能模型(例如用于自然语言处理任务的 GPT 或用于视频生成的 Sora)相关的成本。

特定行业的自定义:

GMI Cloud通过提供针对特定行业的定制来增强客户运营,确保硬件和软件与医疗保健、金融或零售等独特的行业需求紧密结合。这种量身定制的方法不仅可以提高效率并加快人工智能驱动的流程,还可以通过减少不必要的计算工作量和能耗来显著降低运营成本。客户受益于根据其特定行业需求量身定制的优化性能。这些定制解决方案还提供可扩展性,使企业能够适应新的挑战并在不对技术进行大量再投资的情况下实现增长。最终,这一战略重点为GMI Cloud的客户提供了竞争优势,利用了优于通用替代方案并降低推理成本的优化的人工智能解决方案。

结论

降低推理成本有助于企业通过减少长期运营支出来提高盈利能力,更有效地扩展其人工智能解决方案,并通过使人工智能驱动的服务更具经济可行性来提供竞争优势。

更复杂、更具成本效益的推理解决方案的持续开发可能会为各个领域开辟新的可能性,推动创新和竞争力。企业可以期待更容易获得、更高效、更强大的人工智能工具,这些工具不仅有望实现运营转型,而且有望普及人工智能技术。

参考文献

即刻开始

试用 GMI Cloud 算力服务,即刻体验高效的 AI 布建。

一键启动
14 天免费试用
无长期合同约束
无需部署设置
按需 GPU

开始于

$ 4.39 /GPU-小时

立即開始使用
预留 GPU

低至

$ 2.50 /GPU-小时

立即開始使用