36氪WISE 2024商业之王大会回顾 | GMI Cloud亚太区总裁King发表全球AI企业算力解决方案主题演讲

11 月 28-29 日,为期两日的 36氪 WISE2024 商业之王大会于北京隆重落地,作为中国商业领域的全明星盛典,GMI Cloud 亚太区总裁 King.Cui 进行了分享。

November 29, 2024

Why managing AI risk presents new challenges

Aliquet morbi justo auctor cursus auctor aliquam. Neque elit blandit et quis tortor vel ut lectus morbi. Amet mus nunc rhoncus sit sagittis pellentesque eleifend lobortis commodo vestibulum hendrerit proin varius lorem ultrices quam velit sed consequat duis. Lectus condimentum maecenas adipiscing massa neque erat porttitor in adipiscing aliquam auctor aliquam eu phasellus egestas lectus hendrerit sit malesuada tincidunt quisque volutpat aliquet vitae lorem odio feugiat lectus sem purus.

  • Lorem ipsum dolor sit amet consectetur lobortis pellentesque sit ullamcorpe.
  • Mauris aliquet faucibus iaculis vitae ullamco consectetur praesent luctus.
  • Posuere enim mi pharetra neque proin condimentum maecenas adipiscing.
  • Posuere enim mi pharetra neque proin nibh dolor amet vitae feugiat.

The difficult of using AI to improve risk management

Viverra mi ut nulla eu mattis in purus. Habitant donec mauris id consectetur. Tempus consequat ornare dui tortor feugiat cursus. Pellentesque massa molestie phasellus enim lobortis pellentesque sit ullamcorper purus. Elementum ante nunc quam pulvinar. Volutpat nibh dolor amet vitae feugiat varius augue justo elit. Vitae amet curabitur in sagittis arcu montes tortor. In enim pulvinar pharetra sagittis fermentum. Ultricies non eu faucibus praesent tristique dolor tellus bibendum. Cursus bibendum nunc enim.

Id suspendisse massa mauris amet volutpat adipiscing odio eu pellentesque tristique nisi.

How to bring AI into managing risk

Mattis quisque amet pharetra nisl congue nulla orci. Nibh commodo maecenas adipiscing adipiscing. Blandit ut odio urna arcu quam eleifend donec neque. Augue nisl arcu malesuada interdum risus lectus sed. Pulvinar aliquam morbi arcu commodo. Accumsan elementum elit vitae pellentesque sit. Nibh elementum morbi feugiat amet aliquet. Ultrices duis lobortis mauris nibh pellentesque mattis est maecenas. Tellus pellentesque vivamus massa purus arcu sagittis. Viverra consectetur praesent luctus faucibus phasellus integer fermentum mattis donec.

Pros and cons of using AI to manage risks

Commodo velit viverra neque aliquet tincidunt feugiat. Amet proin cras pharetra mauris leo. In vitae mattis sit fermentum. Maecenas nullam egestas lorem tincidunt eleifend est felis tincidunt. Etiam dictum consectetur blandit tortor vitae. Eget integer tortor in mattis velit ante purus ante.

  1. Vestibulum faucibus semper vitae imperdiet at eget sed diam ullamcorper vulputate.
  2. Quam mi proin libero morbi viverra ultrices odio sem felis mattis etiam faucibus morbi.
  3. Tincidunt ac eu aliquet turpis amet morbi at hendrerit donec pharetra tellus vel nec.
  4. Sollicitudin egestas sit bibendum malesuada pulvinar sit aliquet turpis lacus ultricies.
“Lacus donec arcu amet diam vestibulum nunc nulla malesuada velit curabitur mauris tempus nunc curabitur dignig pharetra metus consequat.”
Benefits and opportunities for risk managers applying AI

Commodo velit viverra neque aliquet tincidunt feugiat. Amet proin cras pharetra mauris leo. In vitae mattis sit fermentum. Maecenas nullam egestas lorem tincidunt eleifend est felis tincidunt. Etiam dictum consectetur blandit tortor vitae. Eget integer tortor in mattis velit ante purus ante.

环境持续变化,时代总在迭变,“商业之王”们紧随时代浪潮,坚持创造,谋求新动能。立足中国经济大转型的当下,WISE2024 商业之王大会,一同发现真正有韧性的“商业之王”,探寻中国商业浪潮里“正确的事”。

11 月 28-29 日,为期两日的 36 氪 WISE2024 商业之王大会于北京隆重落地,作为中国商业领域的全明星盛典,WISE大会今年已经是第十二届,在不断变化的时代里见证着中国商业的韧性与潜力。

2024,是有些模糊且变化多于稳定的一年。相比过去十年,大家的脚步正放缓,发展更加理性。2024,也是寻求新的经济动力的一年,新的产业变化对每个主体的适应性提出了更高的要求。今年 WISE 大会以 Hard But Right Thing(正确的事)为主题,在 2024,什么是正确的事,成为我们更想交流的话题。

算力,作为 AI 技术的核心驱动力,直接关系到 AI 应用的性能与效率。在全球化运营中,如何确保算力的充足与高效,如何应对 AI 算力短缺、AI Infra 稳定性不足等问题都是AI企业目前在全球化运营过程中亟需解决的问题。

那关于这些问题的解决方案,GMI Cloud 亚太区总裁King Cui 在大会现场分享了他的思考与见解。

图片

以下为King Cui演讲全文,略有删减:

朋友们大家下午好!我是来自 GMI Cloud 的 King,今天分享一下全球布局情况下,AI企业如何在海外补齐短板,并且保证稳定性。

我做云计算已经十几年了,我将云计算的发展历程分为三个阶段——随着 OpenAI 的诞生和崛起,整个 Cloud已经进入 3.0 时代,这个时候完全跟以前的云计算或者经典云计算时代是不一样的,企业计算需求更多是从 CPU 转向 GPU,存储速度比以前高了很多倍,所以我们要做全新的形态。在这个背景下,我们成立了 GMI  Cloud,截至目前为止,刚刚创立了两年时间,总部在美国硅谷,目前主要是服务全球的 AI 企业和平台机构,我们在去年获得了英伟达认证的合作伙伴。

我们为什么能够在亚太区获得 GPU 分配权,我们除了跟英伟达合作之外,我们还跟 GPU 厂商保持比较好的合作,甚至他们也是我们的合作伙伴,我们的优势就是可以第一时间拿到最新版本的 GPU,在亚太区拿到最新的服务器。比如说当下的 H200,我们在今年 8 月份就开始对外提供云服务了,包括未来我们在明年的 Q1 会拿到 GB200,也将会是亚太区第一个对外提供 GB200 云服务的 NCP。我们目标是构建 AI Cloud 平台,我们是做 GPU 云服务生意,我们希望为 AI 企业提供稳定的 AI 基础设施。

目前我们在全球有 10 个数据中心,芯片主要以 H100 和 H200 为主。在今年十月份,我们刚刚宣布完成了新一轮融资,8200 万美金,主要用于数据中心的建设,以及开拓新的 H200 GPU 的云服务。

我们的愿景是希望在 AI 云原生时代,能够成为“台积电”这样的企业,保持初心帮助合作伙伴提供比较稳定的 AI Cloud,我们不会做大模型、应用,只专注地把我们的 AI Cloud 做好。

大家对 GMI Cloud 有了一个基础了解之后,下面我们就正式来聊一聊 AI 的出海,因为今天大家都在讲出海,但是也没有人讲为什么要出海,大家也觉得 AI 时代到来了,它相比以前的时代有什么区别?

从技术发展来讲,我们这代人非常幸运,我们经历了互联网时代、移动互联网时代、人工智能时代,从互联网到移动互联网,这两个时代基本上目前已经到了普惠点,如果中国还在做移动互联网创业的话大概率没有太大机会了,所以AI时代崛起比前两个时代更加迅猛,对社会和生产发展的影响更加巨大。这个时代的机会是非常明确的,所以我也是这样的时代驱使下离开了大厂,进入创业公司。

截止到今年 8 月份,全球有 1700 多个 APP 都是 AI 相关,其中中国有 280 个,出海相关比例高达 30%,大概有 92 个 APP。在 PPT 上,大家可以看到,我们列了排行榜前 30 的 MAU,从今年 1-9 月份前十 MAU增速已经环比超过了 120%。

所有AI应用出海必然离不开的东西就是算力,AI 三驾马车,数据、算法、算力,算力是基石,国内与海内的区别还是挺大的,海外供应商有很多不确定性,同时 GPU 时代的挑战性比传统 CPU 时代高很多,毕竟没有人做过超大规模的或者说十万卡以上 GPU 运维,但是 CPU 时代做过这样的事情,所以海外 AI Infra 的稳定性对于 AI 出海企业来说,挑战是巨大的。

举一个例子,META 前段时间发布了一个报告,他们用 10000 多张的 H100,训练他们的 Llama 405B 大模型,总共 54 天的时间,出现了 466 次中断故障,其中有 419 次是预期外的,其中跟 GPU 相关得高达 58%(280多次),CPU 相关故障只有 2 次,这个数据对比可以看出,GPU 跟 CPU 的稳定性挑战不是一个量级的。

整个的 GPU 稳定性其实就关系到我们研发的效率、时间成本、金钱,那下面就给大家汇报一下,整个 GMI Cloud 如何实现 GPU 集群高稳定性的。

首先从我们集群的架构层面来讲,我们完全是由自己自主研发的,我们从底层的 GPU 硬件,包括高速的 GPU 服务器、存储、网络,在 PaaS 层往上我们可以跟合作伙伴一起共建,比如说大模型,客户可以基于自己的大模型做研发,同时我们为广大的企业和个人开发者提供了开源大模型,一键部署到 Cloud 集群上面,并且我们有调优的服务。

图片

(下图)这是我们整个的产品,我们产品可以帮助所有企业,GPU集群做自动化管控,我们可以把存储服务、网络服务,都通过作业方式进行调度,降低企业使用GPU集群的门槛。

图片

(下图)这里讲的我们整个网络的设备,首先最左边的图是IB的万卡集群,我们提供IB高速网络,其实不是所有的企业都有过IB万卡集群的运维管理经验,我们公司是为数不多的,少有的具备万卡集群管理经验的。我们也提供了VBC服务,GPU集群里面不同的用户可以使用不同的VPC,相互资源不会出现争抢,做到完美隔离。

图片

在存储层面,我们为不同的业务场景提供了不同的存储介质,比如说数据备份场景,其实你不需要那么高的 IOPS,如果做大模型训练的 checkpoint 存储或者做自动驾驶的数据读取,就需要很高的 IOPS,所以可以根据业务场景需求,根据经济模型选择最适合你的存储类型。

而对于一个 GPU 集群来讲,如果想规模越大,稳定性越高,这个时候你需要非常强大的主动监控平台,于是我们研发了集群管理的监控体系,我们能够实现端到端检测,在整个平台上我们可以清晰化的看到在哪个节点出现网络的中断,快速定位到最根本的问题,让我们的伙伴去现场做一些实施,同时我们也支持在历史数据查询、追溯、报警监控和处理。

同时,在交付之前,为了保证集群交付质量,稳定性、可靠性,GMI Cloud 还要经过两道工序,第一道工序就是英伟达 NCP 验证体系,因为我们是英伟达合作伙伴,我们要把设计方案先经过英伟达确认,然后实施,进行相应测试确保集群可用性,包括性能测试、压力测试。同时我们在交付客户之前工程师会做所有硬件、软件存储网络测试,并且会跑一些最基本的开源大模型,确保训练任务能够完好运行在我们的 GPU 上。可以说,通过英伟达质量认证体系,以及 GMI 自身交付验收体系,双重标准来确保交付集群是高稳定性集群。

另外值得一提的是,故障预演,出了问题之后如何快速定位、响应、解决问题,这个是很关键的。所以我们有两个方面——GMI Cloud 跟 IDC 是深度合作伙伴,我们跟全球每个国家的 IDC 都有当地伙伴做本地化实施。同时我们跟 GPU ODM 厂商保持 3-5% 的备机备件,出现硬件故障,我们第一时间可以联系现场人员进行更换。GMI Cloud 的保障体系能够做到快速发现、定位问题,快速恢复集群,确保对外的交付 SLA 是很高的 SLA,目前全球范围内能够提供 GPU 集群 SLA 超过 99% 的不到,GMI Cloud 算是其中之一。

讲完稳定性问题与解决方案,我们还是从 AI Infra选型的角度我们怎么选择云基础的合作伙伴。大家出海会根据业务进行选择,短期业务还是长期业务,也会根据场景进行选择。所以 GMI Cloud 会根据不同的客户需求,提供两种方式,如果你是一个长期租用的方式,我们推荐集群归你独享,长期使用。如果做“短期”的,就可以 GMI Cloud 端到端的解决方案,从底层定制化集群。关于 GPU 集群的配置,我们都会根据客户需求进行配置,你需要在哪个国家配置,我们就可以去哪个国家帮你进行配置和选择。

在软件层,GMI Cloud 有自己的 Cluster Engine,稳定性像 CPU 时代一样高的同时,付费方式更加灵活,用一两张卡,可以选择一两天,也可以选择连续用 3 年。同时,GMI Cloud 还提供 AI 顾问服务,我们公司 70% 人员都是研发人员,其中一半是来自谷歌,他们以前做深度学习和 HPC 相关的事情,对整个 AI 算法和 HPC 高可用,拥有非常多的经验,这些经验 GMI Cloud 都可以跟企业客户进行共享。

在本次演讲的最后,给大家介绍两个案例,第一个案例是,一家大型互联网招聘企业在海外去构建私有 GPU 集群的过程中,GMI Cloud 帮助他们从底层的 IDC 到 GPU,全面进行构建,“开箱即用”、“拎包入住”,他们只需要聚焦在业务层面,而不需要关注底层运维和管理。

第二个案例是一个知名的直播平台,如大家所知,目前整个端到端大模型非常火,主播跟观众做连麦的时候,双方中英文对话需要能够实时做翻译,而这个过程中不需要先通过 ASR 再通过 TTS,企业会直接使用跑在 GMI Cloud 上的端到端大模型。

以上是两种不同的案例,也我们两种不同的产品服务方式。

以上就是我今天的分享,从GMI Cloud的架构设计到整个体系,再到供应链保障维度做了分享,谢谢大家!

如果您想要了解有关 GMI Cloud 的信息

请关注我们并建立联系

图片

即刻开始

试用 GMI Cloud 算力服务,即刻体验高效的 AI 应用构建。

即刻开始
14 天试用
无长期合同约束
无需部署设置
按需 GPU

低至

$ 4.39 /GPU-小时

立即开始使用
预留 GPU

低至

$ 2.50 /GPU-小时

立即开始使用