会员登录 立即注册

帖子

[切换城市]

阿里云AI基础设施升级亮相 模型算力利用率提升超20%

新资讯 2024-9-20 17:25 钱江晚报 4 0

潮新闻客户端 记者 张云山


920日,2024云栖大会现场,阿里云全面展示了全新升级后的AIInfra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。



阿里云基础设施全面升级


“AI创新需要新形态的云基础设施。阿里云副总裁、弹性计算及存储产品线负责人吴结生表示,阿里云整合底层的计算、存储、网络等资源,实现了统一调度和软硬一体优化,以满足模型训练和推理的爆发式AI算力需求。 基于全新的CIPU2.0,阿里云新推出磐久AI服务器,实现单机16卡、显存1.5T以上,支持SolarRDMA互联。磐久AI服务器采用超钛金电源实现97%以上的高能效,并可通过AI算法预测GPU故障,准确率达92%,保障AI算力的性能和稳定性。 在存储方面,阿里云并行文件存储CPFS实现端到端全链路性能提升,单客户端吞吐达25GB/s,高性能数据流动达到100GB/s,为AI智算提供指数级扩展存储能力。 为AI设计的高性能网络架构HPN7.0,性能和稳定性也再次提升,其中,集合通信性能提升1倍以上,模型端到端训练性能提升10%以上。 通过底层计算、存储、网络等基础设施的升级,阿里云灵骏集群可提供超大规模、超强性能的智能算力,万卡规模性能线性度超过96%,并行存储吞20TB/s,万卡规模下网络带宽利用率超过99%,可支持单集群十万卡级别AI算力规模。 面向AI业务,阿里云计算产品也大幅演进更新。本次云栖大会上,容器服务ACK面向AI实现重磅升级,大模型应用冷启动延迟降低85%,并可提供15000个超大规模节点支持。同时,容器计算服务ACS即将推出GPU容器算力。


声明:发布此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请联系我们,确认后马上更正或删除,谢谢!
新资讯(www.xinzixun.cn)致力于为用户提供高效、便捷的资讯获取与信息服务,打造一个有影响力的多元化资讯平台。
关于我们
公司介绍
发展历程
联系我们
本站站务
服务协议
本站义务
友情链接
业务合作
广告服务
商家入驻
我要投稿

手机APP

官方微博

官方微信

新资讯:www.xinzixun.cn (盛世汇新旗下网站) 陇ICP备17005351号-5|甘公网安备 62012102000363号 客服邮箱:sshxqy@163.com 投稿邮箱:sshxqy@126.com
QQ|Powered by Discuz! X3.5 © 2001-2024 Discuz! Team.
返回顶部