异构智算亮剑,缘何联想ISG的底气满满?
其绝技精髓之处在于,可以指挥双类型调度的最精简架构,在AI的K8S调度和HPC的Slurm调度之上,自由切换AI和HPC的调度沟通,能全局监控任务和动态共享资源,使得用户可以充分利用基础设施的GPU算力资源。即使玄功有损,在极短的时间内,可以令内力恢复如初。在服务器、存储、软件及超融合、数据网络和边缘基础设施产品与方案领域,大力发展AI导向的基础设施,无论是面向数据中心的建设、存储方案的优化、超融
【全球云观察 | 科技热点关注】
对于联想而言,2024年,是一个特别之年。
随着大模型本身发展迅猛,促使大模型进化需要更加强劲的AI算力来支撑。在智算释放AI基础设施的大趋势上,用户端正在遭遇场景适配性、算力多元化、资源利用率以及双碳绿色发展等诸多挑战。
计算力就是生产力,自2020年国家将智能计算中心纳入新基建范畴后,全国各地掀起了智算中心建设高潮。从而,智能算力成为发展焦点,智算供应商之间的竞争自然也越来越激烈。
来自用户端AI算力挑战的刺激,以及行业端市场竞争加剧带来的变局,两大压力夹击之下,联想站在第五个十年的伊始,既要逆势而上,又要顺势而为。于是,联想ISG点亮了下一个十年的新征途。
「争夺战略高地」
“一横五纵”,志在必得
征途漫漫从头越,奋楫逐浪不停歇。走向未来,近在眼前的是智算变局,唯有争夺战略高地,企业方能行胜行稳行远,进而有为。对此,联想似乎志在必得。
谋定未来,逆势而上。全球云观察分析认为,AIGC引爆全球,中国也呈现出百模大战的活跃局面。虽然当前智算供给受阻于算法繁多、场景多样、千卡GPU故障多、算力利用率低、能耗爆表、异构调度难等多重因素的挑战,但是一旦搞定这些挑战,顺应AI进化就可以带来全新发展机会,且十分可观。
纵观中国移动、中国电信、中国联通三大运营商针对AI服务器的采购规划,就已经超过了1.4万台,再加上相关配套设施与软件服务,未来智算市场发展的规模之大,可见一斑。
之前《算力基础设施高质量发展行动计划》明确了到2025年,智能算力占比达到35%,智能算力目标为105EFlops,针对智算基础设施的行业投入显然只会增长不会下降。无论是从垂直行业智算建设的需求来看,还是从国家政策的支持层面来分析,智算行业的发展活力四射,潜在的市场规模非常巨大。掘金智算,时不可待。
联想集团副总裁、中国基础设施业务群总经理陈振宽
顺势而为,抢先布局。“当前已经步入了AI 2.0时代,AI大模型具备超强的泛化、生成能力,驱动人工智能进入更广的应用场景和更深的业务流程中。”联想集团副总裁、中国基础设施业务群总经理陈振宽分析指出,处于AI 2.0时代,AI基础设施领域面临匹配算力、减少故障中断时间、改善AI算力利用率和突破散热瓶颈的四大挑战。很早就在AI领域布局的联想,顺应AIGC时代的发展,积极响应用户的智算需求,聚焦算力、算法、绿色三大领域,全面应对新挑战。
其一是超强算力,智能匹配,为用户匹配经过验证优化的最佳算力。其二是核心算法,极致提效,以核心算法挖掘算力潜力,提升计算效率。其三是液冷创新,绿色算力,以先进的液冷技术帮助用户节能增效,并突破芯片散热的瓶颈。
一直强调以用户需求为中心的发展观,ISG深知用户内心深处的智算渴求与痛点。2024年4月18日,在联想创新科技大会(2024 Lenovo Tech World)上,陈振宽正式对外宣布推出联想万全异构智算平台,面向通用计算、科学计算与AI算力多个领域,以创新技术突破计算效率瓶颈,让算力效率得以更大程度的提升,在激烈竞争的服务器市场中实现更多的差异化价值。
不过,当前的国内大部分服务器用户不仅在乎算力效率,更在乎业务成本。对于用户而言,万全异构智算平台能帮助用户高度自动化完成AI全流程开发,任何用户都可以自动完成AI计算并发布模型或推理服务。更专业的AI开发者还可以手动深入调整计算过程的空间,实现对数据和模型优化,选择应用工具、大模型,匹配并调度更贴身的算力,定制化监控训练和推理任务进程等。万全异构智算平台的出现,有助于加速用户应用部署,有利于降低业务TCO,即全周期使用成本。
需要强调的是,联想万全异构智算平台所能管控的异构,包括了两层含义,一是针对通用计算、科学计算或AI算力不同智算集群架构,二是针对市面上存在的国内国外不同GPU、CPU的架构。可见,致力于让智算无边界,不管是集群之间还是集群内,联想万全异构智算平台提供的高效、灵活的管理和调度,都可以发挥作用。
对智算未来发展如此笃定,联想不止于万全异构智算平台。陈振宽表示,联想万全异构智算平台,是AI2.0时代联想中国基础设施战略框架的核心。作为联想“全栈AI”战略布局的中坚力量,联想中国基础设施业务正以“一横五纵”战略框架,通过构建布局完整、稳定高效的AI导向的基础设施,为企业智能化转型打造坚实可靠的智算底座。
“一横五纵”,即联想万全异构智算平台,以及服务器、存储、数据网络、软件及超融合以及边缘基础设施产品和方案。“一横五纵”构成联想AI导向基础设施的完整体系,为百行百业智能化转型提供坚实可靠的支撑。
在服务器、存储、软件及超融合、数据网络和边缘基础设施产品与方案领域,大力发展AI导向的基础设施,无论是面向数据中心的建设、存储方案的优化、超融合的能力创新,还是边缘计算的应用,联想都能够提供稳定、高效的基础设施支持,也正不断加速助力算力网络建设与落地。
2024年3月26日,联想集团与锐捷网络战略签约,通过在技术创新、产品研发、资源协同及销售等领域的全方位合作,进一步增强数据网络的能力,夯实新质生产力基础底座,加速推进行业智能化变革。
值得一提的是西北地区率先投入商用的高性能计算平台,即甘肃紫金云公共算力中心,采用联想高性能计算整体解决方案搭建,不仅发挥着东西部协同枢纽功能,而且还面向西北地区的算力与存力需求,提供“端-边-云-网”间的先进算力支持。
此外,通过不断加速IT与CT融合,积极拥抱运三大营商,联想全栈AI的产品、方案及服务优势得以充分发挥。据悉,截至目前,联想与中国联通、中国移动、中国电信的合作已超百项。同时还赋能多个垂直行业,助力吉利汽车、中联重科、徐工集团等国内500多家知名企业成功走上智能化转型之路。
在业界备受关注的绿色液冷领域,联想全面布局冷板式、浸没式等液冷技术,并在全球成功落地了多个业界领先的液冷数据中心。联想海神温水水冷技术可实现100%服务器部件用水冷却,热移除效率最高达98%。
机不可失,时不再来。由此,联想基础设施业务群正在持续完善由AI导向的基础设施战略,突破创新联想万全异构智算平台,全面发力服务器业务,快速做全存储、软件及超融合、网络以及边缘的产品与方案。“一横五纵”的每一项举措,都将在争夺智算战略新高地过程中发挥出重要的作用。
「亮出五大武功绝技」
招招制胜,诚意满满
当智算成为服务器厂商必争之地时,大厂之间的PK,没有“武功绝技”怎么能行呢。
应对AIGC新时代下的新挑战,说时迟那时快,联想正式亮出五大技术创新的武功绝技,招招制胜,满满诚意。
绝技一,北冥神功之算力匹配魔方。
北冥神功以积蓄内力为第一要义,作为逍遥派的最高武学,练成后天下武功无不为我所用,好像庄子所说的北冥,大舟小舟无不载,大鱼小鱼无不容,从此天下武学轻松搞定。而算力匹配魔方技术,依托算力魔方知识库,针对不同场景实现最佳算法和集群配置的全自动规划并调度,无所不能。用户完全可以跳过繁杂的算力选择和验证,只需输入场景和数据即可实现“规划与调度”的神功护体。
绝技二,易筋经之GPU内核态虚拟化。
经过长期的苦苦钻研,联想研究院开发了在GPU驱动层的内核态虚拟化算法,使得智算平台宛如获得了强大的内功心法,深度挖掘服务器潜力,从此不惧算力损耗。GPU内核态虚拟化算法技术通过挖掘处理器潜力,让虚拟GPU算力利用率从80%提升到95%。
不过,想要研发成功GPU内核态虚拟化技术,需要相当深厚的智能技术家底,与一心一意的长期创新使命感。这就如少林神技排名第一的易筋经一样,没有相当深厚的武功家底,以及绝对的恒心和毅力是难以练成的。
据联想中国基础设施业务群战略总监黄山分析,在GPU驱动层实现内核态虚拟化算法拥有三大革新。其一,对算力和显存精准隔离的算法,能以<3%的误差精准控制容器资源。其二,在GPU驱动层做资源调度,省去在驱动上的不必要操作。其三,在GPU驱动层将虚拟GPU的颗粒度精细到1%。因此,在AI推理和中小训练的虚拟GPU应用中,内核态虚拟化算法可以直接带来vGPU利用率提升的实际价值。
绝技三,凌波微步之集合通信算法库。
作为为逍遥派的轻功身法,凌波微步的名字取自周易,以易经八八六十四卦为基础,使用者按特定顺序踏着卦象方位行进,但其步法精妙异常,在逃跑时往往可以迅速寻得最佳路径。而集合通信算法库的精妙之处,源自联想优化网络数据传输路径的增强通信算法,实时感知多类型网络拓扑,实现数据的最佳路径传输。可以实现千卡规模集群效率提升10%-15%,集群规模越大,效果越是精妙。
绝技四,九阴真经之AI高效断点续训技术。
练九阴真经之人,不须旁人相助,奇经八脉自己也能通。即使玄功有损,在极短的时间内,可以令内力恢复如初。就算“北丐”洪七公被欧阳锋害得武功全失,基本快成一个废人了,依然靠《九阴真经》疗伤,到二次“华山论剑”时,功力依然如初。九阴真经可以阴阳互济、调节体内阴阳二气,疗伤效果神奇。而AI高效断点续训技术的神奇之处在于,实现分钟级AI断点续训,让AI集群持续可用。以千卡训练集群为例,借助AI高效断点续训技术可以提升训练效率,每月节省百万元的额外支出。
当然,这充分得益于联想积累了全面的AI训练故障特征库。同时实现了三项业界少有的革新,不仅针对故障特征做数据多级备份,大幅精简了备份数据量,同时实现备份数据的最优路径调用。而且实现“用AI来预测AI”,对大量AI训练故障进行特征采样,基于AI故障特征库,开发预测AI训练故障的AI模型。与此同时加上综合监控能力的配合,集成从服务器BMC,存储管理,网络OS的硬件监控,到调度器故障监控,再到对AI训练收敛程度的监控,对AI故障的抓取能够做到万无一失。
绝技五,乾坤大挪移之AI与HPC集群超级调度器。
提及乾坤大挪移,爱好金庸武侠的朋友可谓无人不知无人不晓。这是明教顶级上层武功,激发自身潜力后,然后牵引挪移的绝技神威,要比苏慕容世家的“斗转星移,以彼之道,还施彼身”强上不知多少倍。而AI与HPC集群超级调度器的神威之处与乾坤大挪移的牵引挪移绝技有异曲同工之妙,破局算力孤岛,可以在1小时内自动完成跨集群资源调度和共享。其绝技精髓之处在于,可以指挥双类型调度的最精简架构,在AI的K8S调度和HPC的Slurm调度之上,自由切换AI和HPC的调度沟通,能全局监控任务和动态共享资源,使得用户可以充分利用基础设施的GPU算力资源。
无论是北冥神功、易筋经,还是凌波微步、九阴真经、乾坤大挪移,都属于顶级武学绝技,习得任何一项都可以成为天下”一等一“的武林高手。之于联想的五大算力绝技而言,算力匹配魔方、GPU内核态虚拟化、集合通信算法库、高效AI断点续训技术和AI与HPC集群超级调度器,从根本上解决掉用户异构智算遭遇的难点、痛点。
从此以后,大家行走在智算的江湖,与高手过招,谁还会担忧害怕?
「众人拾薪火焰高」
开创新联盟,同道奋进
虽有“武功绝技”,但单打独斗难以成气候。唯有联合业界的力量,智算未来才更有胜算。
在2024年联想创新科技大会( Lenovo Tech World )大会上,联想联合中国智能计算产业联盟,发起成立异构智算产业生态联盟,致力于联合产业头部生态伙伴共建万全生态。以AI全栈能力全面覆盖从IaaS平台、AI训练与推理到行业场景解决方案,赋能中国智算生态繁荣发展与创新。
全球云观察分析认为,随着联想基础设施业务群在业务上不断发奋图强,聚焦异构智算的战略方向,必须发展多元生态,联合联盟的力量,充分发挥伙伴协同作战的能力,同道奋进,才更有机会赢得未来的更大发展。
历经风雨吐芳华,重整戎装再进发。站在联想第五个十年的元年,继往开来,作为联想三大核心业务之一的基础设施业务,异构智算亮剑,可谓底气满满。
中国基础设施业务群业务,重新回到增长的轨道,营业额年比年提升21%。其中服务器、存储、软件等均实现快速增长,盈利能力大幅改善。服务器重返第一阵营,位列全球第三。据ISC High Performance公布的最新全球算力500强榜单,联想入围169套,独占TOP500中超三分之一份额,第12次蝉联该榜单榜首。
在中国,2023年,联想第九次问鼎并蝉联中国HPC TOP100数量份额第一。联想上榜43套的高性能计算集群涵盖了教育科研、工业/制造、云计算、大数据等众多应用领域。2023年第四季度联想x86服务器收入环比增速国内市场第一。在中小企业服务器国内市场份额上,联想排名第一。在基础型存储国内市场份额上,联想排名第三。
“过去一年,联想着力提升了联想问天和联想ThinkSystem服务器产品在成本、质量和用户体验的全面竞争力,为新财年更好发力打下良好的基础。”联想集团执行副总裁兼中国区总裁刘军在联想创新科技大会上如是说。
机不可失,时不再来。随着“一横五纵”战略的深入拓展,联想以AI导向的基础设施创新,将会在AIGC新时代迎来前所未有的战略大机遇。
机遇是留给有准备的企业。趁机而起,如何努力把战略机遇转化为发展优势,并进一步将优势转化为胜势,这将是联想ISG的重要课题。我们拭目以待。(by Aming)
- END-
你
怎
么
看
?
欢迎文末评论补充!
【全球云观察|科技明说|全球存储观察 |阿明观察】专注科技公司分析,用数据说话,带你看懂科技。本文和作者回复仅代表个人观点,不构成任何投资建议。
更多推荐
所有评论(0)