国产算力两浩劫题齐有了处理决议

发布日期：2024-10-17 02:07 点击次数：177

开始：@经济不雅察报微博

经济不雅察网记者沈陶然国产算力永恒靠近两大问题：第一，国产GPU穷乏生态撑合手难以替代英伟达的GPU；第二，如安在国产GPU单卡性能有限的条目下，通过其他本事妙技普及举座算力水平。

在9月27日至29日举行的2024年中国算力大会上，产业各方预防商酌处理见识。

裁汰转移老本

国内的AI大模子常常在英伟达的GPU硬件上运行，要是用户思从英伟达的硬件转移到其他国产GPU，需要面对代码兼容性的问题。

对此，中国转移（600941.SH）在大会上发布了一款用于芯片架构转移的器用。这个器用名叫“芯合”，不错匡助用户将基于英伟达生态链编写的代码转移到华为或其他国产硬件平台上，从而裁汰算力用户的转移老本。

一位中国转移东谈主士对经济不雅察网称，好多AI大模子用户但愿经受国产芯片，但过高的转移老本是一个宽绰阻扰。诱骗“芯合”是为匡助AI大模子用户减少转移老本，最终指标是让国产GPU更快被市集接管。在负责发布之前，该器用还是小限制试用了一段时分。

一直以来，国产厂商的硬件架构与英伟达不兼容，国产厂商各自的架构也不兼容，是以用户原来在英伟达GPU上优化的代码可能无法平直在国产GPU上运行。

该东谈主士称，“芯合”为用户省去了手动修改大齐代码的职责。此外，转移器用不错匡助用户在不同生态之间切换，不需要从头编写悉数要道。转移历程中可能会给用户带来性能损耗，但损耗不错保管在10%以内。

国产GPU公司瀚博半导体对经济不雅察网称，算力国产化需要企业碎裂各自零丁的体系，共同构建一个生态，“芯合”是一个饱读吹东谈主心的启动，公司会积极参与到该神志中。

华为手脚算力设施的设立者，也提供了一些要领匡助大模子用户向国产GPU转移。

一位华为东谈主士对经济不雅察网称，华为提供了从硬件到软件的一整套处理决议，包括AI芯片、编程话语、诱骗器用和AI框架。然则，市面上的工程师和运维东谈主员大多不熟谙华为的架构，导致用户在使用华为算力系统时，一朝出现问题，除了华为职工，很难找到其他能处理问题的工程师。

华为在国内的AI芯片和作事器市鸠集占有较大的份额，这家公司一直在各省设有撑合手中心。该华为东谈主士称，近期，这些撑合手中心启动免费匡助用户和客户作念转移，裁汰他们转移到华为平台上的老本。

挑战万卡集群

国产算力的第二个难题是，国产GPU性能受限，使得智算中心需要从千卡限制迈入万卡以致是十万卡限制。

9月28日，中国工程院院士刘韵洁在主论坛上默示，中国在单卡GPU性能上无法和国外竞争，起码短时老实作念不到。

一位中国电信（601728.SH）东谈主士对经济不雅察网默示，与国际GPU比较，国产GPU可能需要堆叠更多的量达到交流的算力水平，这亦然为什么需要打造万卡限制算力。关系词，就像管束一万东谈主比管束一千东谈主要费事多，打造万卡限制的算力集群靠近诸多挑战。

电信运营商常常是算力设施的投资方或运营方。在畴昔一年，中国电信在上海和北京建了两个国产万卡全球智算中心，算力限制分离是3.5EFLOPS和3.75EFLOPS。2024年8月，中国转移在哈尔滨1.8万卡限制的超大智算中心，算力限制是6.9EFLOPS。

针对万卡限制带来的本事挑战，中国转移在9月27日公布了多项本事决议：GPU卡间互联条约，全周折以太网本事体系，和会存储决议等。

苟简来说，这是为了把上万张GPU卡和上千台作事器互联起来，并让它们之间快速通讯以传输数据，还要确保它们在万古分运行时褂讪，不会中断。当出现故障时能快速找到故障点并让AI援手会诊。

上述中国转移东谈主士称，这些本事的诱骗难度很高，当今还在小限制考证阶段，中国转移需要筹办作事器和GPU企业悉数作念测试，展望来岁大限制应用。

海量资讯、精确解读，尽在新浪财经APP