公布技术参数“颗粒度” 大厂接连“秀肌肉” 自研AI芯片为何不再“闷声干”?
创始人
2025-11-26 07:21:39
0

昆仑芯超节点产品。 南都记者 杨柳 摄

如果你想通过官网查看国产AI芯片公司的最新产品信息,恐怕要失望而归了:最新的芯片型号时常并不会出现在产品菜单上,更不用说芯片的具体参数信息。这是国产AI芯片公司过去几年力求低调的缩影。“这几年做芯片比较敏感,我们出来讲的也比较少。”一位与大厂关联密切的芯片公司负责人坦言。

但近期,随着华为、百度等大厂接连公开宣布AI芯片的迭代路线图,阿里的平头哥芯片亮相央视《新闻联播》,闷声做事的状态突然间被打破。未来三年,华为将发布四款昇腾AI芯片;按照百度的规划,接下来两年有两款昆仑芯AI芯片即将上市。与百度仅披露芯片型号与用途相比,华为给出的信息更为翔实,将互联带宽、算力、内存等外界关注的芯片参数悉数公开。“我们从2020年直到去年啥都不敢讲,今年就‘秀了点肌肉’。”华为轮值董事长徐直军在9月中旬接受媒体群访时感慨。

“里程碑式的转折。”国际投资研究机构盛博(Bernstein)中国半导体高级分析师林清源向南都记者表示,从市场端看,国产芯片公司需要向客户呈现清晰的产品路线图,以抢占英伟达留下的市场蛋糕。此外,外界原本担心英伟达H20供应中断,资本市场会对国内互联网大厂产生负面反馈。但国产AI算力方案的推出,反而让投资者看到,大厂未来可以依赖国产算力的供给获得发展,也促使这些有自研芯片的公司更高调地开始对外沟通其芯片进展。

在林清源看来,国产半导体供应链的突围,推动芯片顺利流片,也让国产AI芯片未来几年的产品迭代具备较高可预见性。据其观察,对于国内的7纳米先进逻辑芯片产线,在被美国完全禁止进口、占比约三成的半导体设备上,国产方案如今已基本填补了美国制裁带来的空白。过去国产设备仍停留在测试阶段,但自今年以来,已陆续导入量产线。“先进制程的整个供应链已经度过了最艰难的阶段。”林清源说,这提升了先进制程芯片制造后续产能扩产的确定性。

不可否认,国产AI芯片的性能与海外巨头依然差距明显。徐直军在9月18日的华为全联接大会上重申了过去的论断:中国半导体制造工艺将在相当长时间处于落后状态,可持续的算力只能基于实际可获得的芯片制造工艺。因此,“超节点+集群”成为华为、百度、阿里等大厂应对AI算力需求的解决方案。这一方案是华为CEO任正非口中的“用数学补物理”策略,不过非常考验芯片厂商在通信、散热等方面的系统性能力。

“全球AI芯片是双雄争霸下的非对称竞争。”国产EDA(电子设计自动化)企业上海合见工业软件集团有限公司总经理徐昀提到,所谓“非对称”,指的是中国智算芯片在工艺制程、单卡算力、单卡内存容量和带宽等维度,均落后于以英伟达为代表的北美智算芯片,但可以借助超节点的组网,完成对后者的性能超越。“中国芯更需要互联能力。”

华为打响第一枪 百度最新接棒

从芯片、超节点再到集群,华为对技术参数披露的“颗粒度”之细,可谓近年来罕见

在国产AI芯片阵营中,华为昇腾的头号地位毋庸置疑。以至于英伟达创始人黄仁勋也不得不将华为视作“强大的竞争对手”,直言“低估华为这样的竞争对手是愚蠢的”。

华为在2018年发布首款昇腾AI芯片310,2019年迭代至昇腾910,其性能超过英伟达同时代的V100 GPU。但随着2020年美国制裁、台积电断供,华为自研AI芯片步入艰难时刻。从2020年开始的约五年时间内,华为仅在昇腾910系列内升级,先后推出910B和910C。这一状况正在转变。

今年9月中旬,华为开始对外表露自己的AI算力雄心。徐直军在2025全联接大会上宣布,2026至2028年三年间,华为将相继推出昇腾950、960和970三大系列。其中,950系列包括950PR、950DT两种型号,分别于2026年一季度和四季度推出,均支持FP8等低精度数据格式。昇腾950PR采用了华为自研的低成本HBM——HiBL 1.0,相比高性能、高价格的HBM,能够大大降低推理预填充阶段的成本。

无独有偶,华为推出P/D分离两款芯片前,英伟达在9月9日也发布了一款基于最新Rubin架构打造的GPU芯片Rubin CPX,充当面向计算密集型预填充阶段优化的专用芯片,预计于2026年年底上市。这是海外首个在芯片层面实现P/D分离的实践。

华为预计在2026年四季度推出Atlas 950超节点产品,紧接着在2027年四季度迭代至Atlas 960超节点,最大可支持15488张昇腾960芯片。基于这两款超节点,华为同时发布Atlas 950 SuperCluster和Atlas 960 SuperCluster两款超节点集群,算力规模分别超过50万卡和达到百万卡。

从芯片、超节点再到集群,华为对技术参数披露的“颗粒度”之细,可谓近年来罕见。林清源认为,这说明华为“是真的有料”。

华为甚至不惮于直接叫板英伟达。英伟达预计2026年下半年发布NVL144系统,徐直军拿Atlas 950超节点与之对比称:卡的规模是英伟达NVL144的56.8倍,总算力是其6.7倍,内存容量是其15倍,达到1152 TB,互联带宽是其62倍。

一位业内人士向记者分析,按理说,华为本来是最不应该对外来讲芯片技术细节的。如今华为站出来“打响第一枪”,这代表了一个关键的转折。

11月13日,百度接棒公布旗下昆仑芯的业务路线图:2026年年初上市M100芯片,针对大规模推理场景优化设计,主打性价比;2027年年初上市M300芯片,面向超大规模多模态模型的训练和推理需求。另外,2026年上半年和下半年,百度预计将推出“天池256超节点”和“天池512超节点”。从2027年下半年开始,昆仑芯将陆续推出千卡和四千卡的超节点。按照规划,昆仑芯预计于2029年上市新一代的N系列芯片,2030年点亮百万卡昆仑芯单集群。

相较于华为,百度对于芯片和超节点的参数介绍有限。据南都记者了解,百度的超节点产品在GPU、CPU、内存等核心部件上实现了国产化。一台基于昆仑芯P800的64卡超节点,换算成单卡算力,大致为英伟达A100 SXM版本算力的一半。

昆仑芯前身为百度智能芯片及架构部,于2021年4月完成独立融资,并由百度芯片首席架构师欧阳剑出任昆仑芯公司的CEO。天眼查显示,截至目前,昆仑芯完成了6笔融资,最新一起发生在今年7月。百度为昆仑芯的控股股东。

另有不具名业内人士向记者分析,百度此时选择披露AI芯片路线图,除了有华为在前面打样,或许也与昆仑芯寻求IPO的压力有关。

根据公开信息,市场上已多次传出昆仑芯筹备IPO的传闻。南都记者于11月中旬看到,昆仑芯在Boss直聘、脉脉等招聘平台释出投融资律师岗位,其工作职责便包括:IPO全流程管理、协助招股书与监管文件、上市后公司治理与监管对接等。然而,在记者向公司方面求证IPO事宜后,该招聘岗位随即被关闭。  

超节点补足 单颗芯片性能短板

只有依靠超节点和集群,才能规避中国芯片制造工艺受限,为中国提供AI算力支持和供给

与非网10月下旬发布的一份问卷调查报告显示,43%的受访者认为,云端国产AI芯片的核心竞争力在于万卡以上互联的集群扩展性。

由于国产芯片先进制程被卡在7纳米节点,华为与百度的AI算力路线图,纷纷把超节点和集群作为突围关键。9月24日的2025云栖大会上,阿里也发布磐久AI Infra 2.0超节点,兼容多种AI芯片,单柜拥有128颗AI芯片。

徐直军在接受媒体群访时表示,“超节点+集群”是华为在极限制裁下被逼出来的范式。只有依靠超节点和集群,才能规避中国的芯片制造工艺受限,为中国提供源源不断的AI算力支持和供给。

作为2025年被华为带火的概念,超节点为何如此重要?林清源介绍,计算集群依靠横向扩展(scale-out)架构下,集群的互联效率很低,模型训练时需要先将任务拆成许多份在不同的节点之间运行,显著增加了并行计算的协调难度,这会“让大模型训练非常痛苦”。

于是,纵向扩展(scale-up)的超节点方案走向台前,以突破通信性能瓶颈。华为当前已面市的超节点方案为CloudMatrix 384,搭载了384颗昇腾910C芯片。芯片研究机构SemiAnalysis在一份报告中指出,CloudMatrix 384直接与基于英伟达GB200芯片的NVL72系统展开竞争,在某些指标上甚至超越了英伟达的机架级解决方案。CloudMatrix 384的昇腾芯片数量是NVL72系统的五倍,足以弥补每颗芯片性能仅为英伟达GB200三分之一的不足。

华为副总裁、公共事业军团CEO李俊风在10月下旬一场峰会上说,CloudMatrix 384超节点在两三年前就已经开始规划,今年顺利推出,表现非常不错。华为接下来将推出更大规模的超节点,以解决美国对华单芯片制裁的问题。

“现在全世界能够提供人工智能算力的只有中国和美国,而且我们现在不需要美国。最近英伟达CEO说(在中国的AI芯片)市场份额从95%降到0,(这是)因为包括华为和其他AI芯片公司可以自己提供。”李俊风表示。

林清源认为,在先进制程被卡在7纳米节点的背景下,不同国产AI芯片的单颗性能差距将日渐缩小,后续考验的是芯片厂商的集群组网能力。华为的组网能力从其已发布的技术文档来看有许多创新点,后续则等待芯片制造产能的释放,向市场推出真正的产品完成商业化验证。

大规模AI算力集群建设依靠芯片厂商的系统化能力积累,除了高门槛的通信优化,还包括散热、故障修复等方面的实力。

“为什么看起来不错的一款芯片,在训练上用就是一件很困难的事?”百度智能云AI计算首席科学家王雁鹏在11月中旬一场昆仑芯的论坛上指出,硬件的稳定性是其中一大挑战。推理场景下,一台机器就能运行一个推理实例。即使发生故障,影响范围也仅限于当时所服务的少量用户。训练任务则截然不同。当前主流大模型的训练规模往往达到万卡级别,训练过程高度同步,意味着任何一块芯片出现故障,整个集群都必须暂停并重新启动。

王雁鹏表示,硬件稳定性问题不可避免,因为晶体管的集成度高、功耗高,随之带来故障率的攀升。即便是英伟达的GPU,也存在故障的可能。由于国产芯片的质量控制能力尚无法与英伟达匹敌,故障率在国产AI芯片上被放大。因此,在集群上线运行之前,需要进行完善的故障检测。

集群还有可能在运行过程中出现“静默故障”,也就是没有任何一块芯片报错,但是训练结果出错。如果无法精准定位到具体出故障的卡上,“整个集群可能就完蛋了。”王雁鹏说,集群必须做到在出现故障时能够快速自愈和恢复,如此才能获得一个相对稳定的算力平台。

在训练与推理市场“抢蛋糕”

上半年中国GenAI IaaS服务市场中,推理场景占比升至42%,训练场景占比则降至58%

尽管市面上出现形形色色的训推一体AI芯片,但真正能用于大模型训练的非常稀少。林清源说,当厂商贴出“训推一体”的标签,很多时候可以直接将其等同为推理芯片。

此前有云厂商人士告诉记者,国产AI芯片用于大模型训练任务难度很高,华为昇腾几乎是唯一可用于大模型训练的芯片。但Bernstein今年7月的一份报告提到,即便是华为昇腾当前的主打型号910C,大部分应用仍然是推理。

基于国产算力开展大模型训练,需付出额外的算力成本与时间代价。今年3月,科大讯飞董事长刘庆峰在接受南都等媒体采访时透露,2024年10月,科大讯飞便完成了深度推理模型的技术路线验证。然而,为了在国产算力平台上进行训练,公司不得不花费额外两个月时间来进行适配工作。所以,使用全国产算力训练模型的代价,不仅体现在国产AI芯片的使用成本更高,也体现在训练消耗的时间更长,拖慢了模型发布的进度。百度是继华为之后,近期公开宣称已将自研芯片集群用于大模型训练的厂商。

即便有了可供模型训练的国产芯片,AI模型公司是否有意愿采用依然有待观察。徐直军在接受媒体群访时类比称:“就像谈恋爱,不谈的话,你怎么知道对方的优缺点。合适不合适,你要谈一下、要用一下,在用的过程中有问题就解决问题。”

面对大模型训练这块难啃的市场,许多国产AI芯片厂商涌入模型推理领域。一方面,推理芯片的设计难度和数据处理规模相对较低;另一方面,AI应用的日益普及,带动推理算力需求高涨。根据市场调研机构IDC10月21日发布的数据,2025年上半年的中国GenAI IaaS服务市场中,推理场景占比上升至42%,训练场景占比则降低至58%。

百度智能云混合云部总经理杜海判断,国产芯片已可以满足当前最先进模型的推理使用。如果将单机扩至更大的集群,国产推理芯片有能力承载万亿参数级别模型的使用。

当前,推理芯片市场的竞争呈现碎片化特征,不仅有所谓训推一体的芯片厂商,也有专门面向推理场景的企业,如商汤芯片业务拆分出来的曦望公司。在技术路线上,推理芯片市场不仅存在海光信息、沐曦、壁仞这些GPGPU(通用GPU)玩家,ASIC(专用集成电路)的厂商也表现抢眼,如寒武纪、华为、阿里平头哥等。

互联网厂商如何直面推理芯片市场的激烈竞争?昆仑芯高级产品总监萧放表示,昆仑芯可以聚焦特定场景做针对性的差异化设计,在架构层面引入适配的特殊工艺,形成性能优势与性价比优势。还可以和百度算法团队密切合作,在芯片设计的长周期过程中提前预判算法演进趋势。

背靠中国头号云厂商阿里云的平头哥,也因此被一些市场人士看好。“大的云厂商,自己做的芯片一定是有市场的,谷歌就是一个很好的案例。”林清源认为,大厂自研AI芯片的下游需求非常明确。即使不对外出售自研的芯片,将其并入云服务的生意中让外部客户来使用,也等效于在卖芯片。相较于外购第三方芯片,使用自研芯片避免了为外部供应商的高毛利买单,从而节省很大一笔成本。

昆仑芯等大厂旗下芯片公司,实际上并不满足于内部使用。例如,今年8月21日,昆仑芯对外宣布中标中国移动集采项目十亿级订单,该项目面向推理型的AI通用计算设备。林清源表示,如果大厂的自研芯片进入外部市场去“卷”,要么得拥有特别突出的性能,要么刚好它们为某个场景做的深度优化适合外部市场需求,此外就只能单纯地去比拼性价比了。

采写:南都记者 杨柳

制图:黄亚岚(豆包AI生成)

相关内容

公布技术参数“颗粒度” 大...
昆仑芯超节点产品。 南都记者 杨柳 摄 如果你想通过官网查看国产...
2025-11-26 07:21:39
连续多年销量第一!海普诺凯...
文丨中童传媒记者 原野 生命早期1000天,是人体发育的关键窗口期...
2025-11-25 22:00:52
历史性一刻!麒麟9030开...
智东西 作者 | 云鹏 编辑 | 漠影 每个人心中,或许都有那么一...
2025-11-25 21:01:42
生态大会和车展均缺席,五菱...
华为乾崑生态大会上,启境、奕境高调亮相,2025广州车展的华为乾崑...
2025-11-25 17:21:40
成本20元售价竟上万,注射...
编辑 |陈晓舒 校对| 张彦君 王妍所在的“生长因子修复维权群”,...
2025-11-25 11:20:46
生产为何频繁“卡壳”?法官...
“设备、模具,究竟是哪里出了问题?” 江苏省兴化市某机械公司 (下...
2025-11-25 08:01:25

热门资讯

孕妈检测出胎儿没有“胎心”究竟... 原标题:孕妈检测出胎儿没有“胎心”究竟为何?多半是这4种原因,预防下 昨天小樱...
耳聋耳背知识分享-----耳朵... 耳朵听力下降恢复方法首先要找出听力下降的病因,其次针对病因进行对症治疗。 耳朵听力下降,如何恢复听...
激光术后护理指南:如何科学恢复... 二氧化碳激光是一种常用于去除瘢痕、色素沉着、皱纹和其他皮肤问题的治疗方法。它通过发射高能量的二氧化碳...
原创 如... 肺是人体非常重要的器官,空气中的很多灰尘和垃圾都会随空气进入肺部,所以肺部的清洁是非常重要的。我们可...
如何有效应对低血压问题,提升生... 血压低,这个问题在生活中并不罕见。很多人可能会觉得,血压低就像是个小毛病,不用太在意。但实际上,低血...
原创 婴... 在宝宝的成长过程中,奶粉作为重要的营养来源,其选择至关重要。那么,什么样的婴儿奶粉比较好呢?奶粉的营...
孩子自控力差?家长如何引导培养 孩子自控力差?家长如何引导培养 在孩子的成长过程中,自控力是一项至关重要的能力。它关乎孩子的学业表现...
存款利息怎么算?湖南农商行存款... 导读湖南农商行存款利息怎么算?湖南农商行作为湖南最大的股份制银行,它是一家地方性、集约化、国际化、股...
宝宝不吸奶瓶的问题如何解决 原标题:宝宝不吸奶瓶的问题如何解决 宝宝出生后不久,有些妈妈因为要上班而不得不...
处暑节气如何做好养生?这些秘笈... 原标题:处暑节气如何做好养生?这些秘笈请收好 处暑的天气多变,可能给我们的身体...