DeepSeek V4 × 昇腾:去 CUDA 化真正难的不是芯片,而是系统
DeepSeek V4 迟迟未发,外界最容易给出的解释是“芯片还没准备好”。这句话不算错,但不够准确。真正拖慢节奏的,不是某一颗昇腾芯片能不能点亮,而是整套 AI 推理基础设施从 Nvidia CUDA 生态迁移到华为 CANN 生态的复杂度,远比市场想象得更高。
如果说 MATCH Act 代表的是外部供给收紧,那么 DeepSeek 转向昇腾代表的,就是内部系统重构。它不是简单的国产替代故事,而是一场带有明显工程代价的基础设施迁移。
先看信号:为什么这件事足够重要
Reuters 报道称,DeepSeek 的下一代模型 V4 将运行在华为设计的最新芯片上,阿里巴巴、字节跳动和腾讯等公司也已预订大批昇腾芯片。单独看其中任何一条,都只是行业新闻;放在一起看,它们构成的是一个清晰信号:越来越多中国 AI 玩家正在把“继续依赖存量 Nvidia”从默认选项,改成过渡状态。
这也是为什么 Nvidia CEO 黄仁勋会公开表达担忧。真正值得警惕的,从来不是中国公司是否买到几批替代芯片,而是它们是否在软件、调度和应用层面,建立起一套不再以 CUDA 为中心的运行体系。一旦这套体系能稳定跑起来,竞争格局就会从“谁拿到更多 Nvidia 卡”转向“谁更快完成平台迁移”。
为什么 V4 一直在跳票
从外部看,模型延期常被理解为训练不够、产品打磨不足或发布节奏调整。但这次更接近一种基础设施级别的耦合问题。
从 CUDA 迁移到 CANN,并不只是改一下驱动或替换底层库。它意味着编译器、运行时环境、算子适配、推理引擎、内核融合、监控调试和集群调度都要重新磨合。一个模型在实验室里能跑起来,不等于它能在真实流量下稳定提供服务;一套 benchmark 能成立,也不等于线上成本就具备商业意义。
因此,V4 的延迟本身不是负面噪音,反而是最诚实的信号:迁移难度真实存在,而且难点主要集中在系统层,而非单点硬件参数。
950PR 看起来够强,但“账面参数”不是终点
华为在 2026 年中国合作伙伴大会上发布的 Atlas 350 加速卡,给外界提供了一个评估窗口。搭载 Ascend 950PR 芯片,这套卡的公开规格包括 1.56 PFLOPS 的 FP4 算力、112GB HBM、2 TB/s 级别互联带宽和 600W 功耗。单看这些数字,它已经不是“能不能替代”的问题,而是进入了“替代后损失多少效率”的比较区间。
更值得关注的是华为的架构思路。950PR 主要针对 prefill,也就是长提示词输入和上下文构建阶段;计划中的 950DT 则面向 decode 和训练任务,给出更大的 144GB 内存与更高带宽。这种 prefill/decode 分离设计在理论上很合理,因为推理流程本就不是同一种负载:前者更偏计算峰值,后者更受内存与带宽约束。
问题在于,架构上更合理,往往也意味着系统上更复杂。你不是只部署一批统一规格的加速卡,而是要让不同芯片在同一集群内被高效调度。运营层一旦处理不好,硬件账面上的优势就很容易在系统效率里被吃掉。
真正的瓶颈:软件生态成熟度
AI 基础设施竞争,最终很少输在宣传材料上,多半输在生态细节里。Nvidia 的核心优势,从来不只是芯片性能,而是 CUDA 用十多年积累出来的默认地位:开发者熟悉它,框架支持它,工具链围绕它,线上问题也更容易被定位和修复。
华为的 CANN 正在快速追赶,这一点不能低估。vLLM 已经提供 Ascend 插件路径,MiniMax M2.7 也做到了首日适配,这些都说明国产生态已经不再停留在“纸面兼容”。但要把“可以运行”变成“可大规模商用”,中间仍隔着好几道门槛:算子覆盖率是否足够、内核融合是否高效、调试工具是否成熟、线上故障是否能快速闭环。
对一个模型公司而言,最可怕的并不是平均性能差 10%,而是峰值时段突然不稳定、成本难以预测、问题排查周期太长。后者才是真正阻碍商业部署的因素。
还有一层约束:制造与封装
即便软件侧逐步成熟,硬件供给本身也不是无限的。Brookings 估计,华为昇腾 950PR 在 2026 年的预期产量约为 75 万颗,寒武纪计划交付 50 万颗 AI 加速器。放在行业语境里,这已经不是小数字,但放到中国主要 AI 厂商的总需求面前,依旧偏紧。
更关键的是,Ascend 950 系列被广泛认为依赖中芯国际 N+3 工艺以及 DUV 多重曝光路径,这让它与前文讨论的 MATCH Act 形成直接联动。也就是说,昇腾不是与政策风险无关的纯内部变量,它本身就运行在被外部政策紧盯的制造路径上。再往后看,先进封装与 HBM 集成能力也是约束项。没有这些配套,芯片规格再强,也难真正形成稳定供给。
这场迁移,应该怎样判断
最容易犯的错误,是把这件事理解成“成功”或“失败”的二元判断。现实更可能是一种分层迁移:部分工作负载先迁,部分高端场景继续依赖 Nvidia,部分公司为了控制风险维持双栈运行。这样的过渡并不漂亮,但非常现实。
因此,更合理的观察指标不是“DeepSeek 有没有彻底摆脱 CUDA”,而是三个问题:第一,V4 在昇腾上的上线稳定性如何;第二,真实流量下的 cost-per-token 是否成立;第三,CANN 生态是否能持续缩短与 CUDA 的工程差距。
总结和推断
DeepSeek V4 × 昇腾的意义,不在于它宣布了某种已经完成的国产替代,而在于它把中国 AI 行业最关键的一场基础设施实验推到了台前。真正的门槛不在硬件发布会,不在纸面参数,而在软件栈、调度层和商用稳定性。
如果这场迁移顺利,中国 AI 推理栈的竞争逻辑会被重写;如果迁移长期卡在系统复杂度上,那么所谓“去 CUDA 化”就仍然只是方向,而不是能力。V4 之所以重要,正是因为它会给出第一批足够可信的答案。
可信度:事实与推断结合 · 一级源+二级源交叉验证


