DeepSeek V4 × 昇腾：去 CUDA 化真正难的不是芯片，而是系统

Apr 23, 2026

DeepSeek V4 迟迟未发，外界最容易给出的解释是“芯片还没准备好”。这句话不算错，但不够准确。真正拖慢节奏的，不是某一颗昇腾芯片能不能点亮，而是整套 AI 推理基础设施从 Nvidia CUDA 生态迁移到华为 CANN 生态的复杂度，远比市场想象得更高。

如果说 MATCH Act 代表的是外部供给收紧，那么 DeepSeek 转向昇腾代表的，就是内部系统重构。它不是简单的国产替代故事，而是一场带有明显工程代价的基础设施迁移。

先看信号：为什么这件事足够重要

Reuters 报道称，DeepSeek 的下一代模型 V4 将运行在华为设计的最新芯片上，阿里巴巴、字节跳动和腾讯等公司也已预订大批昇腾芯片。单独看其中任何一条，都只是行业新闻；放在一起看，它们构成的是一个清晰信号：越来越多中国 AI 玩家正在把“继续依赖存量 Nvidia”从默认选项，改成过渡状态。

这也是为什么 Nvidia CEO 黄仁勋会公开表达担忧。真正值得警惕的，从来不是中国公司是否买到几批替代芯片，而是它们是否在软件、调度和应用层面，建立起一套不再以 CUDA 为中心的运行体系。一旦这套体系能稳定跑起来，竞争格局就会从“谁拿到更多 Nvidia 卡”转向“谁更快完成平台迁移”。

为什么 V4 一直在跳票

从外部看，模型延期常被理解为训练不够、产品打磨不足或发布节奏调整。但这次更接近一种基础设施级别的耦合问题。

从 CUDA 迁移到 CANN，并不只是改一下驱动或替换底层库。它意味着编译器、运行时环境、算子适配、推理引擎、内核融合、监控调试和集群调度都要重新磨合。一个模型在实验室里能跑起来，不等于它能在真实流量下稳定提供服务；一套 benchmark 能成立，也不等于线上成本就具备商业意义。

因此，V4 的延迟本身不是负面噪音，反而是最诚实的信号：迁移难度真实存在，而且难点主要集中在系统层，而非单点硬件参数。

950PR 看起来够强，但“账面参数”不是终点

华为在 2026 年中国合作伙伴大会上发布的 Atlas 350 加速卡，给外界提供了一个评估窗口。搭载 Ascend 950PR 芯片，这套卡的公开规格包括 1.56 PFLOPS 的 FP4 算力、112GB HBM、2 TB/s 级别互联带宽和 600W 功耗。单看这些数字，它已经不是“能不能替代”的问题，而是进入了“替代后损失多少效率”的比较区间。

更值得关注的是华为的架构思路。950PR 主要针对 prefill，也就是长提示词输入和上下文构建阶段；计划中的 950DT 则面向 decode 和训练任务，给出更大的 144GB 内存与更高带宽。这种 prefill/decode 分离设计在理论上很合理，因为推理流程本就不是同一种负载：前者更偏计算峰值，后者更受内存与带宽约束。

问题在于，架构上更合理，往往也意味着系统上更复杂。你不是只部署一批统一规格的加速卡，而是要让不同芯片在同一集群内被高效调度。运营层一旦处理不好，硬件账面上的优势就很容易在系统效率里被吃掉。

真正的瓶颈：软件生态成熟度

AI 基础设施竞争，最终很少输在宣传材料上，多半输在生态细节里。Nvidia 的核心优势，从来不只是芯片性能，而是 CUDA 用十多年积累出来的默认地位：开发者熟悉它，框架支持它，工具链围绕它，线上问题也更容易被定位和修复。

华为的 CANN 正在快速追赶，这一点不能低估。vLLM 已经提供 Ascend 插件路径，MiniMax M2.7 也做到了首日适配，这些都说明国产生态已经不再停留在“纸面兼容”。但要把“可以运行”变成“可大规模商用”，中间仍隔着好几道门槛：算子覆盖率是否足够、内核融合是否高效、调试工具是否成熟、线上故障是否能快速闭环。

对一个模型公司而言，最可怕的并不是平均性能差 10%，而是峰值时段突然不稳定、成本难以预测、问题排查周期太长。后者才是真正阻碍商业部署的因素。

还有一层约束：制造与封装

即便软件侧逐步成熟，硬件供给本身也不是无限的。Brookings 估计，华为昇腾 950PR 在 2026 年的预期产量约为 75 万颗，寒武纪计划交付 50 万颗 AI 加速器。放在行业语境里，这已经不是小数字，但放到中国主要 AI 厂商的总需求面前，依旧偏紧。

更关键的是，Ascend 950 系列被广泛认为依赖中芯国际 N+3 工艺以及 DUV 多重曝光路径，这让它与前文讨论的 MATCH Act 形成直接联动。也就是说，昇腾不是与政策风险无关的纯内部变量，它本身就运行在被外部政策紧盯的制造路径上。再往后看，先进封装与 HBM 集成能力也是约束项。没有这些配套，芯片规格再强，也难真正形成稳定供给。

这场迁移，应该怎样判断

最容易犯的错误，是把这件事理解成“成功”或“失败”的二元判断。现实更可能是一种分层迁移：部分工作负载先迁，部分高端场景继续依赖 Nvidia，部分公司为了控制风险维持双栈运行。这样的过渡并不漂亮，但非常现实。

因此，更合理的观察指标不是“DeepSeek 有没有彻底摆脱 CUDA”，而是三个问题：第一，V4 在昇腾上的上线稳定性如何；第二，真实流量下的 cost-per-token 是否成立；第三，CANN 生态是否能持续缩短与 CUDA 的工程差距。

总结和推断

DeepSeek V4 × 昇腾的意义，不在于它宣布了某种已经完成的国产替代，而在于它把中国 AI 行业最关键的一场基础设施实验推到了台前。真正的门槛不在硬件发布会，不在纸面参数，而在软件栈、调度层和商用稳定性。

如果这场迁移顺利，中国 AI 推理栈的竞争逻辑会被重写；如果迁移长期卡在系统复杂度上，那么所谓“去 CUDA 化”就仍然只是方向，而不是能力。V4 之所以重要，正是因为它会给出第一批足够可信的答案。

可信度：事实与推断结合 · 一级源+二级源交叉验证

Silicon Road · 硅路

Discussion about this post

Ready for more?