DeepSeek-V4震撼登场！百万上下文成新标配华为昇腾与英伟达共筑技术基石

来源：未知作者：佚名发布时间：2026-04-24 16:09:51

徽声在线4月24日讯（记者付静）今日上午，深度求索公司正式对外宣布，其全新系列大模型DeepSeek-V4的预览版已全面上线，并同步开源，同时API服务也完成了更新迭代。据官方介绍，DeepSeek-V4拥有百万级别的超长上下文处理能力，在Agent智能体能力、世界知识储备以及推理性能上均实现了国内乃至开源领域的领先地位，深度求索官方自豪地宣称：“我们已正式迈入百万上下文普惠的新纪元。”

DeepSeek无疑是2025年科技界的一颗璀璨明星，年初便有消息传出DeepSeek-V4将在春节前后发布，这一消息瞬间点燃了业内的讨论热情，大模型行业的竞争也因此变得空前激烈。新产品如雨后春笋般涌现，C端营销手段层出不穷，新概念更是让人目不暇接，技术谱系也在不断加速扩展。然而，直到今日，DeepSeek-V4才终于揭开了它神秘的面纱。

“对于每家厂商来说，DeepSeek的出现都带来了不小的压力。”一位长期与多家国产模型厂商及互联网大厂保持紧密合作的AI产业链人士向徽声在线记者如此评价道。

徽声在线记者通过多方采访了解到，通过接入DeepSeek并将其与多款国产大模型进行协同应用，国内众多垂类平台和场景在成本与效率之间找到了完美的平衡点。因此，DeepSeek的下一代旗舰模型也备受用户期待，其中，DeepSeek-V4的上下文长度、Agent能力、推理成本、AI编程能力、多模态能力以及模型参数维度等均成为了行业关注的焦点。

DeepSeek时刻再次降临

深度求索方面透露，DeepSeek-V4模型根据规模大小分为DeepSeek-V4-Pro和DeepSeek-V4-Flash两个版本，上下文长度均达到了惊人的1M（即一百万）。“从现在开始，1M上下文将成为DeepSeek所有官方服务的标配。”深度求索官方坚定地表示。

DeepSeek-V4-Pro的最大亮点在于其Agent能力得到了显著提升。在Agentic Coding评测中，V4-Pro已经达到了当前开源模型的最佳水平，目前已成为公司内部员工使用的Agentic Coding模型。据评测反馈，其使用体验优于Sonnet 4.5，交付质量接近Opus 4.6的非思考模式，但仍与Opus 4.6的思考模式存在一定差距。

同时，DeepSeek-V4-Pro在世界知识测评中也表现出色，大幅领先其他开源模型，仅稍逊于闭源模型Gemini-Pro-3.1。在推理性能方面，其在数学、STEM以及竞赛型代码的测评中均超越了当前所有已公开评测的开源模型，取得了与世界顶级闭源模型相媲美的优异成绩。

相比之下，DeepSeek-V4-Flash则被誉为“更快捷高效的经济之选”，其模型参数和激活量更小，更适合对成本敏感的应用场景。

尤为值得一提的是DeepSeek-V4的结构创新。

据介绍，DeepSeek-V4开创了一种全新的注意力机制，通过在token维度进行压缩，并结合DSA稀疏注意力（DeepSeek Sparse Attention），实现了长上下文处理能力，并且相比传统方法大幅降低了对计算和显存的需求，为长文本处理提供了更为高效的解决方案。

徽声在线记者还注意到，深度求索在DeepSeek-V4的技术报告中罕见地将华为昇腾和英伟达共同提及：“我们在英伟达GPU和华为昇腾NPU平台上验证了细粒度EP（专家并行）方案。”这一举措无疑展示了深度求索在硬件兼容性方面的开放态度。

DeepSeek表示，受限于高端算力，目前DeepSeek-V4-Pro的服务吞吐量十分有限。但预计下半年昇腾950超节点批量上市后，Pro版本的价格将大幅下调，届时将有更多用户能够享受到这一先进模型带来的便利。

DeepSeek-V4的另一大亮点在于其针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent进行了适配和优化，在代码任务、文档生成任务等方面的表现均有显著提升。

徽声在线记者了解到，自今年1月以来，DeepSeek-V4的部分技术创新点已经被陆续“剧透”。

2月11日，DeepSeek的App端和网页端已经悄然开始灰度测试一项重大升级。徽声在线记者实测发现，模型上下文窗口长度直接增至1M token。DeepSeek官方表示：“一次性读完《三体》三部曲完全没问题，70万个中文字符以内随便发。”此外，版本模型的知识库截止时间也更新至了2025年5月。

2月11日灰度测试版DeepSeek的回复

在此之前，DeepSeek还罕见地连发两篇论文，公司创始人梁文锋均亲自署名参与。

其中，第一篇论文公开的mHC（Manifold-Constrained Hyper-Connections，流形约束超连接）技术，有效解决了大规模模型训练中的稳定性问题；第二篇论文则提出了名为Engram（条件记忆）的全新模块，其颠覆性在于实现了适配超长上下文场景的“存算分离”。DeepSeek实测数据显示，即使挂载了100B（千亿）参数的Engram表到CPU内存，相比于纯GPU推理，吞吐量的下降也不到3%。

野村证券在一份研报中预测，V4在技术路径上将融合mHC和Engram两大技术，其技术突破将有效打破“芯片墙”与“内存墙”的桎梏，为AI大模型的发展开辟新的道路。

据了解，DeepSeek的V系列是通用大模型的主线迭代版本，擅长百科、写作、代码生成等常规任务，响应速度快。2024年初、年中、年末，DeepSeek-V1、V2、V3分别上线。而DeepSeek的R系列则侧重于推理增强，擅长数学、物理、逻辑谜题等需要分步思考的任务，会展示详细的“思维链”。去年1月22日，DeepSeek-R1的相关论文正式发布。

从DeepSeek的迭代进展来看，去年V系列先后完成了小版本升级（版本号DeepSeek-V3-0324）、发布DeepSeek-V3.1、更新至DeepSeek-V3.1-Terminus版本、发布DeepSeek-V3.2-Exp模型（实验性版本）、发布正式版DeepSeek-V3.2和DeepSeek-V3.2-Speciale等动作，展现了其强大的研发实力和迭代速度。

值得一提的是，目前DeepSeek仍未上线多模态能力，专注于纯文本和语音交互领域。

此前，徽声在线记者与灰度测试版DeepSeek对话时，其表示自身还不具备“原生”的多模态理解能力。当记者进一步询问当前版本号时，其回应：“关于我目前的具体版本，情况有些特殊：这次更新后，我并没有一个像V4或R1那样具体的版本号。”

2月14日灰度测试版DeepSeek的回复

AI产品经理张亮告诉徽声在线记者：“未来要实现AGI（通用人工智能），AI大模型一定是多模态融合的方向，这是一个共识。多模态于DeepSeek而言可能是绕不过去的一个能力，未来不仅仅是要理解文本，还要能理解图片、视频甚至物理事件。”

行业将迎新一轮“洗牌”吗？

深度求索官方在DeepSeek-V4的官宣文稿的最后，引用了一句出自《荀子·非十二子》的名言：“不诱于誉，不恐于诽，率道而行，端然正己。”

过去几个月，业内不断传出DeepSeek-V4“跳票”、公司人才流失严重、对外寻求融资、去CUDA化等消息。《财经》杂志今日上午发布的独家消息称，DeepSeek计划融资18亿美元，投资方为阿里和腾讯。

一向较为低调的深度求索似乎用上述16个字做出了回应，其背后的深意值得细细品味。

那么，DeepSeek-V4的问世，是否可能引发行业的新一轮洗牌呢？

在张亮看来，会不会引发新一轮洗牌，重点还是看DeepSeek-V4在整个范式、代际上是否有重大提升。他提到，参考去年备受瞩目的DeepSeek-R1，思维链和推理成本的大幅下降就是明显的两点提升。

不过IDC中国研究总监卢言霞则告诉徽声在线记者，这款‌被寄予厚望的新品“谈不上会对市场格局带来大的洗牌，因为DeepSeek已经是数一数二的了。”

此前，卢言霞曾表示，面对DeepSeek-V4，几家大厂“一定会有压力”。原因在于，DeepSeek是开源模型，而当前行业企业用户倾向于私有化部署，一般会选择开源模型。“所以如果DeepSeek继续保持技术领先优势，那它有望成为事实上的Top1大模型。”

徽声在线记者也从业内获悉，随着模型上限不断接近、模型更迭更加频繁，各厂商如何结合自身优势，借势模型能力的提升巩固生态占位，或将是下半场竞争的核心所在。

回顾2025年初，凭借着开源和低成本的优势，DeepSeek曾打破了原有市场格局，科技巨头和头部初创模型厂商纷纷感受到压力。

2026年则更像是中国AI模型产品的“大年”。

2月，或是由于业内传言DeepSeek-V4即将发布的消息，国内几家科技巨头趁着春节再度打响流量入口战。从成效来看，各厂商的营销投入推动了AI应用的普及，豆包、元宝、千问与DeepSeek均跻身“月活跃用户（MAU）亿级俱乐部”。

同时，在产品层面，字节跳动视频生成模型Seedance 2.0、图像模型Seedream 5.0 Lite引发广泛关注，2月14日豆包大模型2.0正式发布。除夕夜，阿里还开源了新一代千问Qwen3.5模型。

几乎同一时间，几家模型厂商也抛出重磅炸弹，Kimi K2.5、GLM-5、MiniMax M2.5等模型密集发布。

而在本月，包括Qwen3.6-Plus、Xiaomi MiMo-V2.5、Hy3 preview在内的多款模型也相继发布。

技术谱系加速扩展

徽声在线记者观察到，自ChatGPT引爆此轮人工智能浪潮以来，产业创新迭代令人应接不暇，各头部厂商均在持续刷新各方向SOTA（state-of-the-art，当前最高水平）、加速推动技术谱系扩展，特别是上下文、Agent能力等方面在近期受到广泛关注。

上下文（Context）方面，从行业进展来看，谷歌Gemini系列于2024年最早支持百万级超长上下文，今年2月发布的Claude Opus 4.6也刚刚实现了此能力。

2月初，腾讯首席AI科学家姚顺雨执掌AI之后的第一项公开署名研究发布，同样聚焦上下文领域。其团队指出：“要让大模型学会从上下文中学习，远比我们想象的要难。并且，即便抹平了上下文带来的信息差，模型也未必能解决问题，这说明模型在上下文利用上，依然存在显著的能力短板。”

Agent方面，开源AI智能体OpenClaw“龙虾”成为现象级产品，即便并非是一款适合普通消费者的产品，但也推动了智能体的普及和发展。

“3月开始‘龙虾’爆火，4月很快就回归了理性，热度有所下降，不过产品的演化速度其实一点都没有降低。我们的初步结论就是，‘龙虾’所带来的智能体的技术革命是不可逆转的。”英特尔中国区技术部总经理高宇对徽声在线记者表示。

Skills方面同样热度不减。

Agent Skills由元数据（简要描述）、可配置脚本、执行模板和详细说明等构成，支持复杂工作流的打包与复用。其关键优势在于可控性，通过结构化能力模块与思维链编排机制，使大模型具备可控、可复用、可持续优化的研究执行能力。该技术已应用于不少垂类场景，众多厂商正在打造AI Skill生态，涉及智能搜索、视频快剪、游戏辅助、安全护栏等多个领域。

此前，徽声在线记者从金融科技服务商进门方面了解到，其AI产品“进宝”的“投研大脑”能力就类似于Agent Skills。“从行业进化角度看，Skills将推动AI应用从通用聊天走向领域专家；通过将特定工作流程固化为可复用的模块，解决了通用模型懂道理却不会按你的规矩干活的核心痛点；让行业竞争壁垒从比拼基础模型大小，转向比拼高质量、专业化Skills生态的构建。”该公司CTO姜锐锋介绍道。

DeepSeek在多领域“出圈”

当前，2025年科技圈“顶流”DeepSeek的能力已在多领域“出圈”。DeepSeek-V3上线后，随后DeepSeek-R1在去年春节前夕横空出世，引发全球关注，英伟达市值单日蒸发5930亿美元。从随后各厂商拥抱“顶流”的进展来看，去年春节期间由科技公司打头阵，三大运营商、阿里、腾讯、字节、百度等旗下云平台、应用端产品等率先接入DeepSeek-R1/V3，随后各地政府、央国企等也均在加速适配DeepSeek。

站在垂类应用视角，“不管是从归纳总结还是生成最终的回复上，DeepSeek对于投研行业的适配度还是很高的。”姜锐锋介绍道。其公司的AI产品方案更多地是多模型协同完成，包括用DeepSeek完成语义路由的能力，匹配最能解决用户问题的投研思维链；用Kimi k2.5处理投研工具的调用；让豆包模型对工具返回结果做裁剪；最终由DeepSeek来汇总输出。这不仅解决了单一模型的能力问题，更通过分工隐含地兼顾了成本与效率。

野村证券研报此前也指出，预计mHC和Engram的结合将让DeepSeek-V4更适合医疗、法律、金融等知识密集型领域的行业大模型训练，为这些领域带来更为智能化的解决方案。

在软件领域，去年上半年，徽声在线记者在调研某A股软件公司时注意到其办公室内部墙壁上张贴的业务建议中提到，所有工作的目标和内容都关联到DeepSeek，所有工作的过程和方法都充分运用DeepSeek。这充分展示了DeepSeek在软件领域的广泛应用和深入影响。

图片来源：徽声在线记者/摄

腾讯元宝去年12月发布的《元宝×DeepSeek年度报告》称，自去年2月接入DeepSeek以来，元宝持续更新DeepSeek的最新模型，用户规模逐步扩大。报告发布当天使用量达到新高，较年初增长超过100倍。目前，元宝在国内原生AI应用中处于前三的位置，展现了DeepSeek在AI应用领域的强大影响力。

硬件方面，一体机这一品类也因为DeepSeek而走红。据媒体不完全统计，截至去年2月底，就有超60家企业宣布基于DeepSeek推出一体机。市面上常见的一体机分为推理、训推两种，内置DeepSeek-R1 32B、70B、满血版671B等不同尺寸模型，满足了不同用户的需求。

去年年中，OPPO方面透露，旗下人工智能助手“小布助手”系全球接入DeepSeek设备量最大的手机智能助理，进一步证明了DeepSeek在硬件领域的广泛渗透和深入应用。

站在开发者视角，张亮向徽声在线记者提到这一群体对DeepSeek-V4的期待：开发者比较关注新模型在参数维度上是否更加全面和灵活。

他介绍道，千问在开发者群体中的应用范围非常广，是因为模型参数涉猎的范围非常广。“哪怕是一个非常低配的GPU，也能够去找到对应参数的小模型去部署。但是DeepSeek是缺乏这样的小模型参数的，对于中小企业、开发者不太友好。”张亮如是说。

此前，DeepSeek凭借开源策略和极致性价比，在全球建立了扎实口碑。而对于DeepSeek-V4，野村证券分析认为，其核心价值在于通过底层架构创新推动AI应用商业化落地，赋能本土算力硬件与AI应用双向发展，为AI产业的未来发展注入新的活力。