Skip to main content
 仿站网 » 仿站教程 » 互联网运营

DeepSeek V4第一批实测结果:性价比确实够狠 但有些活它还接不住

2026年04月27日20百度已收录

DeepSeek V4到底能不能打?上线三天,第一批真实测试的结果陆续出来了。

它的纸面数据很猛,参数量最高到了1.6万亿,上下文窗口拉到100万token,API价格比GPT-5.5便宜了一个数量级。

但三天下来最让人意外的,不是顶配的Pro,而是最便宜的Flash。

有人拿20个真实任务把V4的四个版本全测了一遍,结果Flash赢了7个,好几个编码任务里它用更少的token,做出了和贵几十倍的Pro一样甚至更好的结果。

当然它也没强到可以闭眼吹。碰上复杂工程落地、精致前端、第一次就得成活的任务,GPT-5.5和Claude Opus 4.7仍然更稳。V4没有全面超车,但它正在把这场竞争从“谁最强”推向“谁最适合干哪种活”。

实测出真知:最便宜的Flash,成了最大黑马?

很多人拿到新模型的第一反应,就是开最强的模式,跑最狠的测试。

但AI工程师Chew Loong Nian不这么想。他在DeepSeek V4发布后几小时内,就搭建了一个包含20个真实世界任务的测试框架,把V4家族的四个模式全部拉出来遛了一遍,分别是V4-Pro、V4-Pro-Max(最大推理努力)、V4-Flash,还有V4-Flash-Max。

这里需要先理清这几个模式的区别。DeepSeek V4分成了Pro和Flash两条产品线。Pro是更大的选项,参数达到1.6万亿,面向更深度的推理、更难的编码任务、研究以及长上下文工作。Flash则是更小、更快的选项,总参数2840亿,仅13亿激活参数,专为速度、更低成本以及需要重复调用模型的智能体工作流而生。

在这两个版本之上,用户还可以选择是否开启“深度思考”模式。开启之后,模型会花更多时间进行推理,在解决问题时展示出每一步思考过程,这通常会改善最终结果,但代价是响应速度变慢。

Chew Loong Nian的测试,就是把这四种组合并行投入实战。他的测试任务不是什么抽象基准,而是实打实的编码、Agent工作流、复杂推理和实际项目等场景。

结果让人大跌眼镜。赢的不是参数最大、思考最深的Pro-Max,而是最便宜、最轻量的Flash。就是这个每百万token输入成本仅约0.14美元的模型,在20个任务中硬生生拿下了7个第一。

其中5个是编码任务。在这些任务里,Pro-Max虽然思考了更久,输出的token量是Flash的4.3倍,但最终的答案却和Flash相同,甚至更差。一个典型的场景是,Flash用800个token就干净利落解决的问题,Pro-Max要花掉3400个token,成本相差了大约120倍。

这个发现很反直觉,但也很致命。它揭示了一个容易被忽视的事实,即更贵的模式、更深的思考,并不一定带来更好的实际产出。很多时候,Flash之所以能赢,恰恰是因为它没有被过多的思考带偏方向,反而更直接地命中了问题的核心。

Chew Loong Nian总结道,除非你的任务特别需要极致的深度推理,否则开发者在实际项目中应该优先考虑Flash。它用实际表现证明了,在大多数真实场景下,性价比并非一种妥协,本身就是一种强大的能力。

他还提到了DeepSeek在KV Cache压缩上的一个创新,被形容为没人预见到的10% KV缓存技巧。正是这项技术,让Flash能在极低的成本下依然维持高水平的性能表现。这是支撑其性价比优势的工程底座。

Pro的对手,是另一个维度的“人”

当然,这不代表Pro版本就弱。恰恰相反,DeepSeek给V4-Pro定的目标,直接对标的是当今世界的顶级闭源模型。

《麻省理工科技评论》引用了DeepSeek官方分享的基准测试结果,指出V4-Pro的性能与Anthropic的Claude Opus 4.6、OpenAI的GPT-5.4和谷歌Gemini 3.1相当。与其他开源模型相比,比如阿里巴巴的Qwen 3.5或Z.ai的GLM 5.1,V4在编码、数学和STEM问题上全面超越,成为有史以来最强大的开源模型之一。

但在一些第三方汇总的评估中,它与头部模型的差距依然存在。

专注AI新闻分析的网友@thehypedotnews根据一个名为人工智能分析智能指数的评估框架,给出了这样一组对比。如果将顶级模型的能力指数化,GPT-5.5是60,Claude Opus 4.7是57,DeepSeek V4-Pro则是52。

性能低了约13%,但价格呢?

他紧接着算了一笔更让人震撼的账。每百万token输出价格的加权平均值,在不考虑任何折扣的情况下,GPT-5.5是30.21美元,Claude Opus 4.7是25美元,而DeepSeek V4-Pro只要1.73美元。

更狠的是,如果在V4发布初期的75%促销折扣期间使用,Pro的输出价格会进一步降至0.87美元每百万token。这个价格,比GPT-5.5便宜了35倍,比Claude Opus便宜了29倍。

用13%的性能差距,换一个35倍的价格优势,这已经不是同一个维度的竞争了。@thehypedotnews评论说,当一个模型能以6%的成本提供87%的能力时,我们更优秀就不再是唯一的卖点了。AI的商业化应用,正在以一种粗暴的方式被商品化,而DeepSeek V4无疑是这场价格战最激进的发起者。

不仅如此,DeepSeek还进一步将输入缓存价格下调至原来的十分之一。开源版本采用MIT许可协议、允许免费自托管,同时云端API定价又极具攻击性,这种打法被形容为掌控市场两端。开发者既可以选择完全免费的本地部署,也可以以极低的成本调用云端服务。这给了使用者前所未有的灵活空间。

实战的B面:当“跑分王者”遭遇“滑铁卢”

但性价比的账算得再漂亮,终究要经受一个检验。当这些模型被投入真实的、复杂的、不可预测的任务中时,纸面上的优势还能兑现多少?

AI应用开发与测试团队Build Fast with AI设计了一场堪称残酷的终极压力测试。他们将2026年4月的三大巨头,即GPT-5.5、DeepSeek V4和Claude Opus 4.7,置于一个单一自主循环中,要求它们从零构建一个宝可梦风格的完整战斗引擎。这不是写个静态页面,而是要做出一个功能完整的游戏。

结果成了清晰的分水岭。GPT-5.5的表现被描述为以压倒性优势获胜。它不仅写了代码,还自主调用了GPT-image-2图像模型,为游戏生成了赛博狼和霓虹龙等怪物资源。

它构建了一个响应式的HUD界面,并且在测试者说运行之前,就已经自我修正了战斗日志中的状态不匹配问题。整个表现,被形容为像一位资深首席架构师。

Claude Opus 4.7呢?组件结构写得很出色,但游戏循环崩溃了,从未真正运行起来。

而DeepSeek V4交出的答卷更为惨淡,那是一个静态的UI界面,逻辑存在错误,游戏根本无法运行。

在这场测试中,Opus和DeepSeek连一个功能循环都难以实现。Build Fast with AI借此提出了一个判断,到了2026年,我们需要的已经不只是能懂代码的模型了,而是能执行任务的智能代理,能自主规划、调用工具、修正错误、完整交付成果。

类似的挫败也出现在更垂直的领域。AI Agent开发与测试员@akokoi1分享了他用DeepSeek V4做量化交易的经历。策略和代码全线交给V4自己写。他接入了OKX刚开源的agent-trade-kit,一个MCP服务器,能把现货、合约、期权、网格交易、算法单的接口全部直接提供给AI调用。

他说,和传统的编程时代相比,现在的工作流完全变了。过去写量化交易,需要自己读交易所文档、封装REST和WebSocket接口、处理签名鉴权、踩限频的坑、做双向对账,代码里有一半都在处理这些基础设施。而现在,他只需要直接调用MCP工具拿K线数据、下单、设止损,把精力全放在描述策略逻辑上。

他坦言V4写代码本身是足够用的,逻辑顺、能看懂市场结构、能把指标拼起来。策略报告写得有板有眼,前端写得也很不错,非常自信。但跑起来就拉胯了。

自动运行了一天,一开始几笔是盈利的,之后就一直在亏损。他用“再这么亏下去裤衩都会亏没”来形容这种挫败感。模型在纸面上把策略分析得头头是道,代码看起来也像模像样,但一旦接入真实市场,面对噪音、波动和不可预知的边缘情况,就露出了破绽。

接下来他打算把同样的策略交给Claude Opus和GPT-5.5再各写一套,看看不同模型在量化策略这个具体场景上,风格和能力差异能有多大。

这些测试描摹出了V4的一个弱点。在需要复杂工程落地或高度复杂的真实代码库环境中,它的表现依然不尽如人意。虽然对于很多任务来说它是极具性价比的选择,但在面对最苛刻的编程挑战时,GPT-5.5和Claude仍是更可靠的选择。

这不是说V4不好,而是明确了它的边界。别当成能包揽一切的神器,至少在需要审美判断和工程精细度的工作上,GPT-5.5和Claude仍然更稳。

长上下文:一张真正的王牌,附赠一个现实的注脚

如果把V4的能力比作一张拼图,那么100万token的上下文窗口,无疑是其中面积最大、也最引人注目的一块。

100万token是什么概念?它大到足以容纳《指环王》三部曲和《霍比特人》的总和。DeepSeek表示,这个上下文窗口大小现已成为所有DeepSeek服务的默认设置,与Gemini和Claude等模型的前沿版本处于同一级别。

但真正关键的不只是做到了,而是怎么做到的。《麻省理工科技评论》详细拆解了背后的技术思路。V4对其前代模型的注意力机制进行了重大的架构变革。传统的AI模型在处理长文本时,需要将文中每个部分与其他所有部分的关系都进行计算,文本越长,这种比较的成本就呈指数级攀升。这是长上下文模型的主要瓶颈。

DeepSeek的创新在于,让模型对什么值得关注变得更聪明、更挑剔。

V4采用了一种混合注意力架构,不会将之前所有的文本都视为同等重要。它会有选择地压缩较早的历史信息,聚焦于当下最可能相关的部分,同时完整保留临近的文本,以免遗漏重要细节。

官方给出的效率提升数据相当惊人。在处理100万token的上下文时,V4-Pro仅使用了其前代模型V3.2所需算力的27%,内存使用量削减至10%。而V4-Flash的降幅更大,仅消耗了10%的算力和7%的内存。

这意味着,构建那些需要海量材料支撑的AI工具,比如能读取整个代码库的编码助手、能分析长篇文档的研究智能体,在成本上将变得切实可行。

那么,实际效果如何?AI从业者ByteWaveNetwork在V4发布后两天,就针对1M上下文真正可用这个说法做了一次可复现的测试。他在GitHub上公开了完整的测试代码和复现仓库。

测试方法是经典的大海捞针。他生成一个超大的填充文档,大量重复的企业风格无意义文本构成了干草堆,在其中随机隐藏一个具体的关键事实作为针。

然后将整个文档喂给模型,让它回答文档中是否提到了这个事实、在哪里以及内容是什么。评分标准分为三个等级,完全准确、部分正确、完全遗漏。

他的核心发现是,V4的混合注意力架构确实显著提升了长上下文下的检索稳定性。在100万token级别,模型能够较为可靠地找到隐藏的信息,准确率较高。这个结果是积极的,印证了官方的技术声明并非空谈。

但他也同时指出了一个实际生产中的痛点,即响应延迟的方差较大。有时候反应很快,有时候则明显变慢。对于需要稳定响应时间的生产环境来说,这种不确定性是一个真实的问题。

他的总结是,如果你能接受偶尔不确定的延迟,V4的长上下文检索能力是过硬的。但如果追求极致的一致性,可能还需要进一步优化或结合缓存策略。

这个注脚很务实,也很有必要。100万token的上下文不是万能药,工程落地时,延迟、成本和具体场景的适配,依然是需要逐个解决的课题。

冰山之下:一场软硬件协同的“系统战”

如果说上述一切还停留在产品和技术层面,那么《麻省理工科技评论》的报道点出了V4更深层的战略意义。文章提炼了此次发布之所以重要的第三个原因,它标志着在摆脱对英伟达依赖的艰难道路上,迈出了第一步。

V4是DeepSeek首款针对华为昇腾等中国国产芯片进行优化的模型。

这件事的分量,早在发布前就有迹可循。据The Information早些时候的报道,DeepSeek并未让英伟达和AMD等美国芯片制造商提前接触V4,而预发布访问通常是为了让芯片厂商能在模型发布前就做好适配优化。据报道,该公司只让中国芯片制造商获得了这种提前访问权。

发布当天,华为就宣布其基于昇腾950系列的昇腾超节点产品,将为DeepSeek V4的推理提供全面支持。这意味着,希望运行自己修改版模型的公司和个人,将能够绕开英伟达的CUDA生态,使用华为的硬件来部署这一前沿模型。

央视旗下有影响力的账号“玉渊谭天”在周日发声,将此誉为中国软硬件协同进步的信号。

文中写道,虽然我国目前在制程节点、单卡性能上处于落后状态,但我们可以通过在系统设计、集群架构、软硬协同、供电效率上做文章,在现有约束条件下探索新的解题思路。这种表述,将一次模型发布上升到了产业路径选择的国家叙事层面。

不过需要厘清的是,这并非一个完全去英伟达化的故事。

根据DeepSeek的技术报告,他们使用中国芯片进行推理环节,即当有人要求模型完成任务时的计算。但清华大学计算机科学教授刘知远称,DeepSeek似乎仅将V4的部分训练过程适配到了中国芯片上。

技术报告没有说明一些关键的长上下文功能是否已在国产芯片上实现,因此刘教授的判断是,V4可能仍主要是在英伟达芯片上训练的。

路透社也曾报道称,华为芯片被用于V4 Flash的部分训练过程,而训练对芯片的要求远比推理更高。驻香港股票分析师梁庆新则表示,他找不到任何证据表明昇腾被用于训练V4 Flash,但他也指出,DeepSeek的技术文件显示两家公司的整合正在深化,这是一个可能的迹象,表明昇腾950未来将用于训练其模型。

DeepSeek官方还将V4的未来成本与这种硬件转变联系在了一起。公司表示,今年下半年华为昇腾950超节点开始大规模出货后,V4-Pro的价格可能会显著下降。如果这条路走得通,那么V4将不仅是一个新模型,更是中国正在成功构建一套并行AI基础设施的早期信号。

有评论者从更宏观的视角解读了这番布局。X网友@OopsGuess指出,当DeepSeek V4被添加到OpenClaw时,这已经不仅仅是又一次模型更新。

从中可以看到一个清晰的链条正在成形,模型层是DeepSeek V4,硬件层是华为昇腾,代理工具层是OpenClaw和腾讯的CodeBuddy,应用层则指向真实的编码、会议、多步骤任务等工作流。

这意味着中国的AI生态系统,正从过去孤立的单点模型突破,转向构建完整的本土技术栈。

他评论道,美国试图通过切断英伟达芯片供应来减缓中国的步伐,而中国则以其一贯的方式做出回应。不断优化模型,将软件适配到自家硬件,持续降低成本,开放生态系统,并最终把外部的限制转化为建设自主基础设施的内在动力。

DeepSeek不再只是中国版ChatGPT,它正成为中国AI产业系统中的一个关键节点。模型、芯片、代理工具、云服务、应用场景以及开发者的工作流程,正在开始真正地互联互通。

他认为,对华盛顿而言,真正值得担忧的,并非V4的参数规模有多大,而是中国正在学会如何在美国的封锁之外,系统性地构建AI的完整闭环。

结语

把所有这些维度的信息拼在一起,DeepSeek V4的形象就不再是一个简单的强或弱可以概括的了。

它是一个特点极其鲜明的模型。在长上下文处理、智能体工作流搭建、成本控制和开源生态上,它展现了足够硬核的实力,为那些需要处理海量信息、追求性价比的开发者和企业,提供了一套前所未有的工具箱。

但在需要审美判断、前端精雕细琢、或应对高度不确定复杂环境的首次尝试中,它又暴露出肉眼可见的短板,与GPT-5.5和Claude的差距依然清晰。

DeepSeek V4不是来统治一切的,它重新定义了牌桌上的筹码,即前沿AI能力可以有多便宜,开源模型能走多远,以及一个受外部封锁制约的产业如何从芯片到应用层逐步构建起自己的完整生态。

当精致的前端输出是首要任务时,你最好还是选GPT-5.5或Claude。但当你的工作涉及长上下文分析、AI智能体、成本敏感型的自动化,以及需要一个开放且灵活的基础设施时,DeepSeek V4就是一个绕不开的选项。

最聪明的做法,从来不是在参数表之间做选择,而是在你自己的实际工作流中测试它,让真实的产出,而不是炫目的跑分数字,来给出最终的答案。

评论列表暂无评论
发表评论取消回复
微信