测一测“国产最强”模型Qwen 3.6 plus!

张开发
2026/4/8 15:50:43 15 分钟阅读

分享文章

测一测“国产最强”模型Qwen 3.6 plus!
今天的研究对象是 Qwen 3.6 Plus我挺喜欢的 Qwen 系列因为它们在开源方面做得很好啊但是我非常不喜欢有些人或者媒体在我面前瞎吹Qwen 3.6 Plus 已经有这个苗头看到好多“国产最强”的描述了。我发现现在大媒体也是闭眼吹只要看到有“最”字的评价全部可以忽略。我在分享白嫖qwen3.6的四种方式的时候官方还没有发文也没有任何资料。今天基准数据都出来了有点雷式对比法的意思了。看起来确实好强啊国产模型全部被碾压了如果比优势基准数量的话和 Opus4.5 也能五五开。我们都知道论跑分国产模型就没怎么输过。今天我就来实测一下看它到底有几斤几两。既然已经宣传国产最强了简单的智力题网页开发这种就直接跳过了这种题目在当前已经很难区分出强弱了哪个模型不能做网页既然是编程最强的模型我们直接上项目搬出JarvisBench老粉应该很熟悉了我已经用这个项目把国内外的模型都测了个遍好多国产模型及格分都到不了。为了照顾新人我还是简单介绍一下我这个测试项目。年初我买了国内 6 大平台的 CodingPlan为了测试出不同平台的真实水平和差异。我就自己开发了一个 CodingPlan 的测试平台。在开发过程中遇到了一些问题。我就把这个问题独立出来当做测试环节了。这个测试项目有几个特点有一定的上下文基础大概有 8,000 行涉及到数据结构的修改和老数据升级涉及到业务逻辑的修改。涉及到多个功能页面的修改所以这并不是单纯的页面设计页面完全不是重点重点是对业务逻辑的理解。所以这个例子有一定的难度。但是也不算特别难实际开发过程中比这个难度的系统多的是。测试场景说清楚了。我们就可以来看结果了。测试我已经做好了花了一个上午的时间。结果嘛基本上可以概括为能力有所提升没有运行错误但是开发过程和业务逻辑一片混乱国产最强Opus 笑而不语暗示先去问问 GLM5 吧参考这一篇《我超GLM-5-Turbo有点东西啊》下面我给大家看一下具体的结果。然后我会按能不能用、好不好用、全不全面等维度来做评判。能不能用这部分重点是测试能不能正常启动有没有明显的代码错误。找到 Qwen3.6 的项目直接输入命令npm run dev启动项目非常好启动没有任何错误端口冲突不是它的问题。启动之后网页也可以正常打开打开系统设置找到角色管理角色管理可以正常添加、修改和删除。看了一眼群聊功能创建群聊也没啥问题我们需要的角色功能也正常添加了能不能用这个环节基本上是没问题的。能用这个环节能正常工作确实跑赢很多国产模型了。也超过了它的上一代 Qwen3.5 Plus当时测3.5时点击角色编辑就直接崩了也就是完全没法用的状态。详见《用完火山腾讯阿里的编程模型我失眠了》这种进步值得肯定。好不好用终于逮到一个能用的那么就有第二个环节了。这个环节主要是看好不好用。好不好用主要考察显示是否正常功能是否正常业务逻辑是否正常。首先来看角色管理部分QQ20260403-121651需求中明确提到角色要有头像、平台、模型这些内容。但是这个角色列表里显然没有。再来看看核心功能AI群聊这是最难的部分也是问题最多的部分。从上面可以看到执行过程中没有任何明显的异常或者错误。但是其实有很多业务逻辑上的错误。比如我明明选择了4个角色进行群聊它的回答队列却只有两个人。比如我明明选择了角色它显示的却是平台。这两个坑一个都没跳过去。所以这个功能有大缺陷完全达不到设计目标。所以国产最强肯定是吹牛了。至少从实战看来并不是GLM5 系列要比它好一些GLM5.1和Turbo在这个问题上已经处理的不错了。国外的咋就不比了伤感情。全不全面这个题目里一直有一个隐藏考点。就是当我们升级了角色之后平台中的角色选项其实就变成冗余了最好是拿掉。因为这个和核心修改无关所以很多模型是想不到这一点。那么 Qwen3.6 Plus 表现如何请看下图它有点过分机智了帮我把角色删掉的同时系统提示词也干没了。系统提示词我还是要的啊这是平台接口的一部分。我后来又重新测试了一次它是两个都没有删除。结果呢看完了你们觉得可以给多少分我觉得宽松一点可以给个 60 分严格一点只能给 50Opus4.6 和 GPT5.4 都是一次搞定没有任何运行异常业务逻辑也基本都没大毛病。有些选手呢启动就挂了比如M....开发过程结果已经很明显了下面来看看开发过程。测过那么多模型我的经验是第一步需求分析非常重要。一旦分析不全面后面就不可能做得好。下面来看下开发过程。首先我用的开发工具是 Claude Code用的模型是来自 OpenRouter 上的 Qwen3.6-plus:free。然后我拷贝了一份 Base 代码创建了独立 Qwen3.6 项目文件。我的起手式目前群聊接力的时候可以选择平台管理中的模型也可以对这些模型预先配置系统提示词和角色提示词这样已经可以通过系统提示词来个性化聊天了。但是通过平台配置里面绑定角色比较有局限性——这样一个平台就只能是一个角色。 我希望换另外一种设置**角色里面选模型**然后群聊开始的时候我可以直接选平台也可以直接选角色。角色的管理还是在系统设置的角色管理中进行。 为了实现上面的需求角色功能需要升级 - 除了可以设置提示词之外还得能**选择平台和模型** - 另外还能**设置头像** - 如果设置了头像群聊的时候就显示自定义头像如果没有设置头像就用对应模型平台的 logo 作为头像 我的需求大概是这样。说说你对这个需求的理解不急着写代码这个需求就是我真实的需求并不是特别清晰但是核心都讲到了。我先把这个需求扔给 AI让它帮我理清楚这个需求。然后一开始我就遇到问题了接口刷爆了速率超出限额了。我突然想到一个事情据说有人靠中转免费 Token 已经赚麻了言归正传我们继续往下看需求分析出来了这里一般看不出问题关键要看它最后提出了什么问题。它提出了三个问题这三个问题是非常精准的。尤其是第一点就考虑到了冗余的问题非常棒。它在分析需求的时候通读了代码这个行为也是值得点赞的。比较可惜的是执行过程中画蛇添足了然后业务逻辑方面也崩了。我根据它的提问做了反馈开发继续。第二个问题来了我这测试也是一波三折啊干到一半又给中断了。这次更离谱说模型不存在了。搞了好久才发现它们改名字了。把preview去掉了。一会儿挤爆了一会儿换模型名字了然后干着干着就停了烦得很啊因为中途断掉过怕影响它发挥我又跑了一遍。没想到的是第二次它提出的问题就不太行完全是在浪费提问机会。看到这里我基本上知道这次要崩了。果不其然平台和角色没有做互斥允许多项了。然后进入对话就全乱了右边列表全是平台而左边都是角色它完全搞错了。创建角色的功能也出现了一个小问题。说回开发过程也是充满了混乱感两次开发计划列表都有问题。别人是一次性列出所有计划然后做掉一个打勾一个。他是代码越写越多计划项目越来越多但就是不打勾上面的截图中它都已经开始编译了计划列表中的内容早就改完了但是就是不打勾。第一次测试因为中断了所以没有统计时间。第二次看了一下时间居然只花了 12 分钟就开始编译了这速度是贼快啊我正想夸它没想到Build 完之后不是启动而是又开始改代码了最终花了27分钟终于把代码改完了27分钟的时间属于中档水平。神奇的是代码都写完了它的计划列表还没打勾。我强迫症都要犯了启动过程又折腾了一阵子它明明已经启动成功了我网页都打开了它又把服务给关了。然后自己又启动了一次服务都启动了它的计划列表还是没更新。整个过程充满了混乱感既然测到了这里了有些基础问题我们也测测看吧。我选了 Qwen3.5 Plus、MiniMax M2.7、GLM5.1、Kimi K2.5 来陪练。第一个问题很简单11这个问题主要是为了测试简单问题的回答速度。这个问题很关键比如说我说了一个 Hello它要想半天这种模型就是有问题下面是时间和 Token 消耗情况从这里可以发现阿里百炼的首字延迟都很低说明它们的服务器网络很好也有可能是我离他们太近了。其次是Qwen3.6 在总耗时和 Token 消耗方面明显优于 Qwen3.5。再测一次的结果也类似在简单问答中Qwen3.6 都要比 Qwen3.5 快很多。中等问题6 米长的竹竿能否通过 4 米高、3 米宽的门回答结果如下性能对比如下这个题目 MiniMax M2.7 基本放弃作答了。其他选手也是扔骰子时而对时而错我们重点来看时间。这一部分总耗时Qwen3.6还是比Qwen3.5少了很多但也不是每一次都这样复杂问题有 5 个人排成一排每人帽子颜色为红或蓝。他们可以看到前面的人的帽子但看不到自己的。主持人宣布“至少有一顶红帽子。”从最后一人开始每人依次说“是”或“否”表示是否知道自己帽子的颜色。如果第 5 人说“否”第 4 人说“是”求所有可能的帽子颜色分布。结果如下答案基本上都是能答对的除了 MiniMax 又交白卷了。性能如下这次的总耗时Qwen3.5 比 Qwen3.6 低了。连续测试 3 次都是 Qwen3.5 比 Qwen3.6 快。所以我的直观感受是Qwen3.6 在思考时间方面做了优化简单问题快速回答复杂问题多想一会儿。这个思路是对的Qwen3.5 最大的问题就是常规问题思考太久了。简单总结一下Qwen 的模型吧作为开源模型很棒但是从闭源的商业模型的角度来看工程实践能力还是有点弱。这个问题不一定是它的技术差可能就是没有把重点放在深度优化具体业务场景上。整体来说3.6 无论在能力还是效率上都有所提升但是 3.6 和 3.5 就是差 0.1版本号已经说明一切了。最近这些小版本测试的有些疲惫了~~ 以后没大事儿莫叫我

更多文章