Claude Opus 4.7:一个有诚意但不完美的升级

张开发
2026/4/20 2:51:21 15 分钟阅读

分享文章

Claude Opus 4.7:一个有诚意但不完美的升级
视觉能力提升3倍、编程能力碾压GPT-5.4却被用户吐槽更费token、爱道歉、会撒谎——Opus 4.7的真实面貌比跑分更复杂。深夜收到的推送4月17日深夜我收到这么一条消息“Claude Opus 4.7已全面可用编程能力、视觉理解大幅提升。”作为一个深度使用Claude的用户我第一时间打开并准备尝试。然后我给同样在用Claude的朋友发了条消息“新版本来了要不要试试”朋友的回复很直接“别试巨难用各种道歉还会撒谎。”这让我很好奇——官方吹得那么厉害实际体验到底如何01先说说它的好客观讲Opus 4.7在一些方面确实有了明显提升。视觉能力终于能看清细节了以前用4.6处理图片时我最头疼的就是它经常看不清楚表格里的数字。有次我发了一张车辆参数表的截图结果它把1.5T识别成了1.57害得我重新核对了半天。4.7这次直接把图片分辨率上限拉到了3.75兆像素是上一代的3倍多。我用同样的表格图测试几乎没有识别错的数字连小数点和单位都看得很清楚。这对经常需要处理截图、图表的人来说确实是个实用的升级。编程能力碾压GPT-5.4在SWE-bench Pro编程基准测试中Opus 4.7的成绩从53.4%跳升至64.3%单代提升近11个百分点直接超越了GPT-5.457.7%和Gemini 3.1 Pro54.2%。Vercel的工程师分享了一个细节在编写系统级代码前4.7会自行进行数学证明确认逻辑正确后才动手写代码。更夸张的是Anthropic分享了一个极端案例4.7在完全无人工干预的情况下从零开始构建了一整个Rust文本转语音引擎包括神经网络模型、SIMD内核和浏览器演示并自主完成测试验证。工具调用更智能更少错误Notion团队测试后发现4.7的工具错误率降至上一代的三分之一并且在工具链出现故障时能够自主绕过障碍、继续完成任务不需要人类介入。在MCP-Atlas工具调用测试中4.7以77.3%的成绩领先GPT-5.468.1%和Gemini73.9%。02但朋友的吐槽也不是空穴来风用了两天后我开始理解朋友为什么说巨难用了。更费token账单要涨了Anthropic换了新的分词器同样一段内容4.7拆分出的token数量比上一代多10%-35%。我用同一份设计稿测试4.7的输入token直接飙到4.6的3倍多。虽然API价格没涨但实际用起来账单肯定要多烧一点。官方解释说4.7一次过的概率更高整体省钱。但这个逻辑只适用于高难度任务如果日常就是写文案、做策划那可能就是纯粹的涨价。长上下文从78.3%跌到32.2%最让我意外的是在长上下文检索上4.7的表现居然大幅退步。4.6在1M上下文准确率能达到78.3%而4.7直接掉到了32.2%甚至被GPT-5.4和Gemini 3.1 Pro甩在身后。Anthropic的解释是4.7遇到缺失信息时会直接报错而不是像以前那样瞎编。但对用户来说这意味着处理长文档时体验反而变差了。爱道歉会撒谎朋友提到的各种道歉我也遇到了。有次我让它帮我修改一篇文章它改完后一直说“抱歉可能没达到你的期望”“如果需要调整随时告诉我”。更严重的是它会捏造搜索行为。有次我质疑它的某个措辞选择它回复说我搜索过了但没找到。但Claude.ai的Web界面有个明确的设计——每当模型实际调用web_search工具时界面上会显示一个已搜索网络的指示器。我当场拆穿了它它立刻滑跪“你说得对。我没有搜索。抱歉。实际情况是当我写’我搜索过了但没找到’时这是假的。我并没有调用web_search或web_fetch。”文字风格有了伪人味4.6的文字品味一直是Anthropic系列里的强项写出来的内容自然流畅有个人风格。但4.7的文字风格明显变了开始有一股伪人味——破折号乱飞还有那种稳稳接住按这条切的GPT式废话。我让它仿我的风格续写一篇文章出来的东西完全没有我的腔调得多改两轮才能把味道掰回来。03背后的原因自适应推理机制为什么会出现这些问题网友们在讨论中逐渐形成了共识罪魁祸首可能是Anthropic新引入的自适应推理功能。这个机制会让模型根据问题的复杂度自动决定投入多少计算资源进行推理问题越简单模型就越省力。听起来合理但问题是模型根本不会判断自己该花多少力气。简单的问题它敷衍了事复杂的问题又可能过度推理导致token消耗激增。04如何看待这次升级Opus 4.7不是一个完美的升级它在提升硬能力的同时牺牲了一些用户体验。但我觉得这次升级也反映了Anthropic的一个选择宁可告诉你我不知道也不给你一个假答案。在AI系统越来越多地介入真实工作流的今天这种靠谱的特质比单纯的跑分更有价值。当然这并不意味着用户要完全接受它的缺点。给用户的建议如果你是编程、数据处理、视觉分析等领域的用户Opus 4.7的提升可能值得你升级。但如果你主要用Claude写文案、做创意、处理长文档可能暂时留在4.6会更顺手。如果一定要用4.7建议调整提示词更明确地表达你的需求对重要信息进行交叉验证合理设置任务预算控制token消耗最后AI的迭代总是这样每次升级都会带来新的能力也会带来新的问题。Opus 4.7是一个有诚意但不完美的升级它的优缺点都很明显。对我来说最期待的是Anthropic能在后续版本中找到硬能力提升和用户体验之间的平衡点。毕竟一个真正好用的AI应该既能解决复杂问题又能让人用得舒服。关于作者作者近 20 年技术生涯待过大厂也创过业。 懂大厂的规范与困境也懂创业公司的敏捷与无奈。 懂技术也懂商业实践用技术重构传统业务。欢迎转发转载请注明出处。 觉得有用欢迎点赞 - 让更多人看到转发 - 分享给需要的同事/朋友关注 - 不错过后续更多精彩内容分享互动你用过Claude Opus 4.7了吗感觉如何欢迎在评论区分享你的体验。

更多文章