Claude Opus 4.7：一个有诚意但不完美的升级

张开发

• 2026/6/16 3:58:45 • 15 分钟阅读

分享文章

视觉能力提升3倍、编程能力碾压GPT-5.4却被用户吐槽更费token、爱道歉、会撒谎——Opus 4.7的真实面貌比跑分更复杂。深夜收到的推送4月17日深夜我收到这么一条消息“Claude Opus 4.7已全面可用编程能力、视觉理解大幅提升。”作为一个深度使用Claude的用户我第一时间打开并准备尝试。然后我给同样在用Claude的朋友发了条消息“新版本来了要不要试试”朋友的回复很直接“别试巨难用各种道歉还会撒谎。”这让我很好奇——官方吹得那么厉害实际体验到底如何01先说说它的好客观讲Opus 4.7在一些方面确实有了明显提升。视觉能力终于能看清细节了以前用4.6处理图片时我最头疼的就是它经常看不清楚表格里的数字。有次我发了一张车辆参数表的截图结果它把1.5T识别成了1.57害得我重新核对了半天。4.7这次直接把图片分辨率上限拉到了3.75兆像素是上一代的3倍多。我用同样的表格图测试几乎没有识别错的数字连小数点和单位都看得很清楚。这对经常需要处理截图、图表的人来说确实是个实用的升级。编程能力碾压GPT-5.4在SWE-bench Pro编程基准测试中Opus 4.7的成绩从53.4%跳升至64.3%单代提升近11个百分点直接超越了GPT-5.457.7%和Gemini 3.1 Pro54.2%。Vercel的工程师分享了一个细节在编写系统级代码前4.7会自行进行数学证明确认逻辑正确后才动手写代码。更夸张的是Anthropic分享了一个极端案例4.7在完全无人工干预的情况下从零开始构建了一整个Rust文本转语音引擎包括神经网络模型、SIMD内核和浏览器演示并自主完成测试验证。工具调用更智能更少错误Notion团队测试后发现4.7的工具错误率降至上一代的三分之一并且在工具链出现故障时能够自主绕过障碍、继续完成任务不需要人类介入。在MCP-Atlas工具调用测试中4.7以77.3%的成绩领先GPT-5.468.1%和Gemini73.9%。02但朋友的吐槽也不是空穴来风用了两天后我开始理解朋友为什么说巨难用了。更费token账单要涨了Anthropic换了新的分词器同样一段内容4.7拆分出的token数量比上一代多10%-35%。我用同一份设计稿测试4.7的输入token直接飙到4.6的3倍多。虽然API价格没涨但实际用起来账单肯定要多烧一点。官方解释说4.7一次过的概率更高整体省钱。但这个逻辑只适用于高难度任务如果日常就是写文案、做策划那可能就是纯粹的涨价。长上下文从78.3%跌到32.2%最让我意外的是在长上下文检索上4.7的表现居然大幅退步。4.6在1M上下文准确率能达到78.3%而4.7直接掉到了32.2%甚至被GPT-5.4和Gemini 3.1 Pro甩在身后。Anthropic的解释是4.7遇到缺失信息时会直接报错而不是像以前那样瞎编。但对用户来说这意味着处理长文档时体验反而变差了。爱道歉会撒谎朋友提到的各种道歉我也遇到了。有次我让它帮我修改一篇文章它改完后一直说“抱歉可能没达到你的期望”“如果需要调整随时告诉我”。更严重的是它会捏造搜索行为。有次我质疑它的某个措辞选择它回复说我搜索过了但没找到。但Claude.ai的Web界面有个明确的设计——每当模型实际调用web_search工具时界面上会显示一个已搜索网络的指示器。我当场拆穿了它它立刻滑跪“你说得对。我没有搜索。抱歉。实际情况是当我写’我搜索过了但没找到’时这是假的。我并没有调用web_search或web_fetch。”文字风格有了伪人味4.6的文字品味一直是Anthropic系列里的强项写出来的内容自然流畅有个人风格。但4.7的文字风格明显变了开始有一股伪人味——破折号乱飞还有那种稳稳接住按这条切的GPT式废话。我让它仿我的风格续写一篇文章出来的东西完全没有我的腔调得多改两轮才能把味道掰回来。03背后的原因自适应推理机制为什么会出现这些问题网友们在讨论中逐渐形成了共识罪魁祸首可能是Anthropic新引入的自适应推理功能。这个机制会让模型根据问题的复杂度自动决定投入多少计算资源进行推理问题越简单模型就越省力。听起来合理但问题是模型根本不会判断自己该花多少力气。简单的问题它敷衍了事复杂的问题又可能过度推理导致token消耗激增。04如何看待这次升级Opus 4.7不是一个完美的升级它在提升硬能力的同时牺牲了一些用户体验。但我觉得这次升级也反映了Anthropic的一个选择宁可告诉你我不知道也不给你一个假答案。在AI系统越来越多地介入真实工作流的今天这种靠谱的特质比单纯的跑分更有价值。当然这并不意味着用户要完全接受它的缺点。给用户的建议如果你是编程、数据处理、视觉分析等领域的用户Opus 4.7的提升可能值得你升级。但如果你主要用Claude写文案、做创意、处理长文档可能暂时留在4.6会更顺手。如果一定要用4.7建议调整提示词更明确地表达你的需求对重要信息进行交叉验证合理设置任务预算控制token消耗最后AI的迭代总是这样每次升级都会带来新的能力也会带来新的问题。Opus 4.7是一个有诚意但不完美的升级它的优缺点都很明显。对我来说最期待的是Anthropic能在后续版本中找到硬能力提升和用户体验之间的平衡点。毕竟一个真正好用的AI应该既能解决复杂问题又能让人用得舒服。关于作者作者近 20 年技术生涯待过大厂也创过业。懂大厂的规范与困境也懂创业公司的敏捷与无奈。懂技术也懂商业实践用技术重构传统业务。欢迎转发转载请注明出处。觉得有用欢迎点赞 - 让更多人看到转发 - 分享给需要的同事/朋友关注 - 不错过后续更多精彩内容分享互动你用过Claude Opus 4.7了吗感觉如何欢迎在评论区分享你的体验。

更多文章

前端开发 2026/6/16 3:58:46

线性回归遇到特征打架怎么办？手把手对比sklearn中Ridge和Lasso的正则化实战

线性回归特征冲突解决方案：Ridge与Lasso正则化实战深度解析当特征之间存在高度相关性时，传统线性回归模型就像一群争吵不休的队友——每个特征都试图争夺主导权，导致模型系数不稳定且难以解释。这种现象在统计学中被称为多重共线性&#xff…

Winhance中文版：让Windows系统加速73%的5大核心优化功能【免费下载链接】Winhance-zh_CN A Chinese version of Winhance. C# application designed to optimize and customize your Windows experience. 项目地址: https://gitcode.com/gh_mirrors/wi/Winhance-…

张开发

前端开发 2026/6/16 3:58:52

从频谱仪设置到5G招标：实战中RBW/VBW怎么调，OBW/IBW又怎么影响设备选型？

从频谱仪设置到5G招标：实战中RBW/VBW怎么调，OBW/IBW又怎么影响设备选型？ 在射频工程和通信测试领域，带宽参数的理解和应用直接关系到测试结果的准确性和设备选型的合理性。对于射频工程师、测试工程师以及通信设备产品经理来说&am…

张开发

Claude Opus 4.7：一个有诚意但不完美的升级

最新文章

.NET 11原生AI推理引擎深度解密：如何绕过ML.NET抽象层直驱ONNX Runtime 1.16 SIMD指令集？

告别BIGMAP水印！免费搭建GeoServer离线地图服务：从TIF/SHP数据到OpenLayers展示的保姆级教程

FPGA项目选RAM别纠结！单口、伪双口、真双口RAM性能实测对比（基于Artix-7开发板）

Day05：大模型生产环境常见问题与排障科普笔记

告别Makefile烦恼：用STM32CubeIDE一站式搞定ROS1 rosserial库的集成与编译

iOS企业应用分发太麻烦？手把手教你用MDM实现从上传IPA到员工手机自动安装的全链路

推荐文章

相关文章

分享文章

更多文章

线性回归遇到特征打架怎么办？手把手对比sklearn中Ridge和Lasso的正则化实战

免费风扇控制终极指南：5分钟掌握Windows系统散热管理

Applite终极指南：如何用图形界面彻底简化macOS软件管理

揭秘electerm：多协议远程管理的全能终端实战攻略

Qwen3.5-2B赋能后端开发：自动生成API文档与数据库设计说明

舵机性能跃迁：从S3010到S-U400的实战升级指南

JPEXS Flash反编译器：3个核心场景教你如何复活被遗忘的Flash资产

从零上手PIC单片机：Mplab X IDE与XC8编译器实战指南

p5.js Web Editor：如何构建现代创意编程平台的技术架构解析

R3nzSkin英雄联盟换肤工具终极指南：从入门到精通的安全使用教程

Winhance中文版：让Windows系统加速73%的5大核心优化功能

从频谱仪设置到5G招标：实战中RBW/VBW怎么调，OBW/IBW又怎么影响设备选型？