5万亿参数打通四大模态,GPT-6这次不是缝合怪

张开发
2026/6/25 19:57:42 15 分钟阅读
5万亿参数打通四大模态,GPT-6这次不是缝合怪
我上周试了一下让 AI 同时看一段产品演示视频、听里面的讲解、再对照 PDF 说明书写竞品分析。结果呢视频理解调一个模型语音识别调另一个文字处理又是第三个。三套 API 下来光是处理数据格式对齐就花了两小时。中间还踩了个坑——视觉模型输出的 JSON 结构跟语言模型期望的格式对不上排查了半天。当时就想这破玩意什么时候能一个模型全搞定答案是4月14号。OpenAI 确认 GPT-6——内部代号Spud土豆——将在那天全球同步发布。这次不一样不是缝合是融合之前的多模态模型怎么做的简单粗暴——一个文本模型当大脑外挂视觉模块、音频模块、视频模块。就像给一辆汽车硬焊上飞机翅膀和船桨理论上能跑能飞能游实际上哪个都不精。GPT-6 换了个路子。它用了代号Symphony的底层架构把文本、图像、音频、视频全部映射到同一个向量空间里。什么意思以前 AI 看到一张猫的图片得先翻译成文字这是一只猫再把文字丢给语言模型处理。现在不用了——图片里的猫和文字里的猫在底层就是同一个数学表示AI 天生就知道它们是同一个东西。从翻译官模式升级到母语模式。跨模态推理终于不靠传话了。以前让 AI “看这个视频回答音频里提到的问题”它得先用视觉模型看画面再用语音模型听声音然后用语言模型把两者串起来。中间每一步都可能丢信息——就像你让三个人传一句话传到第三个人耳朵里已经面目全非。Symphony 架构下视频画面里的产品外观、音频里的技术参数、文字文档里的规格表——在同一个空间里直接产生关联。不需要中转不需要翻译不丢信息。据 Epsilla 4月5日发布的分析这种原生多模态被行业视为 AGI 路上的关键一跳。因为真正的通用智能本来就不该有我只会处理文字这种限制。5到6万亿参数但每次只用十分之一GPT-6 的参数规模在5到6万亿之间。听着吓人——但它用的是 MoE 架构Mixture of Experts混合专家每次推理只激活大约10%的参数。打个比方你有一个6万人的专家团队但每次开会只叫相关的6000个人。不用全员到场效率高成本也低。对比一下前几代的数字就更有感觉了GPT-4 大约2000亿参数。GPT-5系列参数规模没公开但多方估计在万亿级。GPT-6 直接干到5-6万亿——活跃参数大约5000到6000亿跟 GPT-4 全量参数一个量级但每次推理的大脑密度远超前辈。训练投入超过20亿美元用了大约10万块 H100 GPU。这个烧钱速度放眼全球也就 OpenAI 有这个底气——他们刚以8520亿美元估值完成史上最大私募融资亚马逊一家就投了500亿美元。据 The Information 报道其中350亿还绑定着 IPO 或 AGI 里程碑的条件。200万 Token 上下文GPT-6 的上下文窗口扩展到200万 Token。200万 Token 大概是3000页英文文本翻译成中文差不多是一部《三体》三部曲的体量。把整部小说丢进去它还记得第一章里那个不起眼的伏笔。对企业用户来说这意味着什么你公司的全部产品文档、用户手册、API 文档、历史邮件——一股脑全塞进去不会忘。之前用 RAG 做文档问答经常因为检索不准答非所问。现在直接全塞上下文里省了检索环节准确性上一个台阶。当然200万 Token 的推理成本不会便宜。普通用户日常聊天大概率用不到这个上限但对企业级场景——法律合同审查、代码仓库级重构、跨年份数据分析——这是刚需。比 GPT-5.4 强40%是什么概念据多家媒体报道GPT-6 在主流基准测试上比 GPT-5.4 提升了约40%。40%听起来不够炸GPT-5.4 本身已经是当前最顶级模型之一。在这个基础上再提40%相当于百米跑从9秒58进到8秒以内——到了这个级别每0.01秒都难如登天。具体到能力上编程方面据泄露的基准测试信息GPT-6 在 SWE-bench 上的表现大幅领先前代复杂逻辑链条的错误率显著下降而多模态协同——看图写代码、听音频做总结、看视频写分析——这些跨模态任务的流畅度提升非常明显。更关键的细节是GPT-6 集成了 GPT-5.3-Codex 的编程能力在电子表格、演示文稿和文档处理上也有明显加强。这不是什么都能干但什么都一般的万金油而是在保持广度的同时往专业深度又挖了一层。但 GPT-6 不是唯一的主角4月6号一个叫 Mythos 的模型匿名发布直接叫板 GPT-6。还有个 Happy House在视频生成领域把 Seedance 2.0 的垄断给破了——VideoGen 专业评分96.7分 vs 78.3分不是小赢是碾压。这三件事凑在一起其实画出两条路全能通用派以 GPT-6 为代表先把基础能力做到极致什么都能干。代价是某个细分领域可能不如专门优化的模型。专业垂直派以 Mythos、Claude Opus 4.6 为代表只在一个领域做到极致。Claude Opus 4.6 聚焦金融、法律、代码定价是 GPT 系列的两倍付费用户却翻番了——市场愿意为专业买单。Seedance 2.0 聚焦视频生成单月营收超3亿企业 API 最低消费1000万一年照样排队。所以呢短期看垂直模型在特定领域确实更香。但长期看当通用模型的基础能力足够强专业优势会被逐步侵蚀。就像 iPhone 的相机不一定比单反好但90%的场景已经够用了。GPT-6 最大的杀手锏不是5万亿参数是 Symphony 架构——四种模态底层打通意味着它可以同时看、听、读、写而且这些能力之间不再是各自为战而是会互相增强。“AGI最后一公里”先别开香槟OpenAI 内部把 GPT-6 定位为AGI 的最后一公里。OpenAI 总裁 Greg Brockman 最近公开说“我觉得我们已经到70-80%了非常接近了。还有一两年就能实现 AGI。”我持保留意见。“最后一公里这个说法在 AI 圈已经被用了至少三年。每次新一代模型出来都有人说AGI 快了”。但 AGI 的定义本身就模糊——如果标准是能在大多数认知任务上达到人类水平GPT-6 确实迈了一大步。但如果标准是真正理解世界而不只是模式匹配那我们离终点可能比 OpenAI 愿意承认的更远。OpenAI CEO Sam Altman 2月份在印度 AI 峰会上说 OpenAI “基本上已经构建了 AGI”。CFO Sarah Friar 却公开表示公司还没达到上市所需的合规和治理透明度标准。内部口径都不统一AGI 就先别急着宣布了。有一件事倒是确定的Symphony 架构解决了多模态 AI 最根本的问题——不同感官之间的语言障碍。这是正确方向上的一大步。至于 AGI 到底什么时候来我赌2028年之前没人敢真正宣布我们做到了——不是因为技术不够是因为没人敢下这个定义。4月14号 GPT-6 就发布到时候自己去试。你觉得 Symphony 的四模态底层融合是真突破还是噱头评论区扣1真货扣2噱头我押1。

更多文章