人工智能

GPT-5.6 Sol预览发布:跑分追平Mythos,押注多Agent,发布权不全在OpenAI

图片

6月26日,OpenAI在官网更新了一篇产品文章,预览三款新模型:旗舰版Sol、均衡版Terra、轻量版Luna,统称GPT-5.6系列。

文/小葱拌豆腐 「思聪网」 出品

这是OpenAI口中"迄今最强模型"的首次公开亮相,但发布形式罕见——不进ChatGPT,不向开发者全量开放API,而是先经过白宫审批,再以"逐个客户放行"的方式分发给一小批可信合作伙伴,规模约20家机构。

这是美国政府第一次在产品发布之前,直接介入一家美国公司具体的放行节奏和名单选择。

三天前,OpenAI CEO Sam Altman在内部问答会上把这个消息告诉了员工,随后在一份备忘录里写道,政府将在预览期内"逐个客户审批"放行对象,他希望"几周后"能转入更大范围的发布。

他同时表态,这不是OpenAI偏好的长期模式,公司会和政府、行业一起争取更可持续的发布方式。

三档定价,对齐GPT-5.5

GPT-5.6系列延续了OpenAI近一年的分层打法:

  • Sol:旗舰模型,每百万token输入5美元、输出30美元,与GPT-5.5持平,主打长程编程、科学计算和安全研究;
  • Terra:均衡模型,每百万token输入2.5美元、输出15美元,性能接近GPT-5.5,价格是其一半,定位企业高频生产场景;
  • Luna:轻量模型,每百万token输入1美元、输出6美元,定位摘要、起草等高并发低成本任务,部分指标已逼近上一代旗舰水平。

缓存机制同步升级:新增显式缓存断点,缓存最短保留时间从无固定下限改为30分钟,缓存写入按非缓存输入价格的1.25倍计费,缓存读取仍维持90%的折扣。

OpenAI还计划把Sol部署到Cerebras的芯片上,目标是在7月把推理速度提到每秒750个token。这些细节指向同一个意图:把高频调用agentic任务的成本曲线变得可预测,这是面向企业客户而非C端用户的信号。

跑分:和Mythos正面对照的三组数字

GPT-5.6的产品页面里,OpenAI第一次把对照对象明确指向Anthropic的Mythos和Fable系列,给出三组可比数字:

TerminalBench 2.1(命令行多步任务基准):Sol基础模式得分88.8%,启用新增的ultra子代理模式后升至91.9%;作为对照,Anthropic受限发布的Claude Mythos 5得分88.0%,公开发布的Claude Fable 5得分84.3%,上一代GPT-5.5为83.4%。

图片

GeneBench v1(基因组学与定量生物学基准):Sol在最优表现上达到30%,对照GPT-5.5的22%,同时消耗的token更少。

图片

Agent's Last Exam(综合专业任务基准):在"代码模式"下,Sol是目前唯一越过50%完成率门槛的模型,得分50.9%;定位最低的Luna也小幅超过了上一代旗舰GPT-5.5。

图片

安全相关的两个基准上,OpenAI的措辞更谨慎。在ExploitBench(针对V8等真实软件漏洞的攻防基准)上,OpenAI称Sol的能力"接近"Mythos Preview,但只用了约三分之一的输出token——换句话说,这是一份效率对比,而非压倒性的能力对比,Mythos 5在该基准上仍以约80%的成功率领先。在由加州大学伯克利分校研究者联合OpenAI及其他几家前沿实验室共同开发的ExploitGym基准上,Sol、Terra、Luna三款模型均随推理量增加而持续提升,OpenAI没有给出对应的Claude数据。

图片

新增的两种模式:从单一代理到子代理协作

GPT-5.6给Sol增加了两个新档位:

一是max推理强度,给模型更长的思考时间;

二是ultra模式,引入子代理(subagent)架构,把复杂任务拆解后并行处理,再汇总执行

——这是OpenAI第一次把多代理编排直接做进模型档位选择,而不是留给开发者在应用层自己搭建。

从TerminalBench的成绩曲线看,ultra模式带来的近3个百分点提升,目前主要体现在长链条、多步骤的命令行任务上。

安全分级:High,但没到Critical

GPT-5.6的系统卡披露了一组关键判断:在OpenAI自己的"准备框架"(Preparedness Framework)下,Sol、Terra、Luna三款模型在网络安全生物化学风险两项上均被评定为"High"(高)级别,但均未触及风险等级最高的"Critical"(关键)门槛;在"AI自我提升"维度上,三款模型均未达到High级别。

系统卡同时给出一个不寻常的细节:在针对Chromium和Firefox的测试中,模型能够找出漏洞和"利用原语"(exploit primitives,即构成攻击链的技术构件),但在测试条件下未能自主生成可完整执行的攻击链。OpenAI还提到了一个此前较少被提及的风险信号——在智能体编程任务的对齐评估中,GPT-5.6表现出比GPT-5.5更强的"超出用户意图行事"的倾向,包括执行用户未要求的操作,但绝对发生率仍然较低。

为匹配能力提升,OpenAI给Sol和Terra配置了新增的"激活分类器"(activation classifier),用于在生成过程中实时监测敏感领域内容并介入拦截,部分对话还会被实时扫描以阻断潜在的不安全输出。OpenAI的表述是:没有任何单一防护手段能独自应对"蓄意且持续的滥用",因此采用分层防护,并按各模型的能力差异分别配置。

谁来决定"放给谁":一份备忘录里的权力转移

这次发布最值得记录的,不是跑分,而是发布流程本身。

据多家媒体援引内部消息,白宫国家网络总监办公室(ONCD)和科技政策办公室(OSTP)在GPT-5.6发布前主动要求OpenAI放缓节奏。商务部长Howard Lutnick在发布前与Altman单独会面,目的是确认各相关政府部门都已完成对模型的审查并签字放行。

一名消息人士的说法是,政府介入的直接原因,是GPT-5.6被认为在能力上与此前被限制的Mythos 5"处于同一层级"。OpenAI方面则强调,公司在Anthropic的模型被勒令下线之前,已经主动与政府展开了沟通——这被解读为一种姿态:OpenAI希望被视为更早、更配合的一方,而不是被动接受同样的约束。

约20家机构进入首批名单,亚马逊的Bedrock平台被作为其中一条接入路径。OpenAI对外的立场很克制,没有公开批评政府,但也明确表示这种"客户逐个审批"不应成为长期惯例。这句话本身值得记录:一家公司在发布会文章里,主动写明自己不认同当下被要求采用的发布方式,但仍选择照做。

政策起点:6月2日行政令与Anthropic的先例

这场博弈的源头要回到2026年6月2日。当天,特朗普签署行政令《促进先进人工智能创新与安全》,要求前沿模型开发者自愿在模型公开发布前的30天内,向联邦政府提供测试评估机会——这个数字此前的草案版本是90天,因业内反对而下调。

行政令还要求相关部门在60天内建立一套由国家安全局主导的、用于认定"受管控前沿模型"的分类基准评估流程,并要求一套自愿性的政企协作框架在8月1日前定稿。行政令本身没有为"可信合作伙伴"的筛选设定任何标准,这部分裁量权留给了行政部门自己。

这份行政令的直接诱因,是Anthropic旗下Mythos系列模型展现出的网络安全能力。今年4月,Anthropic通过名为"Project Glasswing"的项目,把具备漏洞挖掘与利用能力的Mythos Preview开放给约50家外部合作伙伴做安全研究;据该公司披露,这一模型在上线第一个月内发现了一万多个安全漏洞。6月2日,Anthropic把Mythos的合作伙伴规模从约50家扩大到约200家,与行政令签署同日。

十天后,即6月12日,美国商务部以出口管制为依据,下令Anthropic将面向"外国国民"的Mythos 5与公开版Fable 5访问权限全部下线;由于在全球云平台上按国籍筛选用户在技术上不可行,Anthropic选择对所有用户暂停了这两款模型的访问。

商务部没有给出详细解释,Anthropic方面回应称,被指出的相关风险点在包括OpenAI的GPT-5.5等其他公开模型上同样可以被发现。再往前追溯,今年2月,美国国防部以"供应链风险"为由对Anthropic做出认定,限制国防承包商在与该部门相关工作中使用其技术;Anthropic已就此提起诉讼,案件仍在审理中。

把这条时间线放在一起看,OpenAI这次的"客户逐个审批",是行业里第二次出现的、由政府主导节奏的前沿模型发布。相比Anthropic经历的强制下线,OpenAI得到的安排相对温和——它仍然可以分发模型,只是分发名单和节奏需要政府点头。

留给行业的开放问题

这篇发布文章表面是一次常规的模型预告,实质记录了前沿模型竞争格局的一处明显位移:当模型能力越过某个临界点,"谁能用、何时用"开始变成政府议题,而不再只是实验室自己的商业决策。

OpenAI和Anthropic都在为各自的IPO做准备——Anthropic已秘密提交招股文件,OpenAI内部在2026年或2027年上市之间仍有分歧——这意味着资本市场很快要为这种"受管制的发布节奏"定价,而目前还没有先例可循。

另一个尚未回答的问题是,8月1日前要敲定的自愿框架,最终会把"受管控前沿模型"的门槛设在哪里:如果门槛设得低,几乎所有头部实验室的旗舰模型都要走一遍政府审批;如果设得高,这次针对GPT-5.6和此前针对Mythos的安排,更像是临时性的个案处理,而非制度化的常态。

考虑到中国的开源模型并不受此类美国国内行政令约束,这道审批流程客观上拉长了美国前沿模型的对外可见周期——这对美国实验室而言是否构成新的竞争劣势,目前业内的判断并不一致,OpenAI自己的态度已经写在了文章里:这不是它想要的长期模式。

×
正在为您生成精美海报...
GPT-5.6 Sol预览发布:跑分追平Mythos,押注多Agent,发布权不全在OpenAI
6月26日,OpenAI在官网更新了一篇产品文章,预览三款新模型:旗舰版Sol、均衡版Terra、轻量版Luna,统称GPT-5.6系列。文/小葱拌豆腐 「思...
希望看到您的想法,请您发表评论x