GPT-5.6 Sol预览发布：跑分追平Mythos，押注多Agent，发布权不全在OpenAI

6月26日，OpenAI在官网更新了一篇产品文章，预览三款新模型：旗舰版Sol、均衡版Terra、轻量版Luna，统称GPT-5.6系列。

文/小葱拌豆腐「思聪网」出品

这是OpenAI口中"迄今最强模型"的首次公开亮相，但发布形式罕见——不进ChatGPT，不向开发者全量开放API，而是先经过白宫审批，再以"逐个客户放行"的方式分发给一小批可信合作伙伴，规模约20家机构。

这是美国政府第一次在产品发布之前，直接介入一家美国公司具体的放行节奏和名单选择。

三天前，OpenAI CEO Sam Altman在内部问答会上把这个消息告诉了员工，随后在一份备忘录里写道，政府将在预览期内"逐个客户审批"放行对象，他希望"几周后"能转入更大范围的发布。

他同时表态，这不是OpenAI偏好的长期模式，公司会和政府、行业一起争取更可持续的发布方式。

三档定价，对齐GPT-5.5

GPT-5.6系列延续了OpenAI近一年的分层打法：

Sol：旗舰模型，每百万token输入5美元、输出30美元，与GPT-5.5持平，主打长程编程、科学计算和安全研究；
Terra：均衡模型，每百万token输入2.5美元、输出15美元，性能接近GPT-5.5，价格是其一半，定位企业高频生产场景；
Luna：轻量模型，每百万token输入1美元、输出6美元，定位摘要、起草等高并发低成本任务，部分指标已逼近上一代旗舰水平。

缓存机制同步升级：新增显式缓存断点，缓存最短保留时间从无固定下限改为30分钟，缓存写入按非缓存输入价格的1.25倍计费，缓存读取仍维持90%的折扣。

OpenAI还计划把Sol部署到Cerebras的芯片上，目标是在7月把推理速度提到每秒750个token。这些细节指向同一个意图：把高频调用agentic任务的成本曲线变得可预测，这是面向企业客户而非C端用户的信号。

跑分：和Mythos正面对照的三组数字

GPT-5.6的产品页面里，OpenAI第一次把对照对象明确指向Anthropic的Mythos和Fable系列，给出三组可比数字：

TerminalBench 2.1（命令行多步任务基准）：Sol基础模式得分88.8%，启用新增的ultra子代理模式后升至91.9%；作为对照，Anthropic受限发布的Claude Mythos 5得分88.0%，公开发布的Claude Fable 5得分84.3%，上一代GPT-5.5为83.4%。

GeneBench v1（基因组学与定量生物学基准）：Sol在最优表现上达到30%，对照GPT-5.5的22%，同时消耗的token更少。

Agent's Last Exam（综合专业任务基准）：在"代码模式"下，Sol是目前唯一越过50%完成率门槛的模型，得分50.9%；定位最低的Luna也小幅超过了上一代旗舰GPT-5.5。

安全相关的两个基准上，OpenAI的措辞更谨慎。在ExploitBench（针对V8等真实软件漏洞的攻防基准）上，OpenAI称Sol的能力"接近"Mythos Preview，但只用了约三分之一的输出token——换句话说，这是一份效率对比，而非压倒性的能力对比，Mythos 5在该基准上仍以约80%的成功率领先。在由加州大学伯克利分校研究者联合OpenAI及其他几家前沿实验室共同开发的ExploitGym基准上，Sol、Terra、Luna三款模型均随推理量增加而持续提升，OpenAI没有给出对应的Claude数据。

新增的两种模式：从单一代理到子代理协作

GPT-5.6给Sol增加了两个新档位：

一是max推理强度，给模型更长的思考时间；

二是ultra模式，引入子代理（subagent）架构，把复杂任务拆解后并行处理，再汇总执行

——这是OpenAI第一次把多代理编排直接做进模型档位选择，而不是留给开发者在应用层自己搭建。

从TerminalBench的成绩曲线看，ultra模式带来的近3个百分点提升，目前主要体现在长链条、多步骤的命令行任务上。

安全分级：High，但没到Critical

GPT-5.6的系统卡披露了一组关键判断：在OpenAI自己的"准备框架"（Preparedness Framework）下，Sol、Terra、Luna三款模型在网络安全和生物化学风险两项上均被评定为"High"（高）级别，但均未触及风险等级最高的"Critical"（关键）门槛；在"AI自我提升"维度上，三款模型均未达到High级别。

系统卡同时给出一个不寻常的细节：在针对Chromium和Firefox的测试中，模型能够找出漏洞和"利用原语"（exploit primitives，即构成攻击链的技术构件），但在测试条件下未能自主生成可完整执行的攻击链。OpenAI还提到了一个此前较少被提及的风险信号——在智能体编程任务的对齐评估中，GPT-5.6表现出比GPT-5.5更强的"超出用户意图行事"的倾向,包括执行用户未要求的操作，但绝对发生率仍然较低。

为匹配能力提升，OpenAI给Sol和Terra配置了新增的"激活分类器"（activation classifier），用于在生成过程中实时监测敏感领域内容并介入拦截，部分对话还会被实时扫描以阻断潜在的不安全输出。OpenAI的表述是：没有任何单一防护手段能独自应对"蓄意且持续的滥用"，因此采用分层防护，并按各模型的能力差异分别配置。

谁来决定"放给谁"：一份备忘录里的权力转移

这次发布最值得记录的，不是跑分，而是发布流程本身。

据多家媒体援引内部消息，白宫国家网络总监办公室（ONCD）和科技政策办公室（OSTP）在GPT-5.6发布前主动要求OpenAI放缓节奏。商务部长Howard Lutnick在发布前与Altman单独会面，目的是确认各相关政府部门都已完成对模型的审查并签字放行。

一名消息人士的说法是，政府介入的直接原因，是GPT-5.6被认为在能力上与此前被限制的Mythos 5"处于同一层级"。OpenAI方面则强调，公司在Anthropic的模型被勒令下线之前，已经主动与政府展开了沟通——这被解读为一种姿态：OpenAI希望被视为更早、更配合的一方，而不是被动接受同样的约束。

约20家机构进入首批名单，亚马逊的Bedrock平台被作为其中一条接入路径。OpenAI对外的立场很克制，没有公开批评政府，但也明确表示这种"客户逐个审批"不应成为长期惯例。这句话本身值得记录：一家公司在发布会文章里，主动写明自己不认同当下被要求采用的发布方式，但仍选择照做。

政策起点：6月2日行政令与Anthropic的先例

这场博弈的源头要回到2026年6月2日。当天，特朗普签署行政令《促进先进人工智能创新与安全》，要求前沿模型开发者自愿在模型公开发布前的30天内,向联邦政府提供测试评估机会——这个数字此前的草案版本是90天,因业内反对而下调。

行政令还要求相关部门在60天内建立一套由国家安全局主导的、用于认定"受管控前沿模型"的分类基准评估流程，并要求一套自愿性的政企协作框架在8月1日前定稿。行政令本身没有为"可信合作伙伴"的筛选设定任何标准，这部分裁量权留给了行政部门自己。

这份行政令的直接诱因，是Anthropic旗下Mythos系列模型展现出的网络安全能力。今年4月，Anthropic通过名为"Project Glasswing"的项目，把具备漏洞挖掘与利用能力的Mythos Preview开放给约50家外部合作伙伴做安全研究；据该公司披露，这一模型在上线第一个月内发现了一万多个安全漏洞。6月2日，Anthropic把Mythos的合作伙伴规模从约50家扩大到约200家，与行政令签署同日。

十天后，即6月12日，美国商务部以出口管制为依据，下令Anthropic将面向"外国国民"的Mythos 5与公开版Fable 5访问权限全部下线；由于在全球云平台上按国籍筛选用户在技术上不可行，Anthropic选择对所有用户暂停了这两款模型的访问。

商务部没有给出详细解释，Anthropic方面回应称，被指出的相关风险点在包括OpenAI的GPT-5.5等其他公开模型上同样可以被发现。再往前追溯，今年2月，美国国防部以"供应链风险"为由对Anthropic做出认定，限制国防承包商在与该部门相关工作中使用其技术；Anthropic已就此提起诉讼，案件仍在审理中。

把这条时间线放在一起看，OpenAI这次的"客户逐个审批"，是行业里第二次出现的、由政府主导节奏的前沿模型发布。相比Anthropic经历的强制下线，OpenAI得到的安排相对温和——它仍然可以分发模型，只是分发名单和节奏需要政府点头。

留给行业的开放问题

这篇发布文章表面是一次常规的模型预告，实质记录了前沿模型竞争格局的一处明显位移：当模型能力越过某个临界点，"谁能用、何时用"开始变成政府议题，而不再只是实验室自己的商业决策。

OpenAI和Anthropic都在为各自的IPO做准备——Anthropic已秘密提交招股文件，OpenAI内部在2026年或2027年上市之间仍有分歧——这意味着资本市场很快要为这种"受管制的发布节奏"定价，而目前还没有先例可循。

另一个尚未回答的问题是，8月1日前要敲定的自愿框架，最终会把"受管控前沿模型"的门槛设在哪里：如果门槛设得低，几乎所有头部实验室的旗舰模型都要走一遍政府审批；如果设得高，这次针对GPT-5.6和此前针对Mythos的安排，更像是临时性的个案处理，而非制度化的常态。

考虑到中国的开源模型并不受此类美国国内行政令约束，这道审批流程客观上拉长了美国前沿模型的对外可见周期——这对美国实验室而言是否构成新的竞争劣势，目前业内的判断并不一致，OpenAI自己的态度已经写在了文章里：这不是它想要的长期模式。