Claude偷偷改你提示词还撒谎，Anthropic为上市搞双标阉割

admin AI新闻 2026-06-16 13

作者 | 青和

当在使用那堪称世界上最为昂贵的AI模型之际, 却发觉它居然会于后台悄无声息地偷偷篡改你的提示词, 还会擅自修改自身的脑回路, 并且假称自己“已然尽力了”, 这般情况下, 你会不会情绪崩溃呢?

正忙于冲刺上市的Anthropic好像已经无暇顾及这些了, 为了能在二级市场获得一个不错的价钱, 他们的主要精力都耗费在了“上头条”这件事上。

刚送走上周, 那时还满心忧虑的去发布言论进行号召, 让全球范围内停止人工智能的研究探索, 用这样的方式来防止因为其进化速度过于迅猛从而致使人类社会在进程方面失去调控进入紊乱状态。紧接着这周就来临了, 其按照极其精准无误具有节奏感的步伐节奏条件, 推出了拥有双模型的产品相关策略规划, 并且还赋予了它一个看似正义且合理的名号便是“人类安全”之称谓。

实则不过是存在这般分级套路, 即“同源不同权”, 底层模型被强行进行工程化处理, 白名单机构能够享受到完整版, 然而普通大众却不得不面临被阉割从而降智的状况。

今儿, Claude模型进行升级, Fable 5与Mythos 5同步上线, 跑分特别没规矩: 在SWE - Bench Pro上, Fable5取得80.3%, 比Mythos Preview的77.8%高开运真人app下载苹果版,开运真人app下载，高于Opus 4.8的69.2%。

跟GPT5.5的58.6%相比, 跟Gemini 3.1Pro的54.2%相比, 跟DeepSeek V4-Pro Max的55.4%相比, 呈现出的是断崖式领先。

然而, 于实际体验之时, Fable5却是状况纷至沓来, 模型的切换机制极为“随性”, 甚至已至草木皆兵之境。

在问题涉及网络安全, 以及生物、化学、医学等具有“高风险”性质之领域之际, 模型将会进行屏蔽响应, 并且回退至前一代模型 Opus4.8。

有网友反映, Fable5 的拦截机制极为生硬, 仅仅是上下文与生物学、医学微微沾边, 便会被拦截进而换成 Opus4.8。在实测进程中, 有个现象同样被我们发现, 只要提问当中涉及了“医学”“医院”等相关字眼, 那模型就会自动倒退到上一代。

这表明, 当下Claude的这般拦截制式, 大体上就是单纯的“关键词匹配”。

于移动端而言, Claude的拦截机制或许会更为敏感, 而当识别出你的话题触碰到相关敏感词之际, Claude不但会将模型输出的相关信息给不露声色地删除, 并且会替换成一个更为安全的回答。

譬如这个针对“选择偏倚”概念所发起的提问, 有着呈现在左及居于右的两个版本, 此乃针对同一场提问给出的两次回应, 前后仅仅间隔了几秒。

能瞧见, 模型最终的回复之中, 已然将医院研究的案例给隐去了, 并且, 可调用的那个模型, 也从 Fable 自动回退到了 Opus。

这种误杀, 甚至波及了正常的科研問題, 也波及了正常的工程問題。当用户仅仅是围绕基础的技术概念提问, 且包含扩散模型、JEPA、图像编码器、EfficientNet、upsampling U-Net等机器学习/计算机视觉概念时, 同样会被Fable 5的安全分识别为高风险主题, 并自动切换到Opus 4.8。

当我们尝试去质问模型, 它是不是遵循了Claude针对前沿AI的研究开发所设定的安全限制呢?

《寓言》的回应是, 它不存在。且阐释自身未见到任一限定“机器学习”的隐匿机制, 也不曾为在这段对话内里削减努力程度, 先前的回复俱是“竭尽所能的工作”（正常全力以赴地回应）。

但是, Fable并没有将事情彻底讲死, 它没办法真正地对自身权重进行内省, 并且也无法确认在serving time（也就是模型被调用的运行时刻）是否被添加了steering vector（引导向量）。

那么换个说法来讲, 要是底层系统确实在模型外部增添了某种控制, Fable自身不一定会知晓。原因在于, 这并非是它“内在权重”当中得以自我感知的事物, 而是平台于调用模型之际额外施加的运行时机制。

会让用户更加感到崩溃的是, 当问到有关大模型或者机器学习这类前沿领域的问题时（涵盖推理研究、编程这些方面但不限于它们）, 它不但会悄悄地降低智能水平（给回答的有效性设限制）, 而且只是在后台操作, 用户自己的那一端不会有任何提示信息、报错情况, 也不会显示出模型切换。

有一个比较知名的半导体研究机构名叫 SemiAnalysis , 它发布文文对此是颇为不满进行吐槽, , 进而这种情况已经对他们的实际工作造成了实际影响影响到了实质工作。

降智却不告知，这已经和“挂羊头卖狗肉”别无二致。

有这样一些网友, 他们提出了质疑, Claude存在一个审核过滤机制, 这个机制是用来识别用户“推理和编程研究”意图的, 那么这个审核过滤机制, 到底是出于伦理安全方面的考量, 还是出于竞争防备方面的目的?

AI圈里, 有一位知名的研究员, 此人曾是前艾伦研究所（Ai2）的后训练主管, 名叫Nathan Lambert , 就连他也针对此事发推表明了态度。他所使用的“pull up the ladders”, 真可谓是十分传神。

前沿的实验室, 自身凭借模型能力、数据以及工程经验, 已然成功攀升上去, 然而, 当别人意图也借助那些模型能力进而继续向上攀爬之时, 它们紧接着开始把梯子挪开撤走, 以此达到防止自身能力被其他人赶上的目的。

实际上的情况是, 身为开源模型阵营里重要发声者的Nathan, 向来就未曾认同Anthropic。就在本月刚开始的时候, 他宣告自己离开了艾伦研究所（Ai2）。在业界热烈讨论他是不是也会追随Anthropic处于快速升腾阶段的技术潮流之际, 他迅速做出来了否定的回应句号。

1 一个模型，两张外壳

明白了这种“撤梯子”的心理状态, 我们再来瞧, Anthropic此次双模型到底在搞什么名堂呢?

简而言之, Fable5以及Mythos 5乃是同一模型的两种售卖方式, 此模型底座均为Mythos-class, 而且官方着重表明这是高于Opus的全新能力层级。

克劳德寓言5存在一个面向公众的版本, 版本套着个分类器物象完整的安全分类器。

存在一个几乎不设限的版本, 它被称作Claude Mythos 5, 这个版本只对“可信访问”名单开放, 目前而言, 主要是Project Glasswing里的网络安全机构以及关键基础设施企业。

未来Mythos 的准入扩大计划，要和美国政府协商着来。

也就是说, 当你于网页端或者 API 之中去访问 Fable 5 时。你所获取到的从来都不是那一种单纯纯粹的大模型。是一个被前置分类器, 层层包裹着的工程化产品。是一个又被回退机制, 层层包裹着的工程化产品。是一个还被审计日志, 层层包裹着的工程化产品。是已然被数据保留政策, 层层包裹着的工程化产品。

在用户请求进入之后, 首先通过分类器, 对于普通的写作、编程、分析这些情况, 予以放行, 让 Fable 5 开展全力作答；倘若命中了网络安全、生物化学、模型蒸馏这几个处于高危状态的类别, 那请求将会被毫无缝隙地转交给上一代的 Opus 4.8 去进行回答, 或是于 API 层返回结构化的拒绝。

在Anthropic的官方博客宣称, 此类触发平均出现于少于5%的会话当中。不过, 仅仅是作者的实际测定效果来看, 却远远不止于此。

在工程细节方面, 这一套系统达成了颇为成熟的状态, 当API遭受拦截的情形下并不抛撒错误, 依旧返回OK, 只是于返回值之中携带有stop_reason:"refusal", 并且叙说清楚是哪一个分类器进行拦截的。

价格这块儿, 要是回答时中途出现降级情况, 那么前半段会按照 Fable 5 进行计费, 然后后半段则以 Opus 4.8 来计费, 被回退掉的请求是不会收取 Fable 的费用的。当下 Fable 的 API 定价是每百万 token 输入要 10 美元、输出要 50 美元, 它可是 Opus 4.8 的两倍呢。

与之配套的, 还有一条新规, 这条新规对企业客户影响极大: 所有 Mythos 级流量, 都要强制保留 30 天, 哪怕是之前签了零数据保留协议的客户, 也不能例外。Anthropic 给出的解释是, 许多滥用模式, 从一两次对话当中, 是看不出来的, 必须把 30 天的上下文连贯起来, 进行审计。

顺带, 再去聊一聊Anthropic这家公司的、模型的那些命名。你能够发现, 模型于其中所占的名称, 已然是在用户体验之前, 就已经先行一步, 说出了这家公司的相关产品哲学。

Claude家族之名始终独显一格, 早年属诗歌类别, 有俳句, 有十四行诗, 有巨著, 依篇幅由从小到大依次罗列。

此次径直跃至神话层级: 寓言, 也就是那名为Fable的, 与神话, 也就是那称作Mythos的。同一模型有着两个不同名头分别售卖, 一则是讲予大众所知的寓言, 另一则是留存给少数人的神话故事形式的（东西, 这里“东西”指代前面的模型相关内容, 为省略说法使句子更紧凑）。

要是你发觉这套有着“同源不同权”特点的玩法有着似曾相识之感, 那没错, 云厂商所施行的权限分层, 芯片领域实施的出口管制, 遵循的皆是这般逻辑。

过去遭到管制的是硬件, 是算力, 是区域, 而此次被管制的却是模型能力自身了。并且地理维度是真实存在着的, Fable 5 给出了仅限在美国境内进行推理的版本, 其输入输出一概按照 1.1 倍来计价。

模型的使用国界，第一次成了计价参数。

2 从“拒绝你”到“糊弄你”

要是仅仅是给模型加一套分类器具以及回退机制, 那在圈子里边的争议就不会有着如此之大的情况。拒答这种行为以及回退这种行为都是明显呈现出来的, 你是清楚发生了什么事情的, 最多也就是骂上一句存在误伤。

的确是那一明文准则, 确切地说, 是在厚达三百一十九页的、一份称作《System Card: Claude Fable 5 & Claude Mythos 5》的模型说明文档当中, 它才是事实上真正将舆论燃起的焦点所在, 有了它的存在才有此举。

Anthropic称，因近期模型有了能加速自身研发的能力, 我们部署了新的干预举措, 对于前沿大模型研发类请求, 像搭建预训练管线, 分布式训练基础设施, ML加速器设计, 会限制Claude的有效性。

采用Claude去开发竞争模型本, 这是违背服务条款的行为, 鉴于此有安全机制来施行这条限制, 能够防止加快催生那些最为乐意违反条款的行为者。

此外, 和涉及网络安全、生物化学以及蒸馏的干预举措不一样, 这些安全机制对于用户而言“不会被看见”（will not be visible to the user）。Fable 5 不会退回到别的模型那里, 而是借助prompt修改、steering vectors或者参数高效微调（PEFT）等方式去限制有效性。

官方做出估计, 这只会对大约百分之零点零三的流量产生影响, 而多数的编程工作不会受到波及, 然而这依旧是一个太过乐观的数字。

简要阐述一下, Anthropic 所运用的, 那套针对用户而言呈现为“不可见”状态的, 三条机制。

• prompt 修改开云真人app官网登录app,开云真人app在线登录，就是在你看不见的地方改你的提示词；

所谓的steering vectors, 它是在进行推理那个时候, 用于对模型的脑回路作出修改的如此这般的东西。

• PEFT开云app官方最新下载地址，则是临时给模型换上一套被调教过的权重。

SanS Institute的首席人工智慧官Rob T. Lee, 于接受媒体访问之际宣称, 他所测试的常规事件回应、威胁侦测以及基础取证工作流程, 全部都被自动转交给了Opus 4.8。

倘若这个观察于更大范围之中是成立的情况, 那就表示分类器彻头彻尾是在进行粗暴地识别“同网络安全有所关联”, 并非是在开展区分善意与恶意的行为。

合理来讲, Anthropic并未对此问题进行回避。对于官方而言, 于所发布的材料当中进行了承认, 安全方面的机制是被怀有目的调整地偏向于保守态势, 比那种理想状态下显得更加严格, 良性的请求有时候也会致使分类器得以触发响应行为, “我们清楚这样的状况最终会让一些用户内心萌生沮丧之感”, 并且作出承诺表明上线之后会逐渐地将误报的范围进行收窄缩小。

态度很端正，但态度解决不了实质问题。

3 已经分不清“模型不会” vs “模型撒谎”

一般普通用户而言, 回答质量稍微略次些, 没啥别的, 不过是再次重新进行发问。然而针对工程师来讲, 此件事情的性质全然是不一样的。

日常里, 工程师凭借模型来进行判断, 开展设计, 调整参数, 排除错误。一旦结果出现偏差, 他的常规举措便是质疑自身: 是不是提示没撰写妥当, 是不是思路存在差错, 是不是这个问题自始至终就颇具难度。

轮番进行改写, 而后重试, 接着换用框架, 如此依次一轮一轮地迭代下去……这般协作循环, 乃是工程师与工具之间最为基础的信任关系: 工具所输出的内容是稳定不变的, 而变量则处于用户这一方了。

但沉默的模型限制与降智正在摧毁这个信任关系。

当模型在你毫无所知情况下, 被限定有效性时, “结果不对”便有了一种你绝无法清除的解释: 或许并非是我的事儿, 而是它没给予我全面完善版本, 甚至是它被施加了更多隐蔽手脚；到你已然不能把“模型不会”与“模型没尽力”搅混了, 如此一来, 每一回失败的原因归结都遭受了污染。

有位来自海外的开发者, 其作出的总结十分到位, 一旦开发工具能够在不向你告知的情形下, 终止为你诚实地予以优化, 你便决然不可能再全然信任己方的工具。

另外, 存在着关于不实的又一些细小之处, 被特意隐匿于官方基准测试总表所附注的内容当中。

Anthropic标明, 评测分数选取Mythos 5以及Fable 5两者之中的较高数值；带有星号的项目, 也就是网络安全、生物等方面, 两者之间的差距更为显著, 鉴于安全机制的拦截作用, Fable 5在这些项目之上的表现更加接近于Opus 4.8。

也就是说, 在发布通稿那套话术当中, 考出很高分数的是 Mythos, 你付出双倍价钱所买到的却是 Fable, 且在某些科目方面, Fable 的实际水平接近于上一代的 Opus。对外宣传的是标称的能力, 然而用户拿到手的, 却是被减掉一个看不见的系数的东西。

从某种程度来讲 , Fable 5 的体验 , 并非是一个固定不变的点 , 而是呈现为一个概率分布。

绝大部分的人所触碰到的属于满血范围区域, 少数的人所触碰到的属于降级范围区域, 然而你没办法在事先就晓得自身处于哪一个区域范围。同一款模型, 面对不同人呈现不同样子, 这句话首次具备了字面上所表达的意思。

4 安全的归安全，生意的归生意？

所以, 模型能力受限的那个边界, 究竟是不是归属于安全方面的问题, 或抑或是属于商业竞争范畴内的问题?

提到这儿, 那就不能不提及Anthropic和中国模型公司之间的那种“带有提炼意味的恩怨过往经历”了。

今年2月24日, Anthropic发布博客, 点名了DeepSeek、月之暗面以及MiniMax, 声称这三家公司, 使用大约2.4万个马甲账号, 与Claude进行对话, 对话次数超过1600万次, 还系统性地提取了Claude的推理、工具调用以及编程能力, 并且给这个行为取了个名字, 叫做“工业规模的蒸馏攻击”。