Anthropic最终将Mythos推至公开市场, 不过是施行分层发售的方式。
那是在凌晨时分, Anthropic 正式推出了 Claude Fable 5, 同时, Claude Mythos 5 也被推出。Claude Fable 5 对普通用户开放准入, 然而, Claude Mythos 5 却仍旧限定于“受信任的安全合作伙伴”这个范畴内容许使用。

新模型的命名可以说很符合Claude一贯的风格。
从俳句进入到十四行诗, 而后又迈向了艺术巨著, Anthropic始终借助文学以及艺术概念为模型划出层次, 到了神话, 名字已然从文学作品扩充至“神话”自身啦。
Fable源自拉丁语fabula, 其意为“被讲述之物”, 它与希腊语mythos同源, 若要直译过来通常会被称作“寓言”。这个名字恰似新模型的定位 , 乃是一个“Mythos级”的模型 , 是一个“公开的神话”。
据Anthropic所讲, Fable 5、Mythos 5共用同一底层模型, 不过是被安置进了更适配公开分发的安全外壳里, 在官方给出的模型能力方面, 它们二者处于同一位置。

但是呢, 跑分是跑分这回事儿, 要是Fable以及Mythos的表现呈现出毫无差别的状况, 我觉得估计也就没必要分成两个不同的名字了。
01 被改写的“神话”
神话被改写、被压缩、被加上训诫之后,变成了寓言。
依官方文档所示, Fable 5属于公开版本, 它对普通用户与开发者予以开放, 然而在网络安全、生物、化学以及模型蒸馏这类高风险领域, 则会有额外的安全分类器参与进来, 一旦系统判定请求或许涉及这些敏感方面, 回答便不会再由Fable 5去完成, 而是会自动退回到Claude Opus 4.8。
Mythos 5是基于相同的底层模型构建的, 然而在一些领域它解除了Fable 5的限制措施。据Anthropic表示, 在Project Glasswing之中的网络安全方面的合作伙伴能够运用“满血状态的”Mythos 5;在将来的时候, 有部分研究生命科学的人员或许也会借助受信任的访问计划, 进而使用解除了生物以及化学方面限制的版本。
用不到的Mythos我们暂时不提开运真人app下载苹果版,开运真人app下载,先看点实在的东西。
首先是定价,一个字,贵。
Fable 5的定价情况是, 输入为10美元每百万token, 而输出是50美元每百万token。开发者当下能够借助Claude API来调用claude - fable - 5(此为模型名)。
这一价格恰好是Opus 4.8的两倍, 它与Opus 4.8的fast mode是一样的, Anthropic显然是将其置于比Opus更高一个档次的价格层级当中的。
不过, Anthropic表示, 这一价格, 比之前的Claude Mythos Preview要低一半, 然而, 因为Mythos Preview不是公开API模型, 官方没有给出面向公众的标准价格, 所以这句话没办法得到证实。
订阅了的用户, 同样也得留意, Fable 5, 不一定就会长时间直接就被包含于基础订阅包当中。
Anthropic在官方说明里提及, 在6月23日之后, 就算用户已然订阅了Claude, Fable 5有可能会依据算力情形按照数量来提供, 并不一定就会直接被涵盖到基础订阅服务当中。
这个公司一丁点儿一丁点儿地变得越发抠门儿了, 然而好歹总归是还预留了小半个月的试用期。在那种情况之下官方也有限地留存了些许回旋的空间, 具体而言就是要是在6月23日这一天之后针对算力方面各种相关资源已经达到足够充裕的状态, 那么Anthropic这个主体会尽最大可能去谋求尽力把Fable 5这项内容持续涵盖保存在以Pro、Max等等这些为代表的订阅服务范围之内。

把价格定得高, 这件事本身并非特别难以让人理解, 可是, 它最好要确保, 它自身所具备的能力能够与它所设定的价格相匹配才行。
就跑分而言, 可以看到, Fable 5开云app在线入口,开云真人官方下载,以及Mythos 5, 基本上属于Anthropic当前公开列表里最强的那一个档次。
只是官方表格存在一个说明, Claude Fable 5跟Claude Mythos 5的分数常规而论仅仅相差1到3个百分点(除去带有星号的网络安全以及生物相关测试之外), 故而表格之内呈现的是两者间更高的那个分数。这样子的一种情况实在是轻易就让人产生吐槽的想法。

Anthropic将Fable 5的重点置于几个方向, 这几个方向分别是软件工程, 还有知识工作, 以及视觉方面,再者是长上下文记忆, 另外是生命科学研究。
软件工程属于极为凸显的场景范畴, 依据表格指示, Fable/Mythos 5于SWE - Bench Pro上达成了80.3%, 显著地高于Opus 4.8的69.2%;在更为具挑战性的FrontierCode Diamond上呢, 它取得了29.3%, 然而Opus 4.8仅仅有13.4%, GPT - 5.5仅有5.7%。


知识工作和视觉任务上开云真人app官方版入口,开云真人app官网入口,Anthropic给出了两类证据。
一类是标准化的benchmark, 官方表格展现出, Fable/Mythos 5在GDPval - AA上所获得的分数是1932, 此分数高于Opus 4.8、GPT - 5.5以及Gemini 3.1 Pro;在GDP.pdf这类附带视觉理解的文档任务方面, 它达成的比例为29.8%, 这一比例同样超越了其他主要模型。
另一类是早期的时候进行客户的测试, Anthropic表示, Fable 5在Hebbia的那种高级别的金融推理基准之上获得的是最高分, 优势主要集中于文档推理方面, 还有图表以及表格理解, 以及问题求解领域;IMC也给出反馈, 它于交易分析评估之中几乎全部顺利通过。
为了将Fable 5的视觉能力予以展示, Anthropic所列举的例子是, 此前Claude模型要玩《宝可梦 火红》得借助复杂辅助工具, 然而Fable 5仅仅凭借视觉输入便能够达成通关。

关于长任务以及记忆能力方面, Anthropic宣称, Fable 5能够在几百万token之多的长久任务里维持专注状态, 并且借助自身的笔记来改良输出。
在像《杀戮尖塔》这种需要接连不断进行决策以及长期规划策略的游戏里面, 要是给Fable 5接入能够持久保存文件并记忆前面抉择与经验的功能, 那么它的表现就会显著得到提升。提升的幅度是Opus 4.8的三倍, 抵达最终关卡的次数同样提高了三倍, 而且是在这种情况下。
, 顺便说一句, Fable乃是一款经典RPG游戏的名称, 其被翻译成中文是《神鬼寓言》, 想象一下子;也许某一天我们能够目睹Fable去玩《Fable》。
此外, 就网络安全能力来讲, Fable / Mythos 5这一款在ExploitBench Cap%这个指标上已达到78.0%, 它超过了Claude Mythos Preview的69.0%, 并且接近Opus 4.8的大约两倍之比率。
应当是用Mythos 5的所获分数, 在这里, 鉴于Fable 5于高风险请求之时会退回到Opus 4.8。
02 强大的模型必须分层
Anthropic此次将模型能力的直观呈现放置于一个类似“作品集”的滑页之中, 而且每个演示仅给出了一小段注释。

比如说, Fable 5创作了一个太阳系模拟, 它是从物理的第一性原理出发去推导行星轨道运动的, 然后运用这个推导结果来预测日食。

再比如说, 它能够自行去玩《异星工厂》, 这是一款深受工程师喜爱的工厂自动化类型的游戏, 玩家需要把资源收集起来, 对生产线进行规划, 还要搭建物流以及能源系统。
以这个事例来讲, Anthropic阐释出来了, Fable 5 有能力于一种能够自由进出不受限制或阻碍的环境当中进行对策的制定, 而且还能够持续不断地去推进一项具备多层次、繁复和具有深度的系统的构建。

有一个别的 demo里面, Fable 5最初弄了一个依据浏览器的CAD编辑器, 之后又运用这个靠自身研发的CAD工具, 设计出了一个能够3D打印的完整模型, 这个编辑器当中还内置了AI copilot, 用以辅助建模。
这个演示的关键之处有着这样的情况, 寓言5达成了一种封闭循环, 先是去创造工具, 接着使用该工具, 最终完成一项实体设计任务。

处于末尾位置的那唯一一个demo, Anthropic呈现出了一个借助Fable 5创作出来的流体模拟, 该项模拟的运动节奏与一段经过古典音乐EDM remix处理后的音乐达成了同步。官方特意作出了提及, 那音乐同样是由Fable 5运用代码生成的。

好些案例瞧着蛮花哨, 然而意思是相同的, Fable 5在将代码、视觉、物理、设计以及长期规划掺和在一块儿来进行任务方面极具擅长之处。
假设这时所呈现的这一部分体现的是Fable 5于开发者手中能够达成的水准, 那么后续部分讲述的便是Mythos 5在研究者手中可以达成的事项 —— 以及Anthropic将Fable与Mythos予以分开的缘由。
Anthropic宣称, 于内部蛋白设计专家所展开的评估当中, 在所叙述的案例里, Mythos 5将药物设计流程其间的部分环节加速了大概10倍, Mythos, 5接入蛋白设计以及生物信息学工具, 并且在没有人类予以帮助的情形下, 能够做到匹配甚至超越熟练的人类操作员。
在那个任务里面, Mythos 5所执行的并非是单纯的问答操作, 而是要去达成一整套的科学工作流程, 具体包括选择结合位点这一环节, 还要选择并且运行蛋白设计工具这一项操作, 在失败之后要能够自行恢复过来。官方声称, 在这项研究的14个蛋白靶点里, 有9个生成了强候选分子, 当下正在进行进一步的研究。

Anthropic有所提及, Mythos 5能够稳定地提出新颖且具吸引力的分子生物学假设, 在与Opus级模型的盲测对比当中, 内部科学家在大约80%的情况下会更倾向于Mythos所提出的假设, 其中一部分已然进入到实验评估阶段。
就在这个时候, Mythos 5存在这么一个假设, 它是关于大肠杆菌蛋白具有新机制的, 而在另外一家实验室的研究里, 这个假设得到了证实, 那家实验室是独立去研究同一问题的。
它甚至还做了一项基因组学研究。
这是 Anthropic 宣称的, 在 Myths 5 完成的事情里呢有一项新的基因组学研究, 它几乎是自主完成的, 时间跨度是一周多。它做了一些事情, 先是把横跨 138 种动物、数百万个细胞的单细胞数据进行了整理, 然后还设计并且训练了一个定制机器学习模型, 这个模型的用途是识别不同物种当中执行相同角色的细胞。
更加夸张的是, Anthropic宣称, Mythos 5训练出来的模型性能超越了近期发表于《Science》上的某一个模型, 虽然它的规模仅仅是后者的百分之一。Anthropic表明, 正打算在未来几个月公布这些结果。
的确, 这一部分仍得等着论文以及外部复核。然而, 要是仅仅瞧一瞧Anthropic官方所给出的信息的话, Mythos 5 于生命科学当中所展现出来的能力已然近乎科研Agent, 即能够读懂问题, 运用工具, 处理数据, 训练模型, 提出假设, 并且将一项研究推进至能够发表的地步。
而一旦模型能够在药物设计这个方面切实推动进行任务, 在病毒载体这个领域切实推进开展任务, 以及在蛋白设计这个范畴切实促使任务达成, 还能在基因组学研究这个方向切实推进任务的进展, 那么它自然而然地就拥有了双重用途。
能够这么去认为, 生命科学的这一部分, 并非是Fable 5的那种普通的功能演示, 反倒是Mythos 5的能力上限的一种展示。
不过呢此物显映出来, 是用以表明Anthropic手上的这组底层模型, 厉害到非要借由受信赖的访问予以分发啦。
颇具意趣的是, 往昔的模型发售更仿若关乎一项技术产物之举: 有参数, 有跑分, 有价格, 有上下文长度, 还有 API 名称。强便为强, 发售便算数。
只是到了Mythos这个地方, 情况开始演变成复杂的态势。同一个处于底层的模型被区分成两个不同的版本, 普通用户所获取到的是Fable 5, 安全领域的研究者以及部分从事生命科学研究的人员所拿到的是Mythos 5;前面那一个版本被放置进更为严格的防护界限之中, 后面这一个版本则是需要通过受信任的方式去进行访问。
模型能力不再只有高低之分,也开始有权限、场景和责任之分。
从某种特定意义的角度来讲, 能够被视作前沿模型商业化正式步入新阶段的一种信号, 有一种情况是这样的, 实力越强的模型, 越发不太可能径直毫无保留地扔给每一个人, 而是会经历被拆分成不一样版本的过程, 之后被放置于各不相同的安全边界的范畴之内, 最后再交付给不同种类的用户, 这就是现实情况。
Anthropic先行如此操作, 缘其模型具备强大程度致使无法全然公开, 往后, 其他怀有讲故事意图的公司, 若欲证实自身模型同样强大, 或许会效法此种方式。
标签: Claude神话版 Mythos5 Fable5 Anthropic 模型分层
还木有评论哦,快来抢沙发吧~