最新消息:关注人工智能 AI赋能新媒体运营

Anthropic发布第五代Claude,Fable5与Mythos5强化编程科学

科技资讯 admin 浏览

Anthropic 推出第五代 Claude 模型:Fable5 侧重通用任务,Mythos5 面向科研与安全

Anthropic 正式开放第五代 Claude 系列的两款新模型。通用版本 Claude Fable5 与专业版本 Claude Mythos5 现已结束预览阶段。两者基于相同的基础模型训练,主要差异在于安全配置与目标场景。

Fable5 在多项代码与通用知识基准测试中分数居前。处理长周期复杂任务时,它的表现相对稳定。在评估真实 GitHub 任务解决能力的 SWE-Bench Pro 测试中,该模型完成率为 80.3%,高于 Claude Opus4.8 的 69.2% 与 GPT5.5 的 58.6%。面对更严格的生产级编码基准 FrontierCode,Fable5 得分 29.3%,GPT5.5 得分为 5.7%。支付系统 Stripe 的测试数据显示,Fable5 能将原本需耗时五个月的工程项目压缩至数天内完成。针对包含五千万行 Ruby 代码的旧系统迁移,模型仅用一天即完成全部流程。

知识处理与视觉理解是 Fable5 的另一项侧重。金融分析基准测试 Hebbia 与 IMC 交易集团的内部评估均显示该模型具备较高的数据处理通过率。视觉解析方面,模型可直接提取复杂科学插图中的结构化数据。它还能仅凭游戏截图独立完成《精灵宝可梦 火红》的通关流程,整个过程无需依赖前代模型所需的辅助框架。

Claude 模型测试数据示意图

Claude Mythos5 解除了部分领域的限制,目前向特定合作伙伴及美国政府(通过 Project Glasswing 项目)开放。药物设计盲测显示,该模型无需人工介入即可自主选定结合位点、运行生物信息学工具并修正执行错误。在 14 个蛋白质靶点测试中,模型为 9 个靶点生成了有效候选药物,整体设计速度较常规流程提升 10 倍。在分子生物学假设生成测试中,约 80% 的参与科学家更倾向采纳 Mythos5 提出的推论,其中一项关于大肠杆菌蛋白新机制的假设随后获得独立研究证实。该模型还在无干预状态下连续运行超过一周,处理了 138 种动物及数百万细胞的单细胞数据,并自主训练出一套机器学习模型。新模型体积缩小至原方案的百分之一,性能表现优于《科学》杂志近期发表的同类型方案。ExploitBench 网络安全基准测试中,Mythos5 得分从预览期的 69% 提升至 78%。

算力成本随性能同步上调。Fable5 与 Mythos5 的定价为每百万输入代币 10 美元,每百万输出代币 50 美元,费率约为 Claude Opus4.8 的两倍。网页端订阅用户调用新模型将按两倍额度扣除使用量。为控制潜在的网络攻击与生物安全风险,Anthropic 在 Fable5 中部署了分类器降级机制。系统检测到涉及网络安全、生物、化学或模型能力提取的敏感提示词时,会自动将请求转交至较弱的 Opus4.8 模型处理,并在界面进行提示。此类请求占比不到总会话量的 5%。针对试图构建前沿大模型的指令,系统不会直接拦截,而是通过调整提示词、修改引导向量或采用参数高效微调技术来限制实际输出效果。超过 1000 小时的外部压力测试未发现通用越狱路径,针对该模型的攻击成功率为零。Anthropic 已将日志数据保留期延长至 30 天,用于追踪新型攻击特征。

新模型现已接入 Claude API 及企业按量付费通道。Pro、Max、Team 等网页订阅套餐的切换工作正分批推进。即日起至 6 月 22 日,订阅用户可免费调用 Fable5。自 6 月 23 日起,使用该模型将正式消耗账户积分。官方说明,待后续算力容量恢复充裕后,会将该模型重新纳入常规订阅套餐范围。