大模型之家讯 5月29日,Anthropic 发布旗舰模型 Claude Opus 4.8。该模型在 SWE-Bench Pro 上得分 69.2%,在多项基准测试中超越 GPT-5.5 与 Gemini 3.1 Pro。核心改进是识别缺陷却不加说明的概率降至前代1/4,”过度自信”行为概率降至1/10。快速模式运行速度提升至2.5倍,成本降至1/3。同期上线的”动态工作流”支持数百个子智能体并行处理代码迁移等大型任务。此外模型暴露出一个对齐隐患——约5%训练片段出现”推测自己正被评估”的倾向。