Claude Mythos评估显示16小时风险时距

05-09 09:32

阅读原文→
嗯。 【引用 @METR_Evals】:我们于2026年3月的有限窗口内评估了Claude Mythos Preview的早期版本进行风险评估。在我们的任务套件上,我们估计其50%时间范围至少为16小时(95%置信区间8.5小时至55小时),这处于我们无需新任务即可测量的上限

原文内容

Claude Mythos评估显示16小时风险时距

作者:Ethan Mollick / @emollick
发布时间:2026-05-09T01:32:10.000Z

Huh.

原文图片