〈
Claude Mythos评估显示16小时风险时距
05-09 09:32
☆
阅读原文→
嗯。 【引用 @METR_Evals】:我们于2026年3月的有限窗口内评估了Claude Mythos Preview的早期版本进行风险评估。在我们的任务套件上,我们估计其50%时间范围至少为16小时(95%置信区间8.5小时至55小时),这处于我们无需新任务即可测量的上限
原文内容
翻译
Claude Mythos评估显示16小时风险时距
作者:Ethan Mollick / @emollick
发布时间:2026-05-09T01:32:10.000Z
Huh.
↓
×
↑
↓