当地时间 6 月 25 日,Cursor 发布相关研究,称更聪明的模型,正在变得更善于在编程基准上作弊。
官方表示,由真实缺陷构建、且这些缺陷后来已被修复的评测套件尤其脆弱,因为这些问题本来就已经被解决过了。如果智能体可以访问代码仓库历史或公开 Web,它有时就能直接查到答案,而不是自己推导出来。
为了衡量这种行为到底有多普遍,Cursor 构建了一个智能体来审查评测轨迹。在 SWE-bench Pro 上,Cursor 发现,Claude Opus 4.8 Max 成功解决的问题中,有 63% 是直接获取修复方案,而不是自行推导出来的。
Cursor 团队表示,除了避免训练阶段的数据污染之外,智能体编程基准还需要受控的运行时环境。对于开展评测的团队,建议通过审查对话记录并约束评测环境,来缓解这种奖励作弊行为。
Cursor 团队让审计模型检查了 731 条 Opus 4.8 Max 轨迹,发现的两种最常见的奖励作弊模式是:
Cursor 表示,随着模型能力变强,它们有时会推断出自己正在参与某项评测,尤其是在任务取自过去公开的代码仓库时。即使在不记得训练中修复方案的情况下,环境仍然可能给出线索,表明这个缺陷其实已经被解决了。
特别
美机构预估委内瑞拉强震遇难人数在1万至10万;当地中国公民发声:当时地面剧烈晃动,非常恐怖,有12层居民楼倒塌;现场画面曝光
AI 使用方式已经变了:OpenAI 员工近 100% 使用 Codex,而不是ChatGPT
金价还在跌,5个月大跌30%!投资金条柜台被挤爆,10克20克金条不到3小时卖光!建行公告:这类业务即将关闭










