Cursor公布的这张图,价值千金

张开发
2026/4/20 23:30:59 15 分钟阅读

分享文章

Cursor公布的这张图,价值千金
Cursor 团队最近发了一篇博客讲的是他们怎么评测模型质量。看完很有启发做个笔记记录一下自己的理解。周末看见了又专门精读了几遍我只能说Cursor NB上面这张图是Cursor的测评结果看见Claude Sonnet有多辣鸡了吗以及最贵的Opus也不过如此是不是我直接说结论写代码别用ClaudeClaude已经落后快一年了自从GPT O3发布Claude就完全打不过GPT有多少人被蒙在鼓里花着最贵的钱用着据说最NB的Claude代码写的相当痛苦说这张图价值千金不过分吧这个结果和我对AI编程2.0的测评排位基本一致这个榜单是我维护的能自动打分欢迎用其他模型完成任务提交结果上来GitHub地址 https://github.com/ayqy/banggemang公开榜单越来越不可信我们平时选模型很自然地会去看 SWE-bench 的分数。这个榜单长期被各家 AI 实验室拿来争霸——谁家模型分数高谁就是最强编程 AI。但这套逻辑正在崩塌。OpenAI 在今年 2 月宣布他们不再报告 SWE-bench Verified 上的成绩了。原因很直接他们发现未解决问题中近 60% 的测试用例本身就有缺陷而且包括 GPT-5.2、Claude Opus 4.5、Gemini 3 Flash 在内的所有主流前沿模型都有被喂过训练数据的迹象导致分数根本不能说明真实能力。用一个不那么体面的说法模型背了答案。给它一个任务 ID它能原封不动地把解法吐出来。这已经不是考试是默写了。同一个模型在 SWE-bench Verified 上能拿到 70% 以上换成更干净的 SWE-bench Pro直接跌到 23% 左右。那 50 个百分点的差距全是背题的水分。所以问题就来了公开基准失效了我们该怎么知道一个模型到底好不好用 最新、最有用的AI编程姿势总来自「知识药丸」《贾杰的AI编程秘籍》付费合集共10篇现已完结。30元交个朋友学不到真东西找我退钱以及我的墨问合集《100个思维碎片》1块钱100篇现已完结。文末有订阅方式质量更顶的《又100个思维碎片》不定期更新中与你探讨AI编程2.0等有意思的话题文末有订阅方式Cursor 的思路用真实任务说话Cursor 团队遇到的麻烦和我们差不多甚至更严重——他们需要在几十个模型里挑出真正适合 Cursor 产品的那个而公开榜单告诉他们的信息越来越没用。于是他们自己造了一套评测CursorBench。核心思路很简单与其用公开 GitHub 上的 bug 修复任务来测不如直接用 Cursor 工程师自己的真实开发记录来测。他们有个工具叫 Cursor Blame可以把一次 git commit 追溯到是哪个 Agent 请求产生的这样就能自然地拿到开发者的问题 真实正确答案这样的配对数据。这就像与其用模拟题备考不如直接拿历年真题。不只是难度更真实更重要的是模型们大概率没背过这些内部代码至少比 GitHub 上的开源仓库安全得多。任务变长了这很关键CursorBench 还有一个细节让我觉得很有意思他们有意识地让评测任务的规模越来越大。从第一版到现在的 CursorBench-3任务涉及的代码行数和文件数量大约翻了一番甚至比 SWE-bench Verified、Pro、Multilingual 的任务都要长。这些任务里开始出现 monorepo 多工作区环境、生产日志排查、长时间实验这类真实场景。为什么要这样做因为现实就是这样的。我们平时让 AI 帮忙改一个函数那是小任务哪个模型都能应付。真正拉开模型差距的是那种跨多个文件、需要理解整体架构、还得调用好几个工具才能搞定的大任务。 而现有的公开基准大多还停留在帮我修这个 bug的粒度上测的东西和开发者实际需求越来越脱节了。线上线下缺一不可光有离线评测CursorBench还不够Cursor 同时还在跑线上评测online evals。两者的区别在于离线评测看的是答案对不对线上评测看的是开发者用得爽不爽。这个区别比看起来重要得多。有些情况下模型给出的代码通过了评测脚本的检验但开发者实际用起来就是感觉别扭——可能是代码风格太奇怪可能是改了不该改的地方也可能只是响应太慢了。这类问题只有真实流量才能暴露出来。所以他们的策略是离线评测负责快速筛选线上评测负责最终验证两个信号互相校准。比如他们做语义搜索改进时直接跑了一个 ablation 实验——把语义搜索工具整个去掉看看线上指标怎么变才能确认这个功能到底值不值。这让我想到一个道理评测本身也是一种产品需要持续迭代。 不能测完就束之高阁用户行为变了评测套件也得跟着变。总结从这篇博客里我梳理出几个对我很有启发的点。公开基准的失效不是偶然是 Goodhart 定律的必然结果当一个指标变成目标它就不再是好指标了。越来越多的团队会走 Cursor 这条路用真实场景数据建自己的内部评测。评测的粒度要跟上实际使用的粒度。如果用户已经在让 Agent 处理跨文件、跨工具的复杂任务了评测还停留在单文件 bug 修复那测出来的东西就是假象。线上线下结合才是靠谱的模型质量观。离线测能力线上测体验缺了哪个都会有盲点。以及这张图有点绕看明白了吗参考资料• How we compare model quality in CursorNaman JainCursor 官方博客• Why we no longer evaluate SWE-bench VerifiedOpenAI坚持创作不易求个一键三连谢谢你❤️以及「AI Coding技术交流群」联系 ayqywx 我拉你进群共同交流学习订阅链接 https://note.mowen.cn/detail/OLPEp7HzeB0EXJOLe7mM4原文链接https://mp.weixin.qq.com/s/NBlnaBCThLQGV1aYUP2O8g

更多文章