Cursor公布的这张图，价值千金

张开发

• 2026/4/20 23:30:59 • 15 分钟阅读

分享文章

Cursor 团队最近发了一篇博客讲的是他们怎么评测模型质量。看完很有启发做个笔记记录一下自己的理解。周末看见了又专门精读了几遍我只能说Cursor NB上面这张图是Cursor的测评结果看见Claude Sonnet有多辣鸡了吗以及最贵的Opus也不过如此是不是我直接说结论写代码别用ClaudeClaude已经落后快一年了自从GPT O3发布Claude就完全打不过GPT有多少人被蒙在鼓里花着最贵的钱用着据说最NB的Claude代码写的相当痛苦说这张图价值千金不过分吧这个结果和我对AI编程2.0的测评排位基本一致这个榜单是我维护的能自动打分欢迎用其他模型完成任务提交结果上来GitHub地址 https://github.com/ayqy/banggemang公开榜单越来越不可信我们平时选模型很自然地会去看 SWE-bench 的分数。这个榜单长期被各家 AI 实验室拿来争霸——谁家模型分数高谁就是最强编程 AI。但这套逻辑正在崩塌。OpenAI 在今年 2 月宣布他们不再报告 SWE-bench Verified 上的成绩了。原因很直接他们发现未解决问题中近 60% 的测试用例本身就有缺陷而且包括 GPT-5.2、Claude Opus 4.5、Gemini 3 Flash 在内的所有主流前沿模型都有被喂过训练数据的迹象导致分数根本不能说明真实能力。用一个不那么体面的说法模型背了答案。给它一个任务 ID它能原封不动地把解法吐出来。这已经不是考试是默写了。同一个模型在 SWE-bench Verified 上能拿到 70% 以上换成更干净的 SWE-bench Pro直接跌到 23% 左右。那 50 个百分点的差距全是背题的水分。所以问题就来了公开基准失效了我们该怎么知道一个模型到底好不好用最新、最有用的AI编程姿势总来自「知识药丸」《贾杰的AI编程秘籍》付费合集共10篇现已完结。30元交个朋友学不到真东西找我退钱以及我的墨问合集《100个思维碎片》1块钱100篇现已完结。文末有订阅方式质量更顶的《又100个思维碎片》不定期更新中与你探讨AI编程2.0等有意思的话题文末有订阅方式Cursor 的思路用真实任务说话Cursor 团队遇到的麻烦和我们差不多甚至更严重——他们需要在几十个模型里挑出真正适合 Cursor 产品的那个而公开榜单告诉他们的信息越来越没用。于是他们自己造了一套评测CursorBench。核心思路很简单与其用公开 GitHub 上的 bug 修复任务来测不如直接用 Cursor 工程师自己的真实开发记录来测。他们有个工具叫 Cursor Blame可以把一次 git commit 追溯到是哪个 Agent 请求产生的这样就能自然地拿到开发者的问题真实正确答案这样的配对数据。这就像与其用模拟题备考不如直接拿历年真题。不只是难度更真实更重要的是模型们大概率没背过这些内部代码至少比 GitHub 上的开源仓库安全得多。任务变长了这很关键CursorBench 还有一个细节让我觉得很有意思他们有意识地让评测任务的规模越来越大。从第一版到现在的 CursorBench-3任务涉及的代码行数和文件数量大约翻了一番甚至比 SWE-bench Verified、Pro、Multilingual 的任务都要长。这些任务里开始出现 monorepo 多工作区环境、生产日志排查、长时间实验这类真实场景。为什么要这样做因为现实就是这样的。我们平时让 AI 帮忙改一个函数那是小任务哪个模型都能应付。真正拉开模型差距的是那种跨多个文件、需要理解整体架构、还得调用好几个工具才能搞定的大任务。而现有的公开基准大多还停留在帮我修这个 bug的粒度上测的东西和开发者实际需求越来越脱节了。线上线下缺一不可光有离线评测CursorBench还不够Cursor 同时还在跑线上评测online evals。两者的区别在于离线评测看的是答案对不对线上评测看的是开发者用得爽不爽。这个区别比看起来重要得多。有些情况下模型给出的代码通过了评测脚本的检验但开发者实际用起来就是感觉别扭——可能是代码风格太奇怪可能是改了不该改的地方也可能只是响应太慢了。这类问题只有真实流量才能暴露出来。所以他们的策略是离线评测负责快速筛选线上评测负责最终验证两个信号互相校准。比如他们做语义搜索改进时直接跑了一个 ablation 实验——把语义搜索工具整个去掉看看线上指标怎么变才能确认这个功能到底值不值。这让我想到一个道理评测本身也是一种产品需要持续迭代。不能测完就束之高阁用户行为变了评测套件也得跟着变。总结从这篇博客里我梳理出几个对我很有启发的点。公开基准的失效不是偶然是 Goodhart 定律的必然结果当一个指标变成目标它就不再是好指标了。越来越多的团队会走 Cursor 这条路用真实场景数据建自己的内部评测。评测的粒度要跟上实际使用的粒度。如果用户已经在让 Agent 处理跨文件、跨工具的复杂任务了评测还停留在单文件 bug 修复那测出来的东西就是假象。线上线下结合才是靠谱的模型质量观。离线测能力线上测体验缺了哪个都会有盲点。以及这张图有点绕看明白了吗参考资料• How we compare model quality in CursorNaman JainCursor 官方博客• Why we no longer evaluate SWE-bench VerifiedOpenAI坚持创作不易求个一键三连谢谢你❤️以及「AI Coding技术交流群」联系 ayqywx 我拉你进群共同交流学习订阅链接 https://note.mowen.cn/detail/OLPEp7HzeB0EXJOLe7mM4原文链接https://mp.weixin.qq.com/s/NBlnaBCThLQGV1aYUP2O8g

Cursor公布的这张图，价值千金

最新文章

Lumafly：3步完成空洞骑士模组管理，告别繁琐配置的智能解决方案

S32K3XX车载以太网驱动实战：从PHY芯片选型到MAC层配置的完整避坑指南

Dify .NET客户端AOT迁移倒计时：.NET 8 LTS支持终止前最后窗口期，这份配置清单能救你项目！

别再只盯着SATA了！手把手教你用QEMU模拟器调试老式IDE硬盘的I/O端口（0x1F0-0x3F7）

车牌识别中的图像后处理：除了神经网络，FPGA上的传统算法（投影分割+模板匹配）还能怎么玩？

Spring:@RequestMapping

推荐文章

从零上手CH340G：USB转串口芯片的实战应用指南

别再手动算周期了！用STM32CubeMX的TIM1输入捕获测按键时长（附完整代码）

AI代码配额管理实战指南：7大行业真实配额模型+3类超限预警SOP（附2026大会未发布白皮书节选）

集合（ArrayList）

防止SQL注入的运维实践_实时清理数据库缓存与历史记录

MySQL Explain 执行计划性能对比

相关文章

无损音乐下载与高品质音频管理：tidal-dl-ng的核心能力探索

LyricsX：让歌词如影随形的桌面歌词助手

如何利用自动化抢票工具突破大麦网90%的抢票失败率：从绝望到成功的完整指南

电子设计竞赛必备：RC、运放、TTL信号处理电路实战指南（附避坑技巧）

从RoboMaster到智能仓储：深入聊聊麦克纳姆轮底盘的那些‘坑’与最佳实践

libhv实战：从零构建一个高效的WebSocket客户端

分享文章

更多文章

CS231n实战解析：从HOG/HSV特征到图像分类性能提升

前后端分离部署必备：Nginx 反向代理实战（静态资源 + API 接口分开代理）

FlipIt翻页时钟屏保：复古美学与实用功能的完美融合

RePKG终极指南：3步搞定Wallpaper Engine资源提取与转换

别再乱插了！工程师必懂的接插件选型避坑指南（从BTB到FPC，附选型清单）

Python原生AOT不是“编译就行”：IEEE TSE 2025论文证实——未做CFG强化的AOT二进制存在3类零日控制流劫持漏洞（附Clang 18.1.2硬编码修复补丁）

3步突破Cursor限制：完全掌控AI编程工具的开源方案

新手必看：在快马平台通过实例理解高性能代码编写要点

解决FastAPI文档空白问题：本地化Swagger UI的完整教程

Linux内核为何偏爱goto？错误处理与性能优化的秘密

RabbitMQ 3.13.0实战：5分钟搞定MQTT 5.0协议配置与特性测试（附Docker命令）

第十一节：循环与批处理——Split In Batches 实战