LLM高难度测评体系-Humanity’s Last Exam(HLE)及与其它测评对比

张开发
2026/4/21 5:05:29 15 分钟阅读

分享文章

LLM高难度测评体系-Humanity’s Last Exam(HLE)及与其它测评对比
Humanity’s Last ExamHLE1. 概述Humanity’s Last ExamHLE是一个面向专家级闭卷学术能力的高难度评测基准目标是在传统 benchmark 逐渐饱和后继续衡量前沿模型在高阶知识、深度推理和多学科综合能力上的真实差距。HLE 正式公开集包含2,500道题覆盖100 学科由近1,000名专家贡献贡献者来自500 机构、50 个国家题型包括exact-match 短答案与多选题并包含一定比例的多模态题。([Nature][1])从定位上看HLE 并不是训练方法论文而是一个高难度评测体系它关注的是“如何构造一套足够难、足够广、足够可验证、且不易被简单检索或背诵击穿的专家级考试”。论文同时指出当前前沿模型在 HLE 上仍表现出低准确率与较差校准性说明模型距离真正可靠的专家级闭卷能力仍有明显差距。([Nature][1])2. 痛点2.1 传统 benchmark 快速饱和难以继续区分前沿模型HLE 的直接出发点是传统能力评测逐渐失去“前沿分辨率”。Nature 论文明确提到当前前沿模型在 MMLU 等流行 benchmark 上已经达到90% 以上准确率这些测试不再能有效反映模型与专家能力之间的剩余差距。HLE 因此被设计为更高难度的替代性测量尺。([Nature][1])2.2 许多题目可被检索、记忆或模板化作答无法真正测出深层能力HLE 认为仅靠“会答题”不足以说明模型具备专家级能力因为很多题可以通过互联网检索、训练数据记忆或模板化模式匹配获得高分。因此HLE 要求题目必须精确、无歧义、可验证、且不易被简单搜索命中从源头减少“刷题式”高分。([Nature][1])2.3 现有模型不仅会答错而且常常“不知道自己错了”HLE 不只测 accuracy还专门测 calibration。论文指出在 HLE 这种高难场景下模型往往在低准确率下仍给出较高自信这意味着模型在“知道自己不知道”这件事上仍不可靠。对于科研辅助、专业决策等高风险场景这是关键问题。([Nature][1])2.4 缺少兼顾“广覆盖”“高专业度”“自动评分”的统一评测很多基准要么覆盖广但难度不够要么难度高但领域过窄要么开放式太强、难以大规模自动评分。HLE 的目标是把这三点合到一起既覆盖广泛学科又保持专家级难度同时仍然保留闭式答案便于大规模标准化评测。([Nature][1])3. 创新点3.1 全球专家众包构题而不是少量研究者内部命题HLE 的题目来自近千名学科专家覆盖上百个学科贡献者主要为教授、研究人员和研究生学历以上群体。这种构题方式相比小规模内部命题更容易获得真正“前沿、细分、非模板化”的问题分布。([Nature][1])3.2 在构建阶段就加入“前沿模型难度预筛”HLE 不是先静态出题、再被动测试而是在收题阶段就先让多种前沿模型尝试作答。只有在模型无法解决或多选题表现不高于随机水平时题目才进入下一轮专家审核。论文记录了7 万多次模型尝试最终约1.3 万题进入专家复审。这个设计把“难度控制”前置到了数据构建流程里。([Nature][1])3.3 同时兼顾高难度与可自动评分HLE 包含两类核心题型exact-match与multiple-choice。其中约24%是多选题其余为短答案约14%的题需要结合图像理解。相比纯开放问答这种设计既保留了高难度又能进行较稳定的自动判分。([Nature][1])3.4 公共集 私有保留集 发布后修订机制HLE 在公开 2,500 题供社区评测的同时还保留了private test set来监控过拟合与刷榜风险后续又通过bug bounty、可搜索题清洗、以及HLE-Rolling动态更新来持续修正题库质量与时效性。这说明 HLE 已从一次性数据集逐步演化为持续更新的 benchmark 体系。([Nature][1])4. 构建流程4.1 总体流程专家提交题目 ↓ 前沿 LLM 难度预筛 ↓ 专家双轮评审与迭代修改 ↓ 组织者/训练过的审稿人终审 ↓ 形成公开集 私有 held-out 集 ↓ 标准化评测统一 prompt 自动判分 校准评估 ↓ 发布后 bug bounty / searchable 题清洗 / rolling 更新上面这条流程并不是训练 pipeline而是benchmark construction pipeline。HLE 的方法学重点正是在于把“出题—预筛—同行评审—终审—私有保留集—发布后修订”做成一整套闭环。([Nature][1])4.2 步骤一专家出题每道题提交时都需要包含题面、答案规范短答或多选、标准答案、详细解题 rationale、学科标签以及作者身份/机构信息。这样做的目的是提高题目可追溯性、可复核性与责任约束。([Nature][1])4.3 步骤二LLM 难度预筛题目在进入人工评审前会先经过多种前沿 LLM 测试。若模型仍能稳定解出该题通常不会进入最终候选池若模型无法解题才进入专家复审。这个环节相当于把“HLE 必须难住当前模型”变成了硬筛选条件。([Nature][1])4.4 步骤三双轮专家评审HLE 的评审者具有硕士、博士、JD 等研究型学位背景。第一轮评审侧重迭代修改与质量打磨每道题通常接受 1–3 次审阅第二轮则从第一轮中挑出质量高、闭式性强、难度合适的问题纳入最终数据集。([Nature][1])4.5 步骤四终审与公私分集通过评审的题目会由组织者或经过训练的专家评审进一步人工批准随后形成公开集与私有 held-out 集。私有集的作用是防止模型对公共 leaderboard 进行针对性过拟合。([Nature][1])4.6 步骤五标准化评测与自动判分评测阶段使用统一 system prompt让模型输出显式推理和最终答案。由于题目以闭式答案为主论文使用 judge model 对答案进行等价判定例如分数/小数或近似值的等价表达。同时除了 accuracy也同步评估 calibration error。([Nature][1])4.7 步骤六发布后清洗与动态维护论文承认早期评审并不要求审稿人完整验证每道题的全部解题 rationale因此数据发布后又引入了bug bounty来排查标签错误、题干错误以及“可被搜索直接命中”的问题官方站点也显示2025 年 4 月已根据反馈移除并替换部分问题2025 年 10 月又推出了HLE-Rolling。([Nature][1])5. 优缺点5.1 优点1难度高仍能区分前沿模型与已趋近饱和的传统 benchmark 相比HLE 在设计目标上就是为了保留“前沿区分度”。它不是依赖题量堆叠而是通过专家命题、模型预筛和多轮审稿来控制难度。([Nature][1])2覆盖面广不是单一学科测试HLE 同时覆盖数学、人文、自然科学、工程、计算机等多个高层类别并横跨 100 学科因此更适合评估“大而全”的专家级学术能力而不是某一窄领域能力。([Nature][1])3兼顾多模态与可自动评分它既包含图文联合理解题也保留了闭式答案和结构化题型因此相比纯开放问答 benchmark更适合做大规模稳定评测。([Nature][1])4能额外测出模型“是否知道自己不会”HLE 将 calibration 纳入正式评估这一点很重要。很多 benchmark 只看答对率但 HLE 同时关心模型是否会高置信度胡说这更接近真实应用中的风险关注点。([Nature][1])5.2 缺点1本质上仍是“闭卷学术题”评测不等于 AGIHLE 测的是专家级闭式学术问答能力而不是自主科研、长期规划、交互试错、真实环境操作或开放式创造。官方站点与论文都没有把“高分 HLE”直接等同于 AGI。这个边界需要明确。([Nature][1])2高难命题容易走向“反检索、反模型”的刁钻化风险从设计逻辑上推断凡是以“必须难住当前模型”为前置条件的 benchmark都可能出现题目越来越偏向冷门事实、研究者经验知识或特殊表达的倾向。HLE 通过评审机制尽量控制这一问题但这一风险很难被彻底消除。这个判断属于基于其构建规则的合理推断。([Nature][1])3数据质量控制成本极高论文明确承认初期评审并不总是完整核查所有解题 rationale因此后续不得不引入 bug bounty 和 searchable 审计来修补题库。这说明越是高难、跨学科、专家众包的 benchmark越需要长期维护。([Nature][1])4公开题库仍然会面临污染与刷榜问题正因如此HLE 采用了 private held-out set并进一步推出 HLE-Rolling。换句话说HLE 的贡献不只是“做了一套题”还包括意识到静态 benchmark 在前沿模型时代会迅速失效。([Nature][1])6. 与 MMLU、GPQA、ARC-AGI 的对比6.1 与 MMLU 的对比MMLU是一个覆盖57 个任务的多任务语言理解测试目标是衡量模型在广泛学术与职业知识上的理解能力。它的优势是覆盖广、标准化强、历史影响力大但 HLE 论文明确指出MMLU 这类 benchmark 已被前沿模型大幅逼近甚至超过 90% 准确率因此区分前沿模型的能力开始下降。([arXiv][2])从评测哲学看MMLU 更像“广谱知识考试”而HLE 更像“专家级高难闭卷考试”。两者都强调多学科覆盖但 HLE 在出题来源、难度预筛、闭式短答、多模态与发布后维护上更进一步。HLE 可以看作是在保持 MMLU“广覆盖”优点基础上的一次“高难升级版”。这个结论与 HLE 论文中“preserving the broad subject-matter coverage of MMLU”的表述一致。([Nature][1])一句话区别MMLU 主要回答“模型学得广不广”HLE 更强调“模型在专家级闭式问题上到底能不能过关”。([arXiv][2])6.2 与 GPQA 的对比GPQA是一个由领域专家撰写的高难度graduate-level Google-proof问答基准包含448 道多选题主要聚焦生物、物理、化学三个学科。它的核心价值在于题目即使给高水平非专家充分联网搜索时间也依然很难答对因此特别适合评估“高难科学知识问答”与“可扩展监督”问题。([arXiv][3])与之相比HLE 的跨度更大、覆盖更广、题型更多样。GPQA 强在“窄领域、高可信度、强 Google-proof”更像一个科研型理科 hard benchmarkHLE 则试图把这种高难度机制扩展到上百学科并加入短答案、多模态和公私分集。([arXiv][3])一句话区别GPQA 更像“高难科学问答特化 benchmark”HLE 更像“把高难专家题推广到全学科的总考试”。([arXiv][3])6.3 与 ARC-AGI 的对比ARC-AGI的出发点与 HLE 明显不同。根据 François Chollet 的定义与 ARC Prize 官方说明ARC-AGI 试图测量的是fluid intelligence / skill-acquisition efficiency强调在极少先验和少量示例下对新任务进行抽象、泛化与规则发现的能力。它刻意避免依赖语言文化知识或专业学科知识而是使用基于网格变换的抽象推理任务。([arXiv][4])因此ARC-AGI 与 HLE 在“评什么”上几乎不在同一轴上。HLE 测的是专家级结晶知识 高阶学术推理ARC-AGI 测的是少样本抽象泛化与新任务适应。前者更接近“顶级学科考试”后者更接近“人类直觉式新任务归纳测试”。从评测哲学上看HLE 更适合衡量“模型像不像一个知识型专家”而 ARC-AGI 更适合衡量“模型像不像一个能快速学会新规则的通用智能体”。这属于基于两者官方设计目标的直接比较。([Nature][1])一句话区别HLE 偏“专家知识与学术推理的上限测量”ARC-AGI 偏“通用抽象与少样本泛化的本质测量”。([Nature][1])7. 总结MMLU广覆盖、多学科基础到专业知识测试但前沿模型已明显逼近饱和。([arXiv][2])GPQA高难度、窄领域、专家科学问答强调 Google-proof 与监督难题。([arXiv][3])ARC-AGI不测学科知识重点测新任务抽象、泛化与学习效率。([ARC Prize][5])HLE试图把“广覆盖”与“专家级高难度”结合起来构造成一个面向前沿模型的闭式学术总考试。([Nature][1])参考链接[1]: https://www.nature.com/articles/s41586-025-09962-4 “A benchmark of expert-level academic questions to assess AI capabilities | Nature”[2]: https://arxiv.org/abs/2009.03300 “[2009.03300] Measuring Massive Multitask Language Understanding”[3]: https://arxiv.org/abs/2311.12022 “[2311.12022] GPQA: A Graduate-Level Google-Proof QA Benchmark”[4]: https://arxiv.org/abs/1911.01547?utm_sourcechatgpt.com “On the Measure of Intelligence”[5]: https://arcprize.org/arc-agi “ARC Prize - What is ARC-AGI?”

更多文章