NBER人机协作研究|人机协作未必越多越好，如何定义AI与人的分工边界？

张开发

• 2026/4/21 8:19:48 • 15 分钟阅读

分享文章

文章来源NBER版权归其出版社和原作者所有推文声明本文仅代表原作者学术观点及推文作者评论观点原文信息Agarwal N, Moehring A, Wolitzky A.Designing human-ai collaboration: A sufficient-statistic approach[R].National Bureau of Economic Research, 2025.研究问题作者讨论的是二元分类任务中的人机协作设计一条陈述是真是假、一位病人是否患病、一个简历是否进入下一轮最后都要在 0 和 1 之间做选择。真正难的不是 AI 能不能给分而是面对一个 AI 评分系统应该如何决定哪些 case 该直接自动化。哪些 case 该交给人。交给人时AI 应该把信息完整披露还是只披露一部分。人不一定会把 AI 的意见真正吸收到自己的判断里如果 AI 说得特别笃定人甚至可能直接少做一些核查。这篇论文真正抓住的难点是设计空间很大而人的反应又是内生的。如果只靠试错式实验几乎不可能把最优政策找出来。核心变量充分统计量V(x)根据原文定义可将 V(x) 概括写为V(x) Pr(a ω | disclosed posterior x)它的直观含义是当人看到 AI 给出的后验概率 x 时人最后做对的概率是多少。作者的关键假设是这个正确率只取决于诱导出的后验概率x而不取决于披露语言、措辞、或者更复杂的分布细节。如果这个假设成立那么设计者无需完整建模人的认知系统只要估计出V(x)就能求出最优的人机协作政策。这一步把原本高维的行为问题压缩成了一个一维函数优化问题。最优政策怎么求只有披露没有自动化可以达到的最大预期准确度为F是 AI 原始评估θ的分布G是披露机制之后人收到的后验分布。MPC(F)的意思是你可以压缩、重组信息但不能凭空制造新信息。允许自动化这里的W(x)在比较三种做法谁最准交给人、直接判 0、直接判 1。换句话说作者并不是先拍脑袋决定“哪些 case 给 AI、哪些给人”而是先逐点比较在每个x上谁的准确率更高再反推最优设计。研究设计作者做了一个两阶段、预注册的在线实验任务是事实核查。参与者需要判断一条陈述是真是假数据来自 FEVEROUS 数据库清洗后保留了41,969条陈述。AI 工具是无联网的 GPT-4o作者先把 GPT-4o 的原始概率做了校准得到 calibrated assessmentθ。Stage 1在“完整披露 AI posterior、但不自动化”的环境下估计V(x)。Stage 2再把由V(x)推出来的最优政策真的拿去实验看预测和实际是否一致。Stage 1 样本是1,501 名参与者每人做30 个 case一共45,030 个观测。研究过程Stage 1 的发现可以概括成三点。第一V(x) 大致是凸的。这意味着在这个实验里对非自动化 case 完整披露 AI posterior 是最优的。第二当 AI 置信度很高时人类对 AI 信息的吸收仍然不够导致准确率甚至低于“直接跟着 AI 走”。作者发现当x 0.33或x 0.69时人的正确率低于“直接照着 AI 走”的准确率也就是V(x) max{x, 1-x}。第三当 AI 自己也不确定时人仍然有价值。例如在x 0.5附近作者估计V(0.5) 0.62显著高于完全自动化时的 0.5。基于 Stage 1 的V(x)作者构造了五种政策FDA、NDA、FDNA、NDNA 和 SL。它们最核心的区别是“自动不自动”和“披露多不多”。Full Disclosure Automation (FDA)No Disclosure Automation (NDA)Full Disclosure No Automation (FDNA)No Disclosure No Automation (NDNA)Stoplight (SL)基于 Stage 1作者预测五种政策的准确率分别是FDA75.1%NDA74.8%FDNA73.5%NDNA67.3%SL73.2%自动化是有价值的人类判断也是有价值的但深度协作未必比“聪明地分工”好多少。Stage 2 的结果验证了五个定性判断自动化有价值FDA 的实际准确率是 74.9%高于 FDNA 的 72.3%差 2.6 个百分点。人类信息也有价值FDA 还高于完全自动化的 73.3%。直接的人机协作不显著优于选择性自动化FDA 74.9%NDA 74.7%只差 0.2 个百分点p 0.44。当不能自动化时AI 辅助是有价值的FDNA 72.3%NDNA 68.9%。简单的三色灯政策偏假 / 不确定 / 偏真几乎就够用了SL 72.5%与 FDNA 72.3% 没有显著差异。它并不是说人机协作没用而是说在这个具体场景里直接的人机协作相对选择性自动化的额外收益很小。重要机制过度推断定义作者据此把偏差拆成两部分对自己信号的过度自信以及对 AI 信号的AI neglect。结果非常清楚只修正 AI neglect准确率只提高 0.1 个百分点。只修正 overconfidence准确率提高 1.7 个百分点。而从 FDNA 到 Bayesian benchmark 的总改进空间大约是 2.2 个百分点所以主因几乎都来自人的过度自信。AI会让人偷懒吗作者研究发现当 AI 很有把握时人会显著减少努力。图 6 显示当x 1相比x 0.5时时间投入大约低了 40%。同时人的报告概率也表现出明显的过度自信。总结在二元分类任务里V(x)可以成为一个有用的设计对象。在作者的事实核查实验中这个方法对反事实政策有较好的预测力。在这个具体场景里最优政策确实是“高置信度自动化中间区间完整披露”。人的反应不足主要来自对自身信号精度的过度自信。本文内容如有误敬请谅解并指正。

更多文章

前端开发 2026/4/16 23:08:04

RAPTOR编程实战：从算法设计到图形化交互

1. RAPTOR入门：为什么它是最适合初学者的算法工具第一次接触编程的人往往会被各种语法规则和复杂环境劝退。我教过不少零基础学生，发现他们最头疼的不是算法逻辑本身，而是记不住C的分号或者Python的缩进规则。这时候RAPTOR的优势就显现出来…

张开发

前端开发 2026/4/16 7:23:21

从数学原理到代码实现：手把手推导Transformer时间复杂度公式（附PyTorch示例）

从数学原理到代码实现：手把手推导Transformer时间复杂度公式（附PyTorch示例） 在自然语言处理领域，Transformer架构已经成为事实上的标准模型。但当我们处理长文本序列时，经常会遇到计算资源急剧增加的问题。这背后的核…

张开发

前端开发 2026/4/16 23:08:06

释放数字内容自由 ncmdump让加密文件重获流通价值

释放数字内容自由 ncmdump让加密文件重获流通价值【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 突破格式枷锁三大非音乐场景见证数字自由当考古团队从云端下载的田野调查录音因加密无法在离线设备播放，当纪录片工作…

张开发

前端开发 2026/4/16 23:08:06

中文医学知识图谱构建指南：从技术痛点到价值落地

中文医学知识图谱构建指南：从技术痛点到价值落地【免费下载链接】CMeKG_tools 项目地址: https://gitcode.com/gh_mirrors/cm/CMeKG_tools 破解医学文本处理的三重困境当前医学NLP领域面临着专业术语识别难、实体边界模糊、关系抽取准确率低的三重挑战。…

张开发

前端开发 2026/4/16 23:08:08

Linux系统中安装redis+redis后台启动+常见相关配置

1、下载Redis Redis官网：https://redis.io/ 历史版本： http://download.redis.io/releases 2、连接Linux（或者VMwear） 我们安装的是linux版本的redis 打开xftp我们需要先将我们的Redis上传到服务器上解压到这里解压的指令代…

张开发

前端开发 2026/4/16 23:08:07

Pixel Epic应用场景：律所尽调报告辅助生成+法律条文精准引用案例

Pixel Epic应用场景：律所尽调报告辅助生成法律条文精准引用案例 1. 法律行业的数字化挑战法律尽职调查是并购交易、股权投资等商业活动中的关键环节。传统模式下，律师团队需要： 人工查阅数百页企业资料逐条核对法律法规手工编写数十页的尽…

张开发

前端开发 2026/4/16 23:08:08

REX-UniNLU与大模型：零样本学习的创新应用

REX-UniNLU与大模型：零样本学习的创新应用 1. 引言：当大模型遇见零样本理解你有没有遇到过这样的情况：面对一堆中文文本，想要快速提取关键信息，比如人名、地点、事件，或者分析情感倾向，但却没…

张开发

前端开发 2026/4/16 23:08:17

3步搞定Switch游戏文件管理：NSC_BUILDER实战指南

3步搞定Switch游戏文件管理：NSC_BUILDER实战指南【免费下载链接】NSC_BUILDER Nintendo Switch Cleaner and Builder. A batchfile, python and html script based in hacbuild and Nuts python libraries. Designed initially to erase titlerights encryption fr…

张开发

前端开发 2026/4/16 23:08:09

终极指南：3步解决ROG笔记本色彩配置文件丢失问题

终极指南：3步解决ROG笔记本色彩配置文件丢失问题【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix, Scar, a…

张开发

前端开发 2026/4/16 23:08:09

Phi-4-mini-reasoning保姆级教程：Gradio界面多轮对话状态保持配置

Phi-4-mini-reasoning保姆级教程：Gradio界面多轮对话状态保持配置 1. 引言今天我们要介绍的是微软最新开源的轻量级推理模型Phi-4-mini-reasoning。这个3.8B参数的模型虽然体积小，但在数学推理、逻辑推导和多步解题等强逻辑任务上表现出色。它主打&qu…

张开发

前端开发 2026/4/16 23:08:10

微信聊天记录如何永久保存？WeChatMsg多格式备份与智能分析解决方案

微信聊天记录如何永久保存？WeChatMsg多格式备份与智能分析解决方案【免费下载链接】WeChatMsg 提取微信聊天记录，将其导出成HTML、Word、CSV文档永久保存，对聊天记录进行分析生成年度聊天报告项目地址: https://gitcode.com/GitHub_Trend…

张开发

前端开发 2026/4/16 23:08:10

Unity资源提取工具：从游戏资产到创意复用的完整解决方案

Unity资源提取工具：从游戏资产到创意复用的完整解决方案【免费下载链接】AssetRipper GUI Application to work with engine assets, asset bundles, and serialized files 项目地址: https://gitcode.com/GitHub_Trending/as/AssetRipper 在游戏开发和创意…

张开发

NBER人机协作研究|人机协作未必越多越好，如何定义AI与人的分工边界？

最新文章

告别网络卡顿！用FortiGate防火墙的SLA功能，自动帮你选最优宽带（附保姆级配置）

避坑指南：ZYNQ IIC控制器配置ADV7611时，Slave地址右移与EMIO引脚的注意事项

从生物进化到代码优化：手把手教你用Python遗传算法解决一个实际数组求和问题

如何用XUnity.AutoTranslator实现Unity游戏多语言自动翻译：终极实战指南

XHS-Downloader：突破性小红书内容智能采集解决方案，革命性提升内容收集效率

lory.js 测试与调试：确保轮播组件稳定运行

推荐文章

从零上手CH340G：USB转串口芯片的实战应用指南

别再手动算周期了！用STM32CubeMX的TIM1输入捕获测按键时长（附完整代码）

AI代码配额管理实战指南：7大行业真实配额模型+3类超限预警SOP（附2026大会未发布白皮书节选）

集合（ArrayList）

防止SQL注入的运维实践_实时清理数据库缓存与历史记录

MySQL Explain 执行计划性能对比

相关文章

无损音乐下载与高品质音频管理：tidal-dl-ng的核心能力探索

LyricsX：让歌词如影随形的桌面歌词助手

如何利用自动化抢票工具突破大麦网90%的抢票失败率：从绝望到成功的完整指南

电子设计竞赛必备：RC、运放、TTL信号处理电路实战指南（附避坑技巧）

从RoboMaster到智能仓储：深入聊聊麦克纳姆轮底盘的那些‘坑’与最佳实践

libhv实战：从零构建一个高效的WebSocket客户端

分享文章

更多文章

RAPTOR编程实战：从算法设计到图形化交互

从数学原理到代码实现：手把手推导Transformer时间复杂度公式（附PyTorch示例）

释放数字内容自由 ncmdump让加密文件重获流通价值

中文医学知识图谱构建指南：从技术痛点到价值落地

Linux系统中安装redis+redis后台启动+常见相关配置

Pixel Epic应用场景：律所尽调报告辅助生成+法律条文精准引用案例

REX-UniNLU与大模型：零样本学习的创新应用

3步搞定Switch游戏文件管理：NSC_BUILDER实战指南

终极指南：3步解决ROG笔记本色彩配置文件丢失问题

Phi-4-mini-reasoning保姆级教程：Gradio界面多轮对话状态保持配置

微信聊天记录如何永久保存？WeChatMsg多格式备份与智能分析解决方案

Unity资源提取工具：从游戏资产到创意复用的完整解决方案