NBER人机协作研究|人机协作未必越多越好,如何定义AI与人的分工边界?

张开发
2026/4/21 8:19:48 15 分钟阅读

分享文章

NBER人机协作研究|人机协作未必越多越好,如何定义AI与人的分工边界?
文章来源NBER版权归其出版社和原作者所有推文声明本文仅代表原作者学术观点及推文作者评论观点原文信息Agarwal N, Moehring A, Wolitzky A.Designing human-ai collaboration: A sufficient-statistic approach[R].National Bureau of Economic Research, 2025.研究问题作者讨论的是二元分类任务中的人机协作设计一条陈述是真是假、一位病人是否患病、一个简历是否进入下一轮最后都要在 0 和 1 之间做选择。真正难的不是 AI 能不能给分而是面对一个 AI 评分系统应该如何决定哪些 case 该直接自动化。哪些 case 该交给人。交给人时AI 应该把信息完整披露还是只披露一部分。人不一定会把 AI 的意见真正吸收到自己的判断里如果 AI 说得特别笃定人甚至可能直接少做一些核查。这篇论文真正抓住的难点是设计空间很大而人的反应又是内生的。如果只靠试错式实验几乎不可能把最优政策找出来。核心变量充分统计量V(x)根据原文定义可将 V(x) 概括写为V(x) Pr(a ω | disclosed posterior x)它的直观含义是当人看到 AI 给出的后验概率 x 时人最后做对的概率是多少。作者的关键假设是这个正确率只取决于诱导出的后验概率x而不取决于披露语言、措辞、或者更复杂的分布细节。如果这个假设成立那么设计者无需完整建模人的认知系统只要估计出V(x)就能求出最优的人机协作政策。这一步把原本高维的行为问题压缩成了一个一维函数优化问题。最优政策怎么求只有披露没有自动化可以达到的最大预期准确度为F是 AI 原始评估θ的分布G是披露机制之后人收到的后验分布。MPC(F)的意思是你可以压缩、重组信息但不能凭空制造新信息。允许自动化这里的W(x)在比较三种做法谁最准交给人、直接判 0、直接判 1。换句话说作者并不是先拍脑袋决定“哪些 case 给 AI、哪些给人”而是先逐点比较在每个x上谁的准确率更高再反推最优设计。研究设计作者做了一个两阶段、预注册的在线实验任务是事实核查。参与者需要判断一条陈述是真是假数据来自 FEVEROUS 数据库清洗后保留了41,969条陈述。AI 工具是无联网的 GPT-4o作者先把 GPT-4o 的原始概率做了校准得到 calibrated assessmentθ。Stage 1在“完整披露 AI posterior、但不自动化”的环境下估计V(x)。Stage 2再把由V(x)推出来的最优政策真的拿去实验看预测和实际是否一致。Stage 1 样本是1,501 名参与者每人做30 个 case一共45,030 个观测。研究过程Stage 1 的发现可以概括成三点。第一V(x) 大致是凸的。这意味着在这个实验里对非自动化 case 完整披露 AI posterior 是最优的。第二当 AI 置信度很高时人类对 AI 信息的吸收仍然不够导致准确率甚至低于“直接跟着 AI 走”。作者发现当x 0.33或x 0.69时人的正确率低于“直接照着 AI 走”的准确率也就是V(x) max{x, 1-x}。第三当 AI 自己也不确定时人仍然有价值。例如在x 0.5附近作者估计V(0.5) 0.62显著高于完全自动化时的 0.5。基于 Stage 1 的V(x)作者构造了五种政策FDA、NDA、FDNA、NDNA 和 SL。它们最核心的区别是“自动不自动”和“披露多不多”。Full Disclosure Automation (FDA)No Disclosure Automation (NDA)Full Disclosure No Automation (FDNA)No Disclosure No Automation (NDNA)Stoplight (SL)基于 Stage 1作者预测五种政策的准确率分别是FDA75.1%NDA74.8%FDNA73.5%NDNA67.3%SL73.2%自动化是有价值的人类判断也是有价值的但深度协作未必比“聪明地分工”好多少。Stage 2 的结果验证了五个定性判断自动化有价值FDA 的实际准确率是 74.9%高于 FDNA 的 72.3%差 2.6 个百分点。人类信息也有价值FDA 还高于完全自动化的 73.3%。直接的人机协作不显著优于选择性自动化FDA 74.9%NDA 74.7%只差 0.2 个百分点p 0.44。当不能自动化时AI 辅助是有价值的FDNA 72.3%NDNA 68.9%。简单的三色灯政策偏假 / 不确定 / 偏真几乎就够用了SL 72.5%与 FDNA 72.3% 没有显著差异。它并不是说人机协作没用而是说在这个具体场景里直接的人机协作相对选择性自动化的额外收益很小。重要机制过度推断定义作者据此把偏差拆成两部分对自己信号的过度自信以及对 AI 信号的AI neglect。结果非常清楚只修正 AI neglect准确率只提高 0.1 个百分点。只修正 overconfidence准确率提高 1.7 个百分点。而从 FDNA 到 Bayesian benchmark 的总改进空间大约是 2.2 个百分点所以主因几乎都来自人的过度自信。AI会让人偷懒吗作者研究发现当 AI 很有把握时人会显著减少努力。图 6 显示当x 1相比x 0.5时时间投入大约低了 40%。同时人的报告概率也表现出明显的过度自信。总结在二元分类任务里V(x)可以成为一个有用的设计对象。在作者的事实核查实验中这个方法对反事实政策有较好的预测力。在这个具体场景里最优政策确实是“高置信度自动化 中间区间完整披露”。人的反应不足主要来自对自身信号精度的过度自信。本文内容如有误敬请谅解并指正。

更多文章