卫报如何用NLP实现引用抽取与模块化新闻

张开发
2026/4/19 1:00:55 15 分钟阅读

分享文章

卫报如何用NLP实现引用抽取与模块化新闻
本文介绍了媒体公司如何利用自然语言处理NLP和信息抽取IE技术将长文内容模块化为可复用的元素如播客、信息图或博客这一趋势被称为模块化新闻学。卫报探索了引用抽取技术旨在从长文章中提取引用复用于播客或信息图等不同媒体形式。为实现人机协同工作流卫报数据科学团队决定使用Prodigy——一种现代标注工具用于创建训练和评估数据。在一次采访中卫报数据科学团队负责人Anna Vissens讨论了团队如何定制Prodigy来提取新闻文章中的引用模块并通过迭代式小组讨论建立了利益相关者的信任形成了清晰的标注指南和团队学习机制。引用抽取的三个组成部分团队与法新社合作使用Prodigy手动标注了超过800篇新闻文章识别引用的三个部分来源说话者人或组织提示语通常表示说话或表达行为的动词短语内容引号内的引用文本最终步骤包括共指消解以明确模糊指代如“他”或“她”。基于这些信息模型可以结构化引用数据实现在不同媒体格式中的复用。混合规则与模型的标注工作流团队首先使用正则表达式规则和spaCy的依存句法分析器来匹配引用模式但发现纯规则系统在处理非标准引用如表示非标准英语术语的引号时存在困难且无法识别来源或提示语。因此团队采用Prodigy的工作流训练命名实体识别NER模型。在标注前团队基于卫报风格指南制定了初始标注指南明确引用的定义及其三个子组件。经过多轮标注团队形成了清晰的指南和多个示例。四种自定义Prodigy流程quotes.manual手动标记文本中的实体跨度使用规则作为初始模式以加快修正并训练初始模型。quotes.correct使用初始模型验证和修正模型预测生成黄金标准标注。quotes.teach主动学习使用黄金标注重新训练模型后通过主动学习聚焦于模型得分最不确定的样本。quotes.mark审查审查已标注样本用于裁决存在标签冲突的标注。定制化界面提升信任与体验团队对Prodigy配置和自定义流程进行了修改添加标记功能flag供标注人员标记需要进一步审查的内容。通过帮助图标显示标注指南的自定义HTML。使用块组合不同Prodigy任务添加自由格式文本框以提供可选反馈。修改颜色、按钮和添加快捷键以提升标注速度。团队协同与模型迭代团队面临的主要障碍是处理不同新闻风格的多样性通过小组讨论处理诗歌、消息甚至内心独白中的引用案例。他们使用云端文档维护指南并通过Slack进行动态沟通。最终模型对引用三个部分的预测正确率达到89%。通过忽略早期标注因后期标注者之间的一致性提高模型性能得到进一步提升。长期目标团队已开始测试模块化新闻学的初步试点例如带有命名实体识别过滤器的实时博客Live Blog允许用户按NER识别的实体实时过滤内容。更长期的目标是使用Prodigy微调spaCy NER模型针对更大规模的新闻语料库优化组织和人物等实体类型。此外Explosion与卫报正合作开发NLP系统用于检测和链接人物与公司名称及其关系以支持调查记者工作。FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

更多文章