从规则到BERT:深度学习命名实体识别全景综述——核心论文深度解析(基础版)

张开发
2026/4/16 3:28:15 15 分钟阅读

分享文章

从规则到BERT:深度学习命名实体识别全景综述——核心论文深度解析(基础版)
导语命名实体识别NER是自然语言处理中的一项基础性任务广泛应用于信息抽取、问答系统、机器翻译等场景。从早期的规则模板、特征工程到如今深度学习的全面渗透NER 技术已经走过了近三十年的演进历程。这篇博客基于一篇 2020 年发表于 IEEE TKDE 的深度学习 NER 综述论文Li et al.对其核心内容进行了系统梳理。我们按照“背景→策略→实现→期待”的框架深度解析了从 Word2Vec、BiLSTM-CRF 到 BERT 等关键模型的原理与贡献同时涵盖了多任务学习、迁移学习、对抗学习等前沿技术。无论你是刚接触 NER 的初学者还是希望系统回顾该领域发展脉络的研究者本文都能为你提供一个清晰、全面的参考。第一部分背景——NER 任务定义与早期方法1. NER 的起源MUC 会议论文Grishman Sundheim, “Message Understanding Conference-6: A brief history”, COLING 1996背景第六届消息理解会议MUC-6首次定义“命名实体”任务包括人名、地名、组织名、日期、货币、百分比。策略规则 词典gazetteer。实现人工编写语义和句法规则例如“大写词 称谓词”。期待为后续评测提供基准但规则难以迁移。2. 特征工程巅峰CRF论文Lafferty et al., “Conditional random fields: Probabilistic models for segmenting and labeling sequence data”, ICML 2001背景HMM 和 MEMM 存在标签偏置问题。策略全局条件概率建模允许任意特征依赖。实现线性链 CRF特征函数包括词形、词性、上下文窗口。期待CRF 成为传统 NER 的黄金标准后被深度学习模型作为顶层解码器继承。第二部分深度学习开山之作——端到端 NER3. Collobert et al., “Natural Language Processing (Almost) from Scratch”, JMLR 2011背景传统 NLP 依赖离散特征泛化能力弱。策略使用多任务学习POS、分块、NER、SRL共享底层特征。实现输入词嵌入随机初始化 大小写等特征。编码器时间卷积网络CNN提取全局句子特征。解码器CRF 或 Softmax。期待首次证明神经网络可以不依赖手工特征达到 SOTA开启了深度学习 NER 时代。第三部分分布式表示——词级、字符级与混合4. Mikolov et al., “Efficient Estimation of Word Representations in Vector Space”, ICLR 2013 (Word2Vec)背景独热编码无法表达语义相似性。策略使用连续词袋CBOW或 Skip-gram 在大规模无标注语料上训练低维稠密向量。实现负采样或层次 Softmax 加速。期待预训练词嵌入成为几乎所有 NER 模型的标配。5. Lample et al., “Neural Architectures for Named Entity Recognition”, NAACL 2016背景词嵌入无法处理未登录词OOV和形态信息。策略字符级双向 LSTMBiLSTM提取字符特征与词嵌入拼接。实现字符 BiLSTM 输出 → 与预训练词嵌入拼接 → 送入词级 BiLSTM → CRF 解码。支持 BIOES 标签。期待在 CoNLL03 上 F190.94%验证了字符级表示的重要性。6. Ma Hovy, “End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF”, ACL 2016背景Lample 使用 RNN 提取字符特征计算量较大。策略用 CNN 替代 RNN 提取字符级特征速度更快。实现字符嵌入 → 卷积 最大池化 → 字符向量。与词嵌入拼接 → BiLSTM → CRF。期待与 Lample 类似性能但训练更快成为 BiLSTM-CNN-CRF 范式的代表。第四部分上下文编码器——CNN、RNN、Transformer7. Huang et al., “Bidirectional LSTM-CRF Models for Sequence Tagging”, arXiv 2015背景单向 LSTM 无法利用未来信息。策略双向 LSTM 捕获前后上下文。实现前向 LSTM 后向 LSTM 输出拼接 → CRF。期待BiLSTM-CRF 成为此后三年 NER 任务的标准基线。8. Strubell et al., “Fast and Accurate Entity Recognition with Iterated Dilated Convolutions”, ACL 2017 (ID-CNN)背景RNN 顺序计算导致训练慢难以并行。策略空洞卷积Dilated CNN指数级扩大感受野。实现多层空洞卷积堆叠每层宽卷积核最终用 CRF。期待比 BiLSTM-CRF 快 14~20 倍精度相近适合实时系统。9. Vaswani et al., “Attention is All You Need”, NIPS 2017 (Transformer)背景RNN 难以长距离依赖CNN 需要多层。策略完全基于自注意力Self-Attention无循环无卷积。实现输入嵌入 位置编码。多头注意力 前馈网络 残差连接。期待为 BERT、GPT 等预训练模型奠定基础也用于 NER如 TENER。第五部分标签解码器——CRF、RNN、指针网络10. Zhai et al., “Neural Models for Sequence Chunking”, AAAI 2017 (Pointer Networks)背景CRF 基于词级标签难以直接建模片段segment内部结构。策略指针网络先生成片段边界再对片段分类。实现编码器 BiLSTM → 指针网络解码器输出起始位置 → 另一个网络输出结束位置和类型。迭代直至覆盖所有词。期待在 CoNLL00 分块任务上 SOTA但 NER 上应用较少。第六部分预训练语言模型——ELMo、BERT 及后续11. Peters et al., “Deep Contextualized Word Representations”, NAACL 2018 (ELMo)背景静态词嵌入Word2Vec/GloVe无法处理一词多义。策略训练双向语言模型biLM内部隐藏状态加权组合。实现字符卷积 → 两层双向 LSTM 语言模型。对每个 token提取 3 层字符层、第1层、第2层的隐藏状态加权求和。期待显著提升 NER、SQuAD 等任务证明上下文嵌入的力量。12. Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, NAACL 2019背景ELMo 是浅层双向两个单向 LSTM 拼接无法真正双向。策略Transformer 编码器 掩码语言模型MLM实现深层双向。实现预训练MLM15% 词被掩码 下一句预测。微调加一层输出层即可用于 NER。期待在 CoNLL03 上 F192.8%BERT-large成为新 SOTA。后续Li et al., “A Unified MRC Framework for NER”, 2019 将 NER 视为阅读理解进一步提升。第七部分前沿技术——多任务、迁移、对抗、主动学习13. Rei, “Semi-supervised Multitask Learning for Sequence Labeling”, ACL 2017背景标注数据稀缺无标注数据丰富。策略主任务NER 辅助任务语言模型预测前后词。实现共享 LSTM 层每个位置输出用于预测当前标签、前一个词、后一个词。期待半监督提升 NER 性能尤其在低资源场景。14. Yang et al., “Transfer Learning for Sequence Tagging with Hierarchical Recurrent Networks”, ICLR 2017背景跨领域/跨语言 NER 面临标签集不匹配、数据分布差异。策略共享底层 LSTM顶层 CRF 分离不同任务可共享不同层。实现三种共享架构全部共享、只共享字符层、只共享词层。期待在低资源条件下迁移学习显著优于独立训练。15. Shen et al., “Deep Active Learning for Named Entity Recognition”, ICLR 2017背景深度学习需要大量标注数据标注昂贵。策略主动学习选择信息量最大的样本如不确定性采样人工标注。实现迭代训练用少量种子数据训练 BiLSTM-CRF预测未标注池选最不确定的句子人工标注加入训练集继续训练增量更新而非重新训练。期待仅用 24.9% 训练数据达到全数据 99% 性能。第八部分总结与未来方向基于综述原文主要结论深度学习 NER 已经超越传统特征工程方法在新闻等正式文本上接近人类水平F193%。BiLSTM-CRF 是最稳定、最常用的架构但预训练语言模型BERT、ELMo已成为新标准。非正式文本Twitter、用户评论的 NER 仍是难点F1≈40%。嵌套实体、细粒度实体类型、多语言低资源场景是当前研究热点。未来方向综述作者建议细粒度 NER 边界检测分离先统一检测实体边界再分类类型可跨领域共享边界模型。NER 与实体链接联合建模利用知识库反馈提升识别准确率。利用辅助资源处理非正式文本词典、知识图谱、视觉特征图像文本多模态。模型可扩展性降低 BERT 等大模型的计算需求模型压缩、知识蒸馏。易用的深度学习 NER 工具包类似 NeuroNER但支持更多现代架构。附录综述论文全部参考文献列表按原文顺序编号[1] D. Nadeau and S. Sekine, 2007.[2] Z. Zhang et al., “ERNIE”, ACL 2019.[3] P. Cheng and K. Erk, arXiv 2019.[4] J. Guo et al., SIGIR 2009.[5] D. Petkova and W. B. Croft, CIKM 2007.[6] C. Aone et al., 1999.[7] D. M. Allod et al., ALTA 2006.[8] B. Babych and A. Hartley, EAMT 2003.[9] O. Etzioni et al., Artif. Intell. 2005.[10] R. Grishman and B. Sundheim, COLING 1996.[11] E. F. Tjong Kim Sang and F. De Meulder, CoNLL 2003.[12] G. R. Doddington et al., LREC 2004.[13] G. Demartini et al., INEX 2009.[14] K. Balog et al., TREC 2010.[15] G. Petasis et al., SIGIR 2000.[16] S. A. Kripke, 1972.[17] R. Collobert et al., JMLR 2011.[18] Z. Huang et al., arXiv 2015.[19] G. Lample et al., NAACL 2016.[20] J. P. Chiu and E. Nichols, TACL 2016.[21] M. E. Peters et al., ACL 2017.[22] M. Marrero et al., Comput. Stand. Interfaces 2013.[23] M. L. Patawar and M. Potey, 2015.[24] C. J. Saju and A. Shaja, 2017.[25] X. Dai, ACL 2018.[26] V. Yadav and S. Bethard, COLING 2018.[27] A. Goyal et al., Comput. Sci. Rev. 2018.[28] R. Sharnagat, 2014.[29] X. Ling and D. S. Weld, AAAI 2012.[30] X. Ren et al., EMNLP 2016.[31] A. Abhishek et al., EACL 2017.[32] A. Lal et al., WWW 2017.[33] L. d. Corro et al., EMNLP 2015.[34] K. Balog, 2018.[35] H. Raviv et al., SIGIR 2016.[36] P. Boldi et al., CIKM 2008.[37] F. Cai et al., Found. Trends Inf. Retr. 2016.[38] Z. Bar-Yossef and N. Kraus, WWW 2011.[39] G. Saldanha et al., ACL 2016.[40] F. Hasibi et al., SIGIR 2017.[41] S. Pradhan et al., EMNLP 2012.[42] C. Dogan et al., arXiv 2019.[43] S. Sekine and C. Nobata, LREC 2004.[44] S. Zhang and N. Elhadad, J. Biomed. Inform. 2013.[45] J.-H. Kim and P. C. Woodland, ICSLP 2000.[46] D. Hanisch et al., BMC Bioinform. 2005.[47] A. P. Quimbaya et al., Procedia Comput. Sci. 2016.[48] K. Humphreys et al., MUC-7 1998.[49] G. Krupka and K. IsoQuest, MUC-7 2005.[50] W. J. Black et al., MUC-7 1998.[51] C. Aone et al., MUC-7 1998.[52] D. E. Appelt et al., MUC-6 1995.[53] A. Mikheev et al., EACL 1999.[54] M. Collins and Y. Singer, EMNLP 1999.[55] D. Nadeau et al., CSCSI 2006.[56] S. Sekine and E. Ranchhod, 2009.[57] G. Zhou and J. Su, ACL 2002.[58] B. Settles, ACL 2004.[59] W. Liao and S. Veeramachaneni, NAACL-HLT 2009.[60] A. Mikheev, ACL 1999.[61] J. Kazama and K. Torisawa, EMNLP-CoNLL 2007.[62] A. Toral and R. Munoz, 2006.[63] J. Hoffart et al., EMNLP 2011.[64] Y. Ravin and N. Wacholder, 1997.[65] J. Zhu et al., WM 2005.[66] Z. Ji et al., WWW 2016.[67] V. Krishnan and C. D. Manning, ACL 2006.[68] D. Campos et al., 2012.[69] S. R. Eddy, Curr. Opin. Struct. Biol. 1996.[70] J. R. Quinlan, Mach. Learn. 1986.[71] J. N. Kapur, 1989.[72] M. A. Hearst et al., IEEE Intell. Syst. 1998.[73] J. D. Lafferty et al., ICML 2001.[74] D. M. Bikel et al., ANLC 1997.[75] D. M. Bikel et al., Mach. Learn. 1999.[76] G. Szarvas et al., DS 2006.[77] A. Borthwick et al., MUC-7 1998.[78] O. Bender et al., HLT-NAACL 2003.[79] H. L. Chieu and H. T. Ng, CoNLL 2002.[80] J. R. Curran and S. Clark, HLT-NAACL 2003.[81] P. McNamee and J. Mayfield, CoNLL 2002.[82] A. McCallum and W. Li, HLT-NAACL 2003.[83] S. Liu et al., arXiv 2019.[84] A. Ritter et al., EMNLP 2011.[85] X. Liu et al., ACL 2011.[86] T. Rocktaschel et al., Bioinformatics 2012.[87] Y. LeCun et al., Nature 2015.[88] Y. Shen et al., ICLR 2017.[89] T. H. Nguyen et al., arXiv 2016.[90] S. Zheng et al., ACL 2017.[91] E. Strubell et al., ACL 2017.[92] T. Mikolov et al., ICLR 2013.[93] J. Yang et al., COLING 2018.[94] L. Yao et al., Int. J. Hybrid Inf. Technol. 2015.[95] F. Zhai et al., AAAI 2017.[96] P. Zhou et al., CCL-NLP-NABD 2017.[97] X. Ma and E. Hovy, ACL 2016.[98] P.-H. Li et al., EMNLP 2017.[99] C. Wang et al., CAICS 2018.[100] O. Kuru et al., COLING 2016.[101] Q. Tran et al., IJCNLP 2017.[102] J. Yang et al., RANLP 2017.[103] M. E. Peters et al., NAACL-HLT 2018.[104] M. Gridach, J. Biomed. Inform. 2017.[105] M. Rei et al., COLING 2016.[106] Z. Yang et al., arXiv 2016.[107] A. Akbik et al., COLING 2018.[108] T. Liu et al., ACL 2019.[109] A. Ghaddar and P. Langlais, COLING 2018.[110] Z. Jie and W. Lu, EMNLP 2018.[111] D. Lu et al., ACL 2018.[112] Q. Wei et al., Database 2016.[113] B. Y. Lin et al., W-NUT 2017.[114] G. Aguilar et al., W-NUT 2017.[115] P. Jansson and S. Liu, W-NUT 2017.[116] M. Xu et al., ACL 2017.[117] S. Zhang et al., arXiv 2015.[118] S. Moon et al., NAACL 2018.[119] J. Devlin et al., NAACL-HLT 2019.[120] Y. Wu et al., MEDINFO 2015.[121] A. Z. Gregoric et al., ACL 2018.[122] A. Katiyar and C. Cardie, ACL 2018.[123] M. Ju et al., NAACL-HLT 2018.[124] M. Rei, ACL 2017.[125] L. Liu et al., EMNLP 2018.[126] L. Liu et al., AAAI 2017.[127] C. Jia et al., ACL 2019.[128] A. Vaswani et al., NIPS 2017.[129] P. J. Liu et al., arXiv 2018.[130] N. Kitaev and D. Klein, ACL 2018.[131] A. Radford et al., OpenAI 2018.[132] A. Baevski et al., arXiv 2019.[133] C. Xia et al., ACL 2019.[134] Y. Luo et al., arXiv 2019.[135] Y. Liu et al., ACL 2019.[136] Y. Jiang et al., EMNLP 2019.[137] X. Li et al., arXiv 2019.[138] X. Li et al., arXiv 2019.[139] L. Cui and Y. Zhang, EMNLP 2019.[140] S. Tomori et al., ACL 2016.[141] Y. Lin et al., ACL 2019.[142] J. Zhuo et al., ACL 2016.[143] Z.-X. Ye and Z.-H. Ling, ACL 2018.[144] A. Vaswani et al., NAACL-HLT 2016.[145] O. Vinyals et al., NIPS 2015.[146] J. Li et al., IJCAI 2018.[147] Q. Guo et al., NAACL-HLT 2019.[148] H. Yan et al., arXiv 2019.[149] Q. Wang et al., J. Biomed. Inform. 2019.[150] Y. Zhang and J. Yang, ACL 2018.[151] W. Wang et al., ICTAI 2016.[152] J. Straková et al., TSD 2016.[153] M. Gridach, WSSANLP 2016.[154] M. K. Malik, ACM Trans. Asian Low-Resour. Lang. Inf. Process. 2017.[155] T.-H. Pham and P. Le-Hong, PACLING 2017.[156] K. Kurniawan and S. Louvan, arXiv 2018.[157] K. Yano, arXiv 2018.[158] A. Bharadwaj et al., EMNLP 2016.[159] J. Xie et al., EMNLP 2018.[160] Y. Lin et al., ACL 2018.[161] R. Caruana, Mach. Learn. 1997.[162] N. Peng and M. Dredze, RepL4NLP 2017.[163] G. Crichton et al., BMC Bioinform. 2017.[164] X. Wang et al., arXiv 2018.[165] S. J. Pan et al., IEEE Trans. Knowl. Data Eng. 2010.[166] J. Jiang and C. Zhai, ACL 2007.[167] D. Wu et al., EMNLP 2009.[168] A. Chaudhary et al., 2019.[169] S. J. Pan et al., ACM Trans. Inf. Syst. 2013.[170] J. Y. Lee et al., arXiv 2017.[171] B. Y. Lin and W. Lu, EMNLP 2018.[172] Y. Cao et al., EMNLP 2019.[173] X. Huang et al., CoNLL 2019.[174] L. Qu et al., EMNLP 2016.[175] Z. Yang et al., ICLR 2017.[176] P. von Däniken and M. Cieliebak, W-NUT 2017.[177] H. Zhao et al., NAACL-HLT 2018.[178] G. Beryozkin et al., ACL 2019.[179] J. M. Giorgi and G. D. Bader, Bioinformatics 2018.[180] Z. Wang et al., NAACL-HLT 2018.[181] B. Settles, Synth. Lect. Artif. Intell. Mach. Learn. 2012.[182] D. D. Lewis and W. A. Gale, SIGIR 1994.[183] S. Pradhan et al., CoNLL 2013.[184] L. P. Kaelbling et al., J. Artif. Intell. Res. 1996.[185] R. S. Sutton and A. G. Barto, 1998.[186] S. C. Hoi et al., arXiv 2018.[187] K. Narasimhan et al., EMNLP 2016.[188] V. Mnih et al., Nature 2015.[189] Y. Yang et al., COLING 2018.[190] D. Lowd and C. Meek, SIGKDD 2005.[191] I. Goodfellow et al., NIPS 2014.[192] L. Huang et al., NAACL-HLT 2019.[193] J. Li et al., IJCAI 2019.[194] P. Cao et al., EMNLP 2018.[195] J. T. Zhou et al., ACL 2019.[196] D. Britz, 2016.[197] A. Zukov-Gregoric et al., ICTAI 2017.[198] G. Xu et al., APWeb-WAIM 2018.[199] Q. Zhang et al., AAAI 2018.[200] L. Derczynski et al., W-NUT 2017.[201] J. Fisher and A. Vlachos, ACL 2019.[202] D. Ye et al., SANER 2016.[203] I. Partalas et al., W-NUT 2016.[204] W. Shen et al., IEEE Trans. Knowl. Data Eng. 2018.[205] M. C. Phan et al., arXiv 2018.[206] C. Li and A. Sun, J. Assoc. Inf. Sci. Technol. 2017.[207] J. Han et al., IEEE Trans. Knowl. Data Eng. 2018.[208] M. C. Phan and A. Sun, J. Assoc. Inf. Sci. Technol. 2019.结束语感谢你阅读完这篇关于深度学习命名实体识别的综述解析。NER 作为信息抽取的基石其技术仍在快速演进——从扁平实体到嵌套实体从纯文本到多模态从有监督到低资源迁移学习还有许多有趣的方向等待探索。如果你需要对应这篇博客里提到的文章的链接请评论区留言1关注下博主我将私发与你学习或者你也可以点击我的这篇vip文章里面直接对应链接供你学习如果你对自然语言处理、深度学习或信息抽取的其他话题感兴趣欢迎访问我的 CSDN 主页那里有更多关于论文解读、代码实践和技术思考的文章。 我的主页https://blog.csdn.net/rosie_linlna期待在评论区与你交流讨论也欢迎关注我第一时间获取后续更新

更多文章