从规则到BERT：深度学习命名实体识别全景综述——核心论文深度解析（基础版）

张开发

• 2026/4/16 3:28:15 • 15 分钟阅读

分享文章

导语命名实体识别NER是自然语言处理中的一项基础性任务广泛应用于信息抽取、问答系统、机器翻译等场景。从早期的规则模板、特征工程到如今深度学习的全面渗透NER 技术已经走过了近三十年的演进历程。这篇博客基于一篇 2020 年发表于 IEEE TKDE 的深度学习 NER 综述论文Li et al.对其核心内容进行了系统梳理。我们按照“背景→策略→实现→期待”的框架深度解析了从 Word2Vec、BiLSTM-CRF 到 BERT 等关键模型的原理与贡献同时涵盖了多任务学习、迁移学习、对抗学习等前沿技术。无论你是刚接触 NER 的初学者还是希望系统回顾该领域发展脉络的研究者本文都能为你提供一个清晰、全面的参考。第一部分背景——NER 任务定义与早期方法1. NER 的起源MUC 会议论文Grishman Sundheim, “Message Understanding Conference-6: A brief history”, COLING 1996背景第六届消息理解会议MUC-6首次定义“命名实体”任务包括人名、地名、组织名、日期、货币、百分比。策略规则词典gazetteer。实现人工编写语义和句法规则例如“大写词称谓词”。期待为后续评测提供基准但规则难以迁移。2. 特征工程巅峰CRF论文Lafferty et al., “Conditional random fields: Probabilistic models for segmenting and labeling sequence data”, ICML 2001背景HMM 和 MEMM 存在标签偏置问题。策略全局条件概率建模允许任意特征依赖。实现线性链 CRF特征函数包括词形、词性、上下文窗口。期待CRF 成为传统 NER 的黄金标准后被深度学习模型作为顶层解码器继承。第二部分深度学习开山之作——端到端 NER3. Collobert et al., “Natural Language Processing (Almost) from Scratch”, JMLR 2011背景传统 NLP 依赖离散特征泛化能力弱。策略使用多任务学习POS、分块、NER、SRL共享底层特征。实现输入词嵌入随机初始化大小写等特征。编码器时间卷积网络CNN提取全局句子特征。解码器CRF 或 Softmax。期待首次证明神经网络可以不依赖手工特征达到 SOTA开启了深度学习 NER 时代。第三部分分布式表示——词级、字符级与混合4. Mikolov et al., “Efficient Estimation of Word Representations in Vector Space”, ICLR 2013 (Word2Vec)背景独热编码无法表达语义相似性。策略使用连续词袋CBOW或 Skip-gram 在大规模无标注语料上训练低维稠密向量。实现负采样或层次 Softmax 加速。期待预训练词嵌入成为几乎所有 NER 模型的标配。5. Lample et al., “Neural Architectures for Named Entity Recognition”, NAACL 2016背景词嵌入无法处理未登录词OOV和形态信息。策略字符级双向 LSTMBiLSTM提取字符特征与词嵌入拼接。实现字符 BiLSTM 输出 → 与预训练词嵌入拼接 → 送入词级 BiLSTM → CRF 解码。支持 BIOES 标签。期待在 CoNLL03 上 F190.94%验证了字符级表示的重要性。6. Ma Hovy, “End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF”, ACL 2016背景Lample 使用 RNN 提取字符特征计算量较大。策略用 CNN 替代 RNN 提取字符级特征速度更快。实现字符嵌入 → 卷积最大池化 → 字符向量。与词嵌入拼接 → BiLSTM → CRF。期待与 Lample 类似性能但训练更快成为 BiLSTM-CNN-CRF 范式的代表。第四部分上下文编码器——CNN、RNN、Transformer7. Huang et al., “Bidirectional LSTM-CRF Models for Sequence Tagging”, arXiv 2015背景单向 LSTM 无法利用未来信息。策略双向 LSTM 捕获前后上下文。实现前向 LSTM 后向 LSTM 输出拼接 → CRF。期待BiLSTM-CRF 成为此后三年 NER 任务的标准基线。8. Strubell et al., “Fast and Accurate Entity Recognition with Iterated Dilated Convolutions”, ACL 2017 (ID-CNN)背景RNN 顺序计算导致训练慢难以并行。策略空洞卷积Dilated CNN指数级扩大感受野。实现多层空洞卷积堆叠每层宽卷积核最终用 CRF。期待比 BiLSTM-CRF 快 14~20 倍精度相近适合实时系统。9. Vaswani et al., “Attention is All You Need”, NIPS 2017 (Transformer)背景RNN 难以长距离依赖CNN 需要多层。策略完全基于自注意力Self-Attention无循环无卷积。实现输入嵌入位置编码。多头注意力前馈网络残差连接。期待为 BERT、GPT 等预训练模型奠定基础也用于 NER如 TENER。第五部分标签解码器——CRF、RNN、指针网络10. Zhai et al., “Neural Models for Sequence Chunking”, AAAI 2017 (Pointer Networks)背景CRF 基于词级标签难以直接建模片段segment内部结构。策略指针网络先生成片段边界再对片段分类。实现编码器 BiLSTM → 指针网络解码器输出起始位置 → 另一个网络输出结束位置和类型。迭代直至覆盖所有词。期待在 CoNLL00 分块任务上 SOTA但 NER 上应用较少。第六部分预训练语言模型——ELMo、BERT 及后续11. Peters et al., “Deep Contextualized Word Representations”, NAACL 2018 (ELMo)背景静态词嵌入Word2Vec/GloVe无法处理一词多义。策略训练双向语言模型biLM内部隐藏状态加权组合。实现字符卷积 → 两层双向 LSTM 语言模型。对每个 token提取 3 层字符层、第1层、第2层的隐藏状态加权求和。期待显著提升 NER、SQuAD 等任务证明上下文嵌入的力量。12. Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, NAACL 2019背景ELMo 是浅层双向两个单向 LSTM 拼接无法真正双向。策略Transformer 编码器掩码语言模型MLM实现深层双向。实现预训练MLM15% 词被掩码下一句预测。微调加一层输出层即可用于 NER。期待在 CoNLL03 上 F192.8%BERT-large成为新 SOTA。后续Li et al., “A Unified MRC Framework for NER”, 2019 将 NER 视为阅读理解进一步提升。第七部分前沿技术——多任务、迁移、对抗、主动学习13. Rei, “Semi-supervised Multitask Learning for Sequence Labeling”, ACL 2017背景标注数据稀缺无标注数据丰富。策略主任务NER 辅助任务语言模型预测前后词。实现共享 LSTM 层每个位置输出用于预测当前标签、前一个词、后一个词。期待半监督提升 NER 性能尤其在低资源场景。14. Yang et al., “Transfer Learning for Sequence Tagging with Hierarchical Recurrent Networks”, ICLR 2017背景跨领域/跨语言 NER 面临标签集不匹配、数据分布差异。策略共享底层 LSTM顶层 CRF 分离不同任务可共享不同层。实现三种共享架构全部共享、只共享字符层、只共享词层。期待在低资源条件下迁移学习显著优于独立训练。15. Shen et al., “Deep Active Learning for Named Entity Recognition”, ICLR 2017背景深度学习需要大量标注数据标注昂贵。策略主动学习选择信息量最大的样本如不确定性采样人工标注。实现迭代训练用少量种子数据训练 BiLSTM-CRF预测未标注池选最不确定的句子人工标注加入训练集继续训练增量更新而非重新训练。期待仅用 24.9% 训练数据达到全数据 99% 性能。第八部分总结与未来方向基于综述原文主要结论深度学习 NER 已经超越传统特征工程方法在新闻等正式文本上接近人类水平F193%。BiLSTM-CRF 是最稳定、最常用的架构但预训练语言模型BERT、ELMo已成为新标准。非正式文本Twitter、用户评论的 NER 仍是难点F1≈40%。嵌套实体、细粒度实体类型、多语言低资源场景是当前研究热点。未来方向综述作者建议细粒度 NER 边界检测分离先统一检测实体边界再分类类型可跨领域共享边界模型。NER 与实体链接联合建模利用知识库反馈提升识别准确率。利用辅助资源处理非正式文本词典、知识图谱、视觉特征图像文本多模态。模型可扩展性降低 BERT 等大模型的计算需求模型压缩、知识蒸馏。易用的深度学习 NER 工具包类似 NeuroNER但支持更多现代架构。附录综述论文全部参考文献列表按原文顺序编号[1] D. Nadeau and S. Sekine, 2007.[2] Z. Zhang et al., “ERNIE”, ACL 2019.[3] P. Cheng and K. Erk, arXiv 2019.[4] J. Guo et al., SIGIR 2009.[5] D. Petkova and W. B. Croft, CIKM 2007.[6] C. Aone et al., 1999.[7] D. M. Allod et al., ALTA 2006.[8] B. Babych and A. Hartley, EAMT 2003.[9] O. Etzioni et al., Artif. Intell. 2005.[10] R. Grishman and B. Sundheim, COLING 1996.[11] E. F. Tjong Kim Sang and F. De Meulder, CoNLL 2003.[12] G. R. Doddington et al., LREC 2004.[13] G. Demartini et al., INEX 2009.[14] K. Balog et al., TREC 2010.[15] G. Petasis et al., SIGIR 2000.[16] S. A. Kripke, 1972.[17] R. Collobert et al., JMLR 2011.[18] Z. Huang et al., arXiv 2015.[19] G. Lample et al., NAACL 2016.[20] J. P. Chiu and E. Nichols, TACL 2016.[21] M. E. Peters et al., ACL 2017.[22] M. Marrero et al., Comput. Stand. Interfaces 2013.[23] M. L. Patawar and M. Potey, 2015.[24] C. J. Saju and A. Shaja, 2017.[25] X. Dai, ACL 2018.[26] V. Yadav and S. Bethard, COLING 2018.[27] A. Goyal et al., Comput. Sci. Rev. 2018.[28] R. Sharnagat, 2014.[29] X. Ling and D. S. Weld, AAAI 2012.[30] X. Ren et al., EMNLP 2016.[31] A. Abhishek et al., EACL 2017.[32] A. Lal et al., WWW 2017.[33] L. d. Corro et al., EMNLP 2015.[34] K. Balog, 2018.[35] H. Raviv et al., SIGIR 2016.[36] P. Boldi et al., CIKM 2008.[37] F. Cai et al., Found. Trends Inf. Retr. 2016.[38] Z. Bar-Yossef and N. Kraus, WWW 2011.[39] G. Saldanha et al., ACL 2016.[40] F. Hasibi et al., SIGIR 2017.[41] S. Pradhan et al., EMNLP 2012.[42] C. Dogan et al., arXiv 2019.[43] S. Sekine and C. Nobata, LREC 2004.[44] S. Zhang and N. Elhadad, J. Biomed. Inform. 2013.[45] J.-H. Kim and P. C. Woodland, ICSLP 2000.[46] D. Hanisch et al., BMC Bioinform. 2005.[47] A. P. Quimbaya et al., Procedia Comput. Sci. 2016.[48] K. Humphreys et al., MUC-7 1998.[49] G. Krupka and K. IsoQuest, MUC-7 2005.[50] W. J. Black et al., MUC-7 1998.[51] C. Aone et al., MUC-7 1998.[52] D. E. Appelt et al., MUC-6 1995.[53] A. Mikheev et al., EACL 1999.[54] M. Collins and Y. Singer, EMNLP 1999.[55] D. Nadeau et al., CSCSI 2006.[56] S. Sekine and E. Ranchhod, 2009.[57] G. Zhou and J. Su, ACL 2002.[58] B. Settles, ACL 2004.[59] W. Liao and S. Veeramachaneni, NAACL-HLT 2009.[60] A. Mikheev, ACL 1999.[61] J. Kazama and K. Torisawa, EMNLP-CoNLL 2007.[62] A. Toral and R. Munoz, 2006.[63] J. Hoffart et al., EMNLP 2011.[64] Y. Ravin and N. Wacholder, 1997.[65] J. Zhu et al., WM 2005.[66] Z. Ji et al., WWW 2016.[67] V. Krishnan and C. D. Manning, ACL 2006.[68] D. Campos et al., 2012.[69] S. R. Eddy, Curr. Opin. Struct. Biol. 1996.[70] J. R. Quinlan, Mach. Learn. 1986.[71] J. N. Kapur, 1989.[72] M. A. Hearst et al., IEEE Intell. Syst. 1998.[73] J. D. Lafferty et al., ICML 2001.[74] D. M. Bikel et al., ANLC 1997.[75] D. M. Bikel et al., Mach. Learn. 1999.[76] G. Szarvas et al., DS 2006.[77] A. Borthwick et al., MUC-7 1998.[78] O. Bender et al., HLT-NAACL 2003.[79] H. L. Chieu and H. T. Ng, CoNLL 2002.[80] J. R. Curran and S. Clark, HLT-NAACL 2003.[81] P. McNamee and J. Mayfield, CoNLL 2002.[82] A. McCallum and W. Li, HLT-NAACL 2003.[83] S. Liu et al., arXiv 2019.[84] A. Ritter et al., EMNLP 2011.[85] X. Liu et al., ACL 2011.[86] T. Rocktaschel et al., Bioinformatics 2012.[87] Y. LeCun et al., Nature 2015.[88] Y. Shen et al., ICLR 2017.[89] T. H. Nguyen et al., arXiv 2016.[90] S. Zheng et al., ACL 2017.[91] E. Strubell et al., ACL 2017.[92] T. Mikolov et al., ICLR 2013.[93] J. Yang et al., COLING 2018.[94] L. Yao et al., Int. J. Hybrid Inf. Technol. 2015.[95] F. Zhai et al., AAAI 2017.[96] P. Zhou et al., CCL-NLP-NABD 2017.[97] X. Ma and E. Hovy, ACL 2016.[98] P.-H. Li et al., EMNLP 2017.[99] C. Wang et al., CAICS 2018.[100] O. Kuru et al., COLING 2016.[101] Q. Tran et al., IJCNLP 2017.[102] J. Yang et al., RANLP 2017.[103] M. E. Peters et al., NAACL-HLT 2018.[104] M. Gridach, J. Biomed. Inform. 2017.[105] M. Rei et al., COLING 2016.[106] Z. Yang et al., arXiv 2016.[107] A. Akbik et al., COLING 2018.[108] T. Liu et al., ACL 2019.[109] A. Ghaddar and P. Langlais, COLING 2018.[110] Z. Jie and W. Lu, EMNLP 2018.[111] D. Lu et al., ACL 2018.[112] Q. Wei et al., Database 2016.[113] B. Y. Lin et al., W-NUT 2017.[114] G. Aguilar et al., W-NUT 2017.[115] P. Jansson and S. Liu, W-NUT 2017.[116] M. Xu et al., ACL 2017.[117] S. Zhang et al., arXiv 2015.[118] S. Moon et al., NAACL 2018.[119] J. Devlin et al., NAACL-HLT 2019.[120] Y. Wu et al., MEDINFO 2015.[121] A. Z. Gregoric et al., ACL 2018.[122] A. Katiyar and C. Cardie, ACL 2018.[123] M. Ju et al., NAACL-HLT 2018.[124] M. Rei, ACL 2017.[125] L. Liu et al., EMNLP 2018.[126] L. Liu et al., AAAI 2017.[127] C. Jia et al., ACL 2019.[128] A. Vaswani et al., NIPS 2017.[129] P. J. Liu et al., arXiv 2018.[130] N. Kitaev and D. Klein, ACL 2018.[131] A. Radford et al., OpenAI 2018.[132] A. Baevski et al., arXiv 2019.[133] C. Xia et al., ACL 2019.[134] Y. Luo et al., arXiv 2019.[135] Y. Liu et al., ACL 2019.[136] Y. Jiang et al., EMNLP 2019.[137] X. Li et al., arXiv 2019.[138] X. Li et al., arXiv 2019.[139] L. Cui and Y. Zhang, EMNLP 2019.[140] S. Tomori et al., ACL 2016.[141] Y. Lin et al., ACL 2019.[142] J. Zhuo et al., ACL 2016.[143] Z.-X. Ye and Z.-H. Ling, ACL 2018.[144] A. Vaswani et al., NAACL-HLT 2016.[145] O. Vinyals et al., NIPS 2015.[146] J. Li et al., IJCAI 2018.[147] Q. Guo et al., NAACL-HLT 2019.[148] H. Yan et al., arXiv 2019.[149] Q. Wang et al., J. Biomed. Inform. 2019.[150] Y. Zhang and J. Yang, ACL 2018.[151] W. Wang et al., ICTAI 2016.[152] J. Straková et al., TSD 2016.[153] M. Gridach, WSSANLP 2016.[154] M. K. Malik, ACM Trans. Asian Low-Resour. Lang. Inf. Process. 2017.[155] T.-H. Pham and P. Le-Hong, PACLING 2017.[156] K. Kurniawan and S. Louvan, arXiv 2018.[157] K. Yano, arXiv 2018.[158] A. Bharadwaj et al., EMNLP 2016.[159] J. Xie et al., EMNLP 2018.[160] Y. Lin et al., ACL 2018.[161] R. Caruana, Mach. Learn. 1997.[162] N. Peng and M. Dredze, RepL4NLP 2017.[163] G. Crichton et al., BMC Bioinform. 2017.[164] X. Wang et al., arXiv 2018.[165] S. J. Pan et al., IEEE Trans. Knowl. Data Eng. 2010.[166] J. Jiang and C. Zhai, ACL 2007.[167] D. Wu et al., EMNLP 2009.[168] A. Chaudhary et al., 2019.[169] S. J. Pan et al., ACM Trans. Inf. Syst. 2013.[170] J. Y. Lee et al., arXiv 2017.[171] B. Y. Lin and W. Lu, EMNLP 2018.[172] Y. Cao et al., EMNLP 2019.[173] X. Huang et al., CoNLL 2019.[174] L. Qu et al., EMNLP 2016.[175] Z. Yang et al., ICLR 2017.[176] P. von Däniken and M. Cieliebak, W-NUT 2017.[177] H. Zhao et al., NAACL-HLT 2018.[178] G. Beryozkin et al., ACL 2019.[179] J. M. Giorgi and G. D. Bader, Bioinformatics 2018.[180] Z. Wang et al., NAACL-HLT 2018.[181] B. Settles, Synth. Lect. Artif. Intell. Mach. Learn. 2012.[182] D. D. Lewis and W. A. Gale, SIGIR 1994.[183] S. Pradhan et al., CoNLL 2013.[184] L. P. Kaelbling et al., J. Artif. Intell. Res. 1996.[185] R. S. Sutton and A. G. Barto, 1998.[186] S. C. Hoi et al., arXiv 2018.[187] K. Narasimhan et al., EMNLP 2016.[188] V. Mnih et al., Nature 2015.[189] Y. Yang et al., COLING 2018.[190] D. Lowd and C. Meek, SIGKDD 2005.[191] I. Goodfellow et al., NIPS 2014.[192] L. Huang et al., NAACL-HLT 2019.[193] J. Li et al., IJCAI 2019.[194] P. Cao et al., EMNLP 2018.[195] J. T. Zhou et al., ACL 2019.[196] D. Britz, 2016.[197] A. Zukov-Gregoric et al., ICTAI 2017.[198] G. Xu et al., APWeb-WAIM 2018.[199] Q. Zhang et al., AAAI 2018.[200] L. Derczynski et al., W-NUT 2017.[201] J. Fisher and A. Vlachos, ACL 2019.[202] D. Ye et al., SANER 2016.[203] I. Partalas et al., W-NUT 2016.[204] W. Shen et al., IEEE Trans. Knowl. Data Eng. 2018.[205] M. C. Phan et al., arXiv 2018.[206] C. Li and A. Sun, J. Assoc. Inf. Sci. Technol. 2017.[207] J. Han et al., IEEE Trans. Knowl. Data Eng. 2018.[208] M. C. Phan and A. Sun, J. Assoc. Inf. Sci. Technol. 2019.结束语感谢你阅读完这篇关于深度学习命名实体识别的综述解析。NER 作为信息抽取的基石其技术仍在快速演进——从扁平实体到嵌套实体从纯文本到多模态从有监督到低资源迁移学习还有许多有趣的方向等待探索。如果你需要对应这篇博客里提到的文章的链接请评论区留言1关注下博主我将私发与你学习或者你也可以点击我的这篇vip文章里面直接对应链接供你学习如果你对自然语言处理、深度学习或信息抽取的其他话题感兴趣欢迎访问我的 CSDN 主页那里有更多关于论文解读、代码实践和技术思考的文章。我的主页https://blog.csdn.net/rosie_linlna期待在评论区与你交流讨论也欢迎关注我第一时间获取后续更新

从规则到BERT：深度学习命名实体识别全景综述——核心论文深度解析（基础版）

最新文章

Flutter 跨端原生通信实战指南：鸿蒙/Android/iOS 核心通道与性能优化

别再死记硬背了！我用Hadoop HDFS和HBase Shell命令搞定期末大作业（附完整代码）

Python脚本自动化搞定实验室安全考试：超星学习通题库抓取与答案生成实战

编译原理核心概念与实践指南：从词法分析到中间代码生成

Android 10 Gnss数据流程：从LocationManager到HAL层的深度解析

STM32F407的ADC+DMA+TIMER2组合拳：如何实现一个实时波形显示的示波器核心？

推荐文章

ATCODER ABC C题解济

英雄联盟智能辅助工具League Akari：让你轻松成为游戏高手 [特殊字符]✨

同城预约上门服务系统源码：从技术架构到落地实践的深度剖析

PyTorch学习率调度器实战：从基础到高级策略全解析

python开发之路【第四章】：python程序流程控制督

跑得越慢反而越牛？你的身体其实在偷偷“扩容带宽”

相关文章

无损音乐下载与高品质音频管理：tidal-dl-ng的核心能力探索

LyricsX：让歌词如影随形的桌面歌词助手

如何利用自动化抢票工具突破大麦网90%的抢票失败率：从绝望到成功的完整指南

电子设计竞赛必备：RC、运放、TTL信号处理电路实战指南（附避坑技巧）

从RoboMaster到智能仓储：深入聊聊麦克纳姆轮底盘的那些‘坑’与最佳实践

libhv实战：从零构建一个高效的WebSocket客户端

分享文章

更多文章

2026年安卓APP安全加固公司哪家好？从技术、性能到合规的深度选型指南

汽车c语言是什么？

Zotero SciPDF插件终极指南：3步实现科研文献PDF自动下载

迈向下一代RAG，通义VimRAG用了这个方案

2026年吊挂灯箱实力厂商亲测复盘：亮欣广告灯箱为何成为行业优选解决方案

大量TIME_WAIT状态的连接问题

AutoSAR MCAL DIO驱动深度解析：英飞凌TC3XX的GPIO控制底层是如何工作的？

如何用三月七小助手实现崩坏星穹铁道全自动游戏管理：终极指南

DataX进阶：定制化MongoDB到MySQL迁移方案--源码改造与性能优化

无人机新手必看：手把手教你用BMP388气压计实现±15cm室内定高（附STM32 SPI配置代码）

从PPO到Q-learning：手把手教你根据项目需求选对强化学习模式（在线vs离线）

代码随想录算法训练营第二十五天|491、非递减子序列 46、全排列 47、全排列II