006、预训练范式革命:掩码语言建模与自回归语言建模

张开发
2026/4/18 4:02:58 15 分钟阅读

分享文章

006、预训练范式革命:掩码语言建模与自回归语言建模
昨天在调试一个文本生成任务,模型在生成长文本时后半段开始胡言乱语。同事看了一眼说:“你这用的是自回归模型吧?试试掩码预训练的版本。” 一句话点醒了我——不同的预训练范式,在实际场景中的表现差异比想象中更大。从GPT和BERT的差异说起2018年那会儿,大家都在用RNN做语言模型。Transformer出来之后,出现了两条技术路线:OpenAI的GPT走自回归语言建模(Autoregressive LM),BERT走掩码语言建模(Masked LM)。表面看都是预测单词,底层逻辑完全不同。自回归模型像是个从左到右的写作助手。给定“今天天气很”,它预测下一个词可能是“好”。这种单向性限制了模型理解上下文的能力,但生成文本很自然。掩码模型则像完形填空专家,看到“今天天气很[MASK]”,它需要利用双向上下文来推断被遮盖的词。掩码语言建模的实战细节BERT的掩码策略其实挺讲究。原始论文里,15%的token被选中处理:其中80%替换为[MASK],10%随机替换,10%保持不变。这个设计防止模型过度依赖[MASK]标记。# 实际项目中的掩码实现(简化版)defapply_mlm_mask

更多文章