架构进化论：从BERT到Mamba，大语言模型的三次范式转移与下一个十年

张开发

• 2026/4/18 1:48:47 • 15 分钟阅读

分享文章

大语言模型的发展史从来不是参数规模的简单堆砌史而是架构创新驱动的能力跃迁史。2017年Transformer的横空出世彻底改写了人工智能的技术路线图2018年BERT与GPT的分道扬镳开启了预训练微调的黄金时代2023年Mamba的横空出世则以线性复杂度的革命性突破终结了Transformer长达6年的绝对霸权。这三次重大的架构变革每一次都精准击中了上一代技术的核心瓶颈推动着AI能力从理解到生成再到高效长序列智能的跨越式发展。今天我们正站在一个新的历史转折点上——当Transformer的物理极限日益逼近当Mamba为代表的新一代架构初露锋芒理解大语言模型架构的演化逻辑不仅是回顾过去更是预判未来。一、Transformer一场迟到的革命重新定义序列建模在2017年之前序列建模领域被RNN及其变体LSTM、GRU统治了近20年。这些模型通过循环结构逐词处理文本虽然在一定程度上解决了序列依赖问题但它们的两个致命缺陷从根本上限制了AI的能力边界。1.1 RNN时代的两座大山第一座大山是长距离依赖问题。RNN的信息传递是链式的每一个词的信息只能通过相邻的词一步步传递。当序列长度超过200个token时早期的信息会在传递过程中被不断稀释和遗忘就像传话游戏一样传到最后已经面目全非。这使得RNN无法理解长文档、复杂逻辑和跨段落的语义关联。第二座大山是串行计算瓶颈。RNN必须严格按照时间顺序处理每个词第n个词的计算必须等待第n-1个词完成。这种串行特性完全无法利用现代GPU的并行计算能力导致训练效率极低。即使是最强大的GPU集群也难以训练出大规模的RNN模型。为了解决这些问题研究人员尝试了各种方法比如引入注意力机制来增强长距离依赖捕捉能力但这些都只是在RNN框架内的修修补补。直到2017年6月Google Brain团队发表了划时代的论文《Attention Is All You Need》提出了完全抛弃循环结构的Transformer架构才真正打破了这两个瓶颈。1.2 自注意力机制Transformer的灵魂Transformer的革命性在于它用自注意力机制彻底取代了循环结构实现了所有位置两两直接交互。自注意力机制的核心思想非常简单对于序列中的每一个词计算它与序列中所有其他词的注意力权重然后根据这些权重对所有词的表示进行加权求和得到该词的上下文表示。数学上自注意力可以表示为Attention(Q,K,V)softmax(QKTdk)VAttention(Q,K,V)softmax(\frac{QK^T}{\sqrt{d_k}})VAttention(Q,K,V)softmax(dkQKT)V其中Q(Query)、K(Key)、V(Value)分别是输入序列通过三个不同线性变换得到的矩阵。这种机制带来了两个革命性的优势无限感受野任意两个词之间都可以直接建立联系无论它们在序列中相隔多远。理论上Transformer拥有无限的上下文窗口能够捕捉跨越数千甚至数万个token的语义关联。完美并行化所有token的注意力计算可以同时进行不需要等待前面的词处理完成。这使得Transformer的训练速度比LSTM提升了数十倍为大规模模型的训练奠定了基础。在此基础上Transformer还引入了多头注意力机制让模型能够同时从语法、语义、指代、逻辑等多个不同维度理解文本引入了位置编码为模型提供序列的位置信息引入了残差连接和层归一化解决了深度模型的训练退化问题。1.3 三大架构分支的诞生完整的Transformer架构包含编码器(Encoder)和解码器(Decoder)两部分。编码器负责对输入序列进行编码提取上下文信息解码器负责根据编码器的输出生成目标序列。基于这两个组件的不同组合衍生出了现代大语言模型的三大主流架构Encoder-only仅使用编码器采用双向注意力机制擅长理解类任务如文本分类、命名实体识别、情感分析等。Decoder-only仅使用解码器采用单向因果注意力机制擅长生成类任务如文本生成、对话、翻译等。Encoder-Decoder完整的编码器-解码器架构擅长转换类任务如机器翻译、文本摘要、问答系统等。当时没有人能够预料到这三个看似平等的架构分支会在未来几年走出截然不同的命运轨迹。二、BERT双向理解的巅峰开启预训练时代2018年10月Google发布了BERT(Bidirectional Encoder Representations from Transformers)将Transformer编码器的潜力发挥到了极致也正式宣告了NLP领域预训练微调新时代的到来。2.1 双向注意力BERT的核心优势BERT采用了纯Transformer编码器架构最关键的创新是双向上下文编码。与RNN只能从左到右处理文本不同BERT在处理每个词时能够同时看到它左边和右边的所有上下文信息。这就像一个认真阅读的学生先把整篇文章从头到尾通读一遍理解了全文的意思之后再回答问题。而RNN就像一个只能逐字阅读的学生读到一半的时候还不知道后面会写什么。为了实现双向预训练BERT设计了两个巧妙的自监督预训练任务第一个任务是Masked Language Modeling(MLM)。BERT会随机遮蔽输入文本中15%的词然后让模型根据上下文预测被遮蔽的词。这个任务迫使模型必须理解整个上下文的语义才能准确预测出被遮蔽的词。第二个任务是Next Sentence Prediction(NSP)。BERT会输入两个句子让模型判断这两个句子在原文中是否是相邻的。这个任务旨在让模型学习句子之间的逻辑关系。2.2 BERT的历史地位与局限BERT的出现是NLP领域的一个里程碑事件。它在11项NLP基准任务上刷新了当时的最好成绩将NLP的整体水平提升了一个档次。更重要的是BERT证明了预训练微调范式的有效性一次大规模的无监督预训练就可以将学到的通用语言知识迁移到几乎所有NLP下游任务上只需要进行少量的微调。然而BERT的成功也掩盖了它的固有缺陷首先MLM预训练任务存在天然缺陷。预训练时模型看到的是被遮蔽的文本而微调时模型看到的是完整的文本这种预训练与微调之间的差异会导致一定的性能损失。而且MLM任务只能预测单个词无法学习到词与词之间的顺序关系。其次NSP任务被证明效果有限。后续的研究表明NSP任务并没有带来预期的性能提升甚至在某些任务上会产生负面影响。RoBERTa等改进模型直接去掉了NSP任务反而获得了更好的效果。最重要的是BERT的双向设计决定了它天生不适合生成任务。生成文本是一个自回归的过程模型在生成第n个词时只能看到已经生成的前n-1个词不能看到未来的内容。而BERT的双向注意力机制允许模型看到未来的内容这与生成任务的要求是矛盾的。正是这个致命的缺陷为GPT的崛起留下了空间。2.3 Encoder-only架构的黄昏在BERT之后研究人员提出了许多改进的Encoder-only模型如RoBERTa、ALBERT、ELECTRA、DeBERTa等。这些模型通过改进预训练任务、优化模型结构、扩大模型规模等方式不断提升Encoder-only架构的性能。然而随着GPT-3的出现整个行业的注意力开始从理解任务转向生成任务。人们发现一个强大的生成模型不仅能够生成文本还能够通过提示工程完成各种理解任务而且效果并不比专门的理解模型差。从此Encoder-only架构逐渐退出了大语言模型的主流舞台成为了特定任务的专用模型。而Decoder-only架构则迎来了它的黄金时代。三、GPT生成式AI的崛起规模定律的胜利几乎与BERT同时OpenAI选择了一条不同的道路基于Transformer解码器的单向因果注意力架构专注于文本生成能力。当时很少有人看好这条道路但OpenAI用六年的时间证明了这才是通往通用人工智能的正确道路。3.1 单向因果注意力生成任务的最优解GPT采用了纯Transformer解码器架构使用带掩码的自注意力机制。在处理第n个词时模型会通过一个掩码矩阵屏蔽掉第n个词之后的所有位置确保模型只能看到前n-1个词。这种单向特性让它特别适合自回归的文本生成任务——就像一个边写边想的作家从第一个词开始一个接一个往下写每写一个词都只基于之前已经写好的内容。与BERT的MLM预训练任务不同GPT采用了标准语言建模任务给定前n-1个词预测第n个词。这个任务虽然简单但它与生成任务的目标完全一致不存在预训练与微调之间的差异。3.2 GPT系列的演进从能用到通用GPT系列的发展历程是一部规模即正义的完美诠释。OpenAI坚信只要不断扩大模型规模、增加训练数据、提升计算力模型的能力就会持续增长。GPT-1(2018)1.17亿参数首次提出生成式预训练有监督微调范式。虽然能力有限但证明了Decoder-only架构在生成任务上的潜力。GPT-2(2019)15亿参数规模扩大了10倍以上。OpenAI发现随着规模的扩大模型开始展现出零样本学习能力——无需任何微调只通过自然语言提示就能完成多种任务。GPT-3(2020)1750亿参数规模再次扩大了100倍。GPT-3展现出了惊人的上下文学习能力能够在少样本甚至零样本的情况下完成翻译、写作、编程、数学推理等数百种不同的任务。这是人类第一次看到通用人工智能的曙光。GPT-3.5(2022)在GPT-3的基础上引入了**基于人类反馈的强化学习(RLHF)**技术大幅提升了模型的对话能力和指令遵循能力。基于GPT-3.5的ChatGPT一经发布就引爆了全球AI热潮标志着生成式AI时代的正式到来。GPT-4(2023)多模态大模型支持图像和文本输入。在推理、创造力、知识掌握等方面达到了前所未有的高度能够解决复杂的数学问题、编写复杂的代码、理解复杂的图表和文档。GPT-4o(2024)实时多模态大模型支持语音、图像、文本的实时交互。响应速度提升了10倍多模态理解能力大幅增强真正实现了自然对话。3.3 Decoder-only架构为什么胜出在GPT-3之前大多数研究人员认为Encoder-Decoder架构是生成任务的最优解。然而GPT系列的成功证明了Decoder-only架构才是通用大语言模型的最佳选择。Decoder-only架构胜出的原因主要有三个第一训练目标更统一。Decoder-only架构的预训练目标就是标准语言建模与下游生成任务的目标完全一致。而Encoder-Decoder架构的预训练目标通常是机器翻译等特定任务与通用语言建模目标存在差异。第二参数利用效率更高。在相同参数量下Decoder-only架构的性能优于Encoder-Decoder架构。因为Decoder-only架构的所有参数都用于语言建模而Encoder-Decoder架构的参数被分成了编码器和解码器两部分每部分的参数都只有Decoder-only架构的一半。第三涌现能力更强。研究表明Decoder-only架构在规模扩大时会展现出更强的涌现能力。当模型规模超过某个阈值时会突然获得一些小规模模型不具备的能力如推理、规划、工具使用等。3.4 Transformer的物理极限然而随着GPT系列模型规模的不断扩大Transformer架构的固有缺陷也逐渐暴露出来成为了制约大语言模型进一步发展的最大瓶颈。Transformer的自注意力机制的计算复杂度是O(n²)即计算量与序列长度的平方成正比。这带来了三个严重的问题第一长序列处理效率极低。当序列长度从1k增加到10k时计算量会增加100倍当序列长度增加到100k时计算量会增加10000倍。这使得Transformer在处理长文档、代码库、书籍等超长序列时效率极其低下。第二KV Cache内存瓶颈。在推理时为了避免重复计算Transformer会缓存所有历史token的Key和Value值这就是KV Cache。随着对话长度的增加KV Cache会占用越来越多的内存。一个70B参数的模型处理100k长度的序列时KV Cache会占用超过80GB的显存这已经超过了大多数消费级GPU的显存容量。第三推理成本高昂。O(n²)的复杂度使得Transformer的推理成本随着序列长度的增加而急剧上升。据估计GPT-4的单次推理成本高达数美元这使得大多数企业和个人都无法承担大规模使用的费用。为了解决这些问题研究人员尝试了各种优化方法如稀疏注意力、滑动窗口注意力、FlashAttention等。但这些都是治标不治本的妥协方案只能在一定程度上缓解问题无法从根本上改变O(n²)的复杂度。直到2023年底Mamba的出现给整个领域带来了新的希望。四、Mamba线性复杂度革命终结Transformer霸权2023年12月卡内基梅隆大学和普林斯顿大学的研究人员发表了论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》提出了一种全新的序列建模架构彻底摒弃了自注意力机制实现了O(n)的线性复杂度。4.1 状态空间模型被忽视的宝藏Mamba的核心是状态空间模型(SSM)这是一种源于控制理论的数学模型已经存在了几十年。状态空间模型通过一个隐含状态来捕捉序列的动态变化其基本方程为htAht−1Bxth_tAh_{t-1}Bx_thtAht−1BxtytChtDxty_tCh_tDx_tytChtDxt其中hth_tht是t时刻的隐含状态xtx_txt是t时刻的输入yty_tyt是t时刻的输出A、B、C、D是模型的参数。状态空间模型的计算复杂度是O(n)因为每一步的计算只依赖于当前输入和上一步的状态。而且它天然适合处理长序列因为隐含状态的维度是固定的不会随着序列长度的增加而增加。然而传统的状态空间模型在语言建模任务上的表现一直不如Transformer。主要原因是传统SSM的参数是固定的无法根据输入内容动态调整因此无法像注意力机制那样对不同的输入内容给予不同的关注度。4.2 选择性机制Mamba的灵魂Mamba的革命性创新在于它在传统SSM的基础上引入了选择性机制让模型的关键参数A、B、C随输入内容动态变化AtA⊙ΔtB(xt)A_tA\odot\Delta_t B(x_t)AtA⊙ΔtB(xt)BtΔtB(xt)B_t\Delta_t B(x_t)BtΔtB(xt)CtC(xt)C_tC(x_t)CtC(xt)其中Δt\Delta_tΔt是输入相关的时间步长⊙\odot⊙是逐元素乘法。选择性机制让Mamba能够像人类阅读一样选择性记忆自动过滤掉无关的信息重点保留关键的内容。对于重要的信息模型会延长它的记忆时间对于不重要的信息模型会快速遗忘它。这一创新完美解决了传统SSM的核心缺陷让Mamba既保持了线性复杂度的效率优势又拥有了类似注意力的内容感知能力真正做到了鱼与熊掌兼得。4.3 硬件感知的并行扫描算法虽然状态空间模型的计算复杂度是O(n)但它本质上是一个串行过程每一步的计算都依赖于上一步的状态。这使得它无法像Transformer那样充分利用GPU的并行计算能力。为了解决这个问题Mamba的作者提出了一种硬件感知的并行扫描算法。这种算法利用了GPU的并行特性将本质上顺序执行的状态更新过程转化为可并行操作的任务使得Mamba在GPU上的运行速度比Transformer快得多。此外Mamba还采用了极简的Block架构用选择性SSM门控机制替代了Transformer的自注意力层去掉了冗余的结构使得模型更加易于堆叠和部署。4.4 Mamba的性能优势与局限Mamba在多个方面展现出了对Transformer的压倒性优势长序列处理能力无需KV Cache即可高效处理百万token级别的超长序列序列长度从1k增加到100k时计算量只增加100倍。推理速度在同等硬件条件下Mamba的推理速度是Transformer的5-7倍而且序列越长优势越明显。内存效率Mamba的内存占用仅为Transformer的几分之一一个7B参数的Mamba模型可以在消费级GPU上流畅运行。性能表现在语言建模、文本生成、代码生成等任务上Mamba达到了与同等规模Transformer相当甚至更好的性能。当然Mamba也不是完美的。它目前还存在一些局限性短序列性能在短序列(小于2k)上Mamba的性能略逊于Transformer。训练稳定性Mamba的训练比Transformer更困难需要更精细的调参。生态成熟度Mamba的生态还不够成熟缺乏像Transformer那样丰富的工具和库支持。但这些都是发展中的问题随着研究的不断深入这些问题都会逐步得到解决。4.5 Mamba之后的架构创新Mamba的出现引发了新一轮的架构创新热潮研究人员在Mamba的基础上提出了许多改进模型Jamba(2024)第一个将Mamba和Transformer结合的混合架构在保持Mamba效率优势的同时保留了Transformer的强大上下文理解能力。Mamba-2(2024)改进了选择性SSM的数学公式进一步提升了计算效率和性能。Mamba-3(2024)以推理效率为核心设计目标大幅提升了长序列推理速度和内存效率。RWKV另一种线性复杂度的RNN架构与Mamba各有优劣。RetNet结合了Transformer和RNN的优点实现了O(n)的复杂度和良好的性能。这些新架构的出现标志着大语言模型架构正式进入了后Transformer时代。五、演化逻辑问题驱动的技术迭代与底层规律回顾从BERT到GPT再到Mamba的发展历程我们可以清晰地看到一条问题驱动的技术迭代路径。每一次重大的架构变革都是为了解决上一代架构无法解决的核心问题。5.1 三次范式转移的底层逻辑大语言模型架构的发展可以分为三个阶段每个阶段都有一个核心问题和对应的解决方案第一阶段解决能不能的问题(2017-2020)核心问题传统RNN/LSTM无法有效捕捉长距离依赖训练效率低下。解决方案Transformer的自注意力机制实现全局交互和并行计算。架构分化BERT专注于理解任务GPT专注于生成任务。关键成果证明了大模型可以读懂和生成语言。第二阶段解决强不强的问题(2020-2023)核心问题模型能力不足无法完成复杂任务缺乏通用性。解决方案扩大模型规模和训练数据规模引入RLHF等对齐技术。架构统一Decoder-only架构胜出成为通用大语言模型的标准架构。关键成果GPT-3、ChatGPT、GPT-4等展现出惊人的通用能力。第三阶段解决贵不贵的问题(2023-至今)核心问题Transformer的O(n²)复杂度导致训练和推理成本过高长序列处理能力有限。解决方案Mamba的选择性状态空间模型实现O(n)的线性复杂度。架构多元化从注意力主导向效率与性能平衡的新方向演进。关键成果Mamba、Jamba等大幅提升了长序列处理效率和推理速度。5.2 架构演进的三大底层规律透过这三次范式转移我们可以总结出大语言模型架构演进的三大底层规律规律一效率与性能的平衡是永恒的主题。每一代架构都在追求更高的性能和更高的效率。Transformer牺牲了一定的效率换取了更高的性能Mamba则在保持高性能的同时大幅提升了效率。未来的架构也将继续沿着这个方向演进。规律二通用性是架构演进的最终方向。从BERT的专用理解模型到GPT的通用生成模型再到Mamba的通用序列模型架构的通用性越来越强。未来的架构将能够处理文本、图像、音频、视频等多种模态的数据成为真正的通用智能架构。规律三硬件与软件的协同演进是关键。Transformer的成功离不开GPU的并行计算能力Mamba的成功离不开硬件感知的并行扫描算法。未来的架构设计将越来越多地考虑硬件特性实现软硬件的协同优化。六、未来展望多元架构融合的时代与下一个十年Mamba的出现打破了Transformer长达6年的垄断格局但这并不意味着Transformer会被完全取代。未来的大语言模型架构很可能走向多元融合的道路不同的架构将在不同的场景中发挥各自的优势。6.1 混合架构成为主流未来几年MambaTransformer的混合架构将成为大语言模型的主流。这种架构将结合两者的优点用Mamba处理长序列的上下文信息用Transformer处理短序列的精细语义理解和推理。Jamba模型已经证明了这种混合架构的有效性。它在保持与Transformer相当性能的同时推理速度提升了3倍长序列处理能力提升了10倍。未来的混合架构将更加灵活可以根据不同的任务和场景动态调整Mamba层和Transformer层的比例。6.2 推理优先的设计理念过去大语言模型的设计主要以训练效率为核心。但随着模型部署的普及推理成本已经成为了制约大模型大规模应用的最大因素。未来的架构设计将越来越多地以推理效率为核心目标。Mamba-3就是一个典型的例子。它在设计时就充分考虑了推理效率通过优化模型结构和计算流程大幅提升了推理速度和内存效率。未来的架构将更加注重推理时的计算复杂度、内存占用和延迟等指标。6.3 软硬件协同设计随着大语言模型规模的不断扩大通用CPU和GPU已经难以满足其计算需求。未来的大语言模型架构将与专用硬件深度融合实现软硬件协同设计。一方面模型架构将根据硬件的特性进行优化充分利用硬件的计算能力另一方面硬件设计也将根据模型架构的特点进行定制为模型提供更高效的计算支持。例如针对Mamba的并行扫描算法设计专用的硬件加速器可以将Mamba的推理速度再提升一个数量级。6.4 专业化架构的兴起通用大模型虽然能力强大但在特定任务上的效率和性能往往不如专用模型。未来针对不同应用场景的专业化架构将大量涌现。例如针对长文档处理的架构将更加注重长序列处理能力针对实时对话的架构将更加注重低延迟针对多模态的架构将更加注重不同模态之间的融合针对边缘设备的架构将更加注重轻量化和低功耗。6.5 下一代架构的可能方向虽然我们无法准确预测下一代架构会是什么样子但我们可以根据当前的研究趋势推测出几个可能的方向神经符号架构将神经网络的感知能力与符号系统的推理能力相结合解决大模型的幻觉和逻辑推理问题。动态架构模型的结构和参数可以根据输入内容动态调整实现更高效的计算。生物启发架构从人脑的结构和工作原理中获得灵感设计出更接近人类智能的架构。量子语言模型利用量子计算的并行性解决经典计算无法解决的复杂问题。结语从BERT的双向理解到GPT的单向生成再到Mamba的线性复杂度——大语言模型架构的每一次重大突破都是对如何更高效地建模序列数据这一根本问题的重新思考。今天我们正站在一个新的历史转折点上。Transformer的时代正在落幕Mamba的时代正在开启。但这不是结束而是一个新的开始。在未来的十年里我们将看到更多革命性的架构创新推动人工智能从弱人工智能向强人工智能不断迈进。技术的演进永无止境。唯一不变的是人类对智能的永恒追求。

架构进化论：从BERT到Mamba，大语言模型的三次范式转移与下一个十年

最新文章

React Fiber 渲染机制详解

【限时解密】SITS2026闭门会议纪要：为什么83%的AI测试生成失败源于这4个被忽略的契约层设计缺陷？

cadence16.6--画焊盘

【Typora】从入门到精通：解锁高效Markdown写作的终极指南

实战指南：基于Pytorch与BiSeNet，从零构建无人机遥感图像语义分割数据集训练流程

从SAD到SGBM：双目立体视觉核心匹配算法演进与实战解析

推荐文章

ATCODER ABC C题解济

英雄联盟智能辅助工具League Akari：让你轻松成为游戏高手 [特殊字符]✨

同城预约上门服务系统源码：从技术架构到落地实践的深度剖析

PyTorch学习率调度器实战：从基础到高级策略全解析

python开发之路【第四章】：python程序流程控制督

跑得越慢反而越牛？你的身体其实在偷偷“扩容带宽”

相关文章

无损音乐下载与高品质音频管理：tidal-dl-ng的核心能力探索

LyricsX：让歌词如影随形的桌面歌词助手

如何利用自动化抢票工具突破大麦网90%的抢票失败率：从绝望到成功的完整指南

电子设计竞赛必备：RC、运放、TTL信号处理电路实战指南（附避坑技巧）

从RoboMaster到智能仓储：深入聊聊麦克纳姆轮底盘的那些‘坑’与最佳实践

libhv实战：从零构建一个高效的WebSocket客户端

分享文章

更多文章

微信“小爪子”馋哭了！Apple Watch：快到我碗里来

智能代码生成驱动的DevOps协作范式（2024企业级落地白皮书首发）

Matlab异常值检测：几种常用方法实现

使用 YApi 管理 API 文档，测试， mock

从零实现MDP：用Python代码拆解马尔可夫决策过程核心算法

数据结构--栈、队列的插入、删除、查找详解

Siemens 6DS1206-8AA电气定位器

避坑指南：51单片机TMOD、TCON定时器配置那些容易踩的坑

从理论到实践：基于MATLAB的TCPA与DCPA算法实现与避碰应用

GO并发的runtime.Gosched 有什么用（结论：没卵用了）

15.5k Star项目的作者，连个申诉入口都找不到

HPH构造一看就懂！核心部件和工作原理