大模型微调

张开发
2026/4/18 23:48:10 15 分钟阅读

分享文章

大模型微调
大模型微调为什么要微调预训练的通用大模型虽然知识广博但直接用在专业场景时可能会“水土不服”。微调主要解决以下几个问题成为领域专家让模型理解特定领域的术语和知识。比如通用模型可能分不清中医里的“肝火旺盛”和“肝气郁结”但经过医案数据微调后它就能准确辨析并给出符合逻辑的建议。遵循特定格式让模型的输出格式变得稳定、统一。例如要求模型生成一份必须包含“事故描述、责任认定、赔偿明细、适用条款”四部分的保险理赔报告微调可以极大提升格式遵从率。塑造独特风格让模型学会特定的“品牌声音”。比如一个零售品牌的AI助手需要语气亲切活泼回复简短并带有专属结束语。微调可以将这套风格内化无需在每次提问时都用长 prompt 强调。微调是怎么做的微调的核心是迁移学习。它不是从零开始训练而是加载预训练好的模型权重然后用你的数据继续训练更新模型的参数。根据更新参数的范围主要分为两种策略策略类型简介适用场景全参数微调更新模型的所有参数效果最好但对数据和算力要求高。数据充足、计算资源丰富、对精度要求极高。参数高效微调 (PEFT)只更新一小部分额外参数大部分模型参数保持冻结。代表方法是 LoRA。资源受限环境如消费级显卡目前最主流的方式。什么时候不需要微调微调虽好但不是万能药。在以下情况可能不需要或不适合微调提示词工程Prompt Engineering还能优化如果通过精心设计的提示词和少量示例Few-shot就能达到不错的效果应优先优化提示词。它的迭代速度更快成本几乎为零。知识更新非常频繁如果业务依赖的知识每天都在变如股票行情、最新新闻微调就跟不上了。此时检索增强生成RAG技术是更合适的选择。数据量极少如果只有几十条样本微调很容易导致模型“死记硬背”过拟合效果反而更差。不如直接把这些高质量样本放进提示词里。有哪些微调技术大模型的微调技术主要可以分为两大类传统的全参数微调和当前主流的参数高效微调Parameter-Efficient Fine-Tuning, PEFT。PEFT 技术通过冻结预训练模型的大部分参数仅训练少量新增的参数极大地降低了计算成本和资源需求使得在消费级硬件上微调大模型成为可能。以下是几种主流的微调技术适配器微调 (Adapter Tuning)这种方法像是在一个已经建好的大楼预训练模型里为每个房间如 Transformer 层增加一个小小的、可定制的“适配器”模块。原理在模型的层与层之间插入一些小型的、可训练的神经网络模块即“适配器”同时冻结原始模型的绝大部分参数。训练时只有这些新增的适配器模块的参数会被更新。优点非常节省显存和计算资源并且可以为不同任务训练不同的适配器方便切换。缺点由于增加了额外的网络层可能会轻微增加模型推理时的延迟。前缀/提示微调 (Prefix/Prompt Tuning)这种方法不改变模型结构而是通过给模型“喂”一些可学习的“提示”来引导其行为。原理在输入数据的前面附加上一段或多段可训练的连续向量即“前缀”或“软提示”。这些向量就像是为特定任务定制的指令模型在学习过程中会调整这些向量从而引导其输出符合预期的结果。优点需要训练的参数量极少效率非常高尤其适用于文本生成类任务。缺点性能可能在某些复杂任务上不如其他方法且对初始化的提示向量比较敏感。低秩适应 (LoRA)LoRA (Low-Rank Adaptation) 是目前最流行、应用最广泛的 PEFT 技术因其出色的效率和效果而备受青睐。原理LoRA 的核心思想是模型在适应新任务时其权重的更新量即参数变化具有“低秩”特性。因此它不直接更新庞大的原始权重矩阵而是用两个非常小的低秩矩阵来“模拟”这个更新过程。训练时原始模型参数被冻结只训练这两个小矩阵。优点极低的资源消耗可训练参数量可减少 99% 以上显存占用大幅降低。无推理延迟训练完成后可以将这两个小矩阵的权重合并到原始模型中因此推理速度和原模型完全一样。灵活切换可以为不同任务保存不同的 LoRA 权重文件根据需要随时加载非常灵活。衍生技术QLoRA 在 LoRA 的基础上进一步对预训练模型进行量化如降至 4-bit 精度使得在显存更小的显卡上微调更大规模的模型成为可能。技术类型核心思想优点缺点适配器微调插入小型可训练模块模块化易于管理多个任务可能增加推理延迟前缀/提示微调添加可学习的输入向量参数极少效率高对复杂任务效果可能受限LoRA用低秩矩阵模拟权重更新资源消耗极低无推理延迟灵活需要选择合适的秩rank等超参数如何选择首选 LoRA/QLoRA对于绝大多数场景尤其是资源有限或需要快速实验时LoRA 是最佳选择。它在效果、效率和灵活性之间取得了极好的平衡。考虑适配器微调如果你需要为同一个基座模型快速部署和切换大量不同的下游任务适配器方案会非常方便。尝试前缀微调如果你的任务相对简单且对参数量有极致要求可以优先考虑前缀微调。

更多文章