[具身智能-314]：大语言模型处理文本的全过程

张开发

• 2026/6/19 16:31:28 • 15 分钟阅读

分享文章

大语言模型LLM处理文本的全过程可以形象地理解为一个“先并行读懂输入再逐个生成输出”的两阶段过程。整个过程从你按下回车键开始到屏幕上逐字浮现出回答主要经历以下六个核心阶段第一阶段输入与预处理当你输入一段文字Prompt比如“你好请介绍一下大模型”模型并不能直接理解这些汉字。它需要先将文本转换成自己能处理的数字形式。分词 (Tokenization)模型会利用一个预定义的“词表”将你的输入文本切割成更小的单元这些单元被称为Token。一个 Token 可以是一个字、一个词甚至是一个词的一部分。例如“你好请介绍一下大模型”可能被切分为[你好, , 请, 介绍, 一下, 大, 模型]。转换为ID (Token to ID)分词后模型会通过查表将每个 Token 映射成一个唯一的整数编号即Token ID。例如你好 → 177519, → 11,大 → 1640。此时你的文本已经变成了一串纯数字序列Token ID序列[177519, 11, 1640, ...]。第二阶段理解与编码 (Prefill)这一阶段是模型“思考”和“理解”你的问题的过程在工程上被称为预填充 (Prefill)。向量化 (Embedding)模型将上一步得到的Token ID 序列转换成高维的向量一长串数字。这个向量是词语的数学表示语义相近的词如“猫”和“狗”其向量在数学空间中的距离也会很近。同时模型还会加入位置编码让它知道每个词在句子中的先后顺序。核心计算 (Transformer Self-Attention)这些向量被送入模型的核心——由数十甚至上百层Transformer模块堆叠而成的深度神经网络。在这里自注意力机制 (Self-Attention) 开始工作。作用它让模型能够分析输入文本中所有词之间的关系理解上下文。例如当模型看到“它”这个词时能通过注意力机制判断出“它”指的是前文的“大模型”而不是“介绍”。结果经过层层计算模型完全理解了你的问题并将所有关键信息压缩、缓存下来这个过程称为KV Cache为下一步生成回答做好了准备。✍️ 第三阶段生成与输出 (Decode)这是模型开始“回答”你的阶段它是一个循环往复的自回归过程即根据已有的内容预测下一个内容。预测下一个Token (Next Token Prediction)基于已经理解的全部上下文模型会计算词表中所有可能的 Token 作为下一个词的概率。例如模型可能计算出下一个词是“大”的概率是30%是“我”的概率是25%等等。然后它会根据一定的策略如选择概率最高的挑出一个 Token。循环生成 (Autoregressive Generation)模型将刚刚选出的新 Token 添加到已有的序列中然后再次重复第一步的预测过程计算再下一个 Token 的概率。这个过程就像一个接龙游戏模型不断地根据上文预测并生成下一个 Token直到生成一个代表“结束”的特殊 Token或者达到预设的长度限制。这就是为什么你会看到模型的回答是一个字一个字“吐”出来的。解码与后处理 (Decoding Post-processing)在生成每个 Token ID 后模型会通过查表与第1阶段的查表相反将数字 ID 转换回人类可读的文本 Token。例如56568 → 我。最后这些 Token 被拼接起来经过简单的格式优化最终呈现给你。

[具身智能-314]：大语言模型处理文本的全过程

最新文章

拆解RoF-X-X系列：手把手教你配置热插拔与链路冗余，打造高可靠卫星地面站

避坑指南：Mac+VS Code+Anaconda配置PyQt6/PySide6时，Designer和rcc路径到底怎么找？

IoT-MCP框架：大语言模型与物联网的智能交互方案

抖音批量下载助手终极指南：三步自动化采集海量视频素材

AI Agent 时代：如何让AI帮你编写高质量Java接口

实战指南：如何在CIFAR-100-LT上使用LDAM Loss提升长尾分类效果（附代码）

推荐文章

相关文章

分享文章

更多文章

关于入手微磁学仿真软件Mumax3的若干问题及解决方案（第一部分）

Qwen3-ASR-1.7B惊艳效果：戏曲唱段（京剧/越剧）台词精准转写

镜像视界VS 专家：空间计算系统最刁钻10问 + 答案

书匠策AI：毕业论文的“智能导航员”，开启学术写作新纪元！

C++ 入门学习经验 02—— 新手最容易遇到的几个问题以及如何解决

Windows下OpenClaw安装指南：快速对接Qwen3.5-9B-AWQ-4bit模型

科哥二次开发！阿里通义Z-Image-Turbo WebUI保姆级教程：三大标签页功能详解

Qwen3-ASR-1.7B开源可部署：满足GDPR/个人信息保护法合规要求

LangChain + LangGraph：多 Agent 流程的“积木层”与“编排层”全解析，轻松搭建企业级智能系统！

大模型技术全景解析：从ChatGPT到文心一言，你必须知道的AI核心知识！

CAM++说话人识别系统入门指南：从部署到验证，手把手教学

ATmega32U4智能手表固件：资源受限嵌入式系统设计实践