【AI大语言模型基础(0)】

张开发
2026/4/20 1:27:28 15 分钟阅读

分享文章

【AI大语言模型基础(0)】
Transformer架构大语言模型不会思考而是猜字大语言模型的“思考”和人类是不一样的大语言模型是概率选择一般有三个参数Temperature冒险程度参数越高AI选择低概率的可能性越高但输出也越不靠谱Top-K(Top-K采样)K保留只可能输出前K个选择按可能性从高到低排序Top-P(核心采样)P门槛概率达到P的才能被可能被输出为了理解自然语言AI接收Token选择了拆字的方法才处理自然语言把英语单词拆分成各个部分比如abandon大模型接收后会拆分成abandon三个token这些token分别有一个数字编号大模型看到的就是这些数字编号这些编号还需要被分配坐标分配坐标的过程叫Embedding词嵌入分配坐标后在数学中的向量就能对这些token进行描述但大多时候token会是一个高维向量有多高呢可能是1万维以上。通过向量的加减法点乘叉乘等计算大模型就能对词义进行理解比如纸质书-木头文字。Attention注意力机制AI并不理解文字但AI会猜字猜字的时候需要根据上下文对这个要输出的字进行推理这就是注意力机制AI要对每个token进行回顾每个token对要输出的字有贡献度注意力权重比如“是关中王刘邦来了”只是举个例子可能并不准确AI不理解关中王也不理解刘邦但是当关中王出现时接下来输出刘邦概率就会很高而“是”这个字对刘邦输出的贡献度就很低。这个过程有一个有三个工具QKV,Q Query 查询我现在要猜的字K Key 键上文所有字V Value 值上文字的实际信息 / 内容通过这三者进行注意力打分得到一个输出。预训练通过各种句子的猜字来提高大模型的正确率实现大模型输出从乱码到完整流畅正确的句子的过程。但这还不够模型只是能输出句子还不能实现对话功能需要人类对模型的输出做一个反馈即标注员标注员会告诉AI哪一个输出更好从而让AI会对话。Function calling为了让AI不只是与人类对话还要帮人类做事。Fc(Function calling)给AI装了一些功能给予AI使用某些工具的权限让AI能查天气发微信买东西等。而Agent呢则是更进一步Fc是你仍要告诉ai查天气Agent可以做到你给它一个命令他将会想出这件事要怎么完成然后一步步去完成。Skill就是技能给AI装越多的SkillAI就能做越多的事。RAG是为了在训练AI之后再继续给AI加入知识AI训练之后就定型了出了新的新闻AI也不知道AI就需要RAG来现查这个新出的新闻。

更多文章