LLM大模型认识

张开发
2026/4/15 9:42:52 15 分钟阅读

分享文章

LLM大模型认识
1 . 大模型原理通过上一节AI基础认知的分析我们知道AI产生智能的三要素分别是算法、数据、算力。本质来说AI的智能还是基于各种数学计算产生的。那么问题来了现在的AI是如何通过训练理解人类语言的呢语言是如何计算和训练的呢1.1 模型的训练前面我们说过AI的神经网络模型就是在模仿人类的神经元你给它输入一些参数最终它经过计算返回一个结果。因此从某种意义上你可以把模型看做是一个函数。这就类似y ax b这个函数有两个参数a和b当a和b确定时这个函数就能表示一条直线。输入一个x一定能得到一个结果y当然模型这个“函数”要复杂的多其参数不是两个而是可能达到千亿规模因此它表示的不是一条直线而是表示人类复杂的语言系统。模型训练的过程就是求模型参数的过程类似于求解函数参数。已知直线上两个点的坐标就能求出这条直线对应的a和b的值。不过大模型这个“函数”要复杂的多其参数规模高达数千亿模拟的也不是一条直线它需要的“点”也是天文数字因此根本就不可能精确计算出每一个参数的值。所以模型的训练更像是在猜答案先给模型参数设定为随机值然后输入一个参数再把模型计算的结果与预期的正确结果做对比如果不对就调整参数直到正确为止这里的输入参数和预期结果就是所谓的训练数据平面上的“点”。不断的给模型提供新的训练数据根据计算结果不断调整模型的参数直到模型的计算能够与大多数的训练数据吻合那么模型的训练就完成了。大语言模型的训练就是拿海量的人类语言文字作为训练数据不断调整模型参数使其与人类的语言文字系统拟合。但问题来了人类的语言文字是如何参与数学运算的呢1.2 大语言模型在2003年图灵奖得主约书亚·本吉奥Yoshua Bengio的一篇名为《A neural probabilistic language model》的论文开创了神经网络语言模型Neural Network Language ModelNNLM的先河。这篇文章中首次提到了词向量Word Embedding的概念雏形这为神经网络训练学习自然语言打下了坚实的基础。每个词语都可以经过模型运算转化为一个多维向量也就是一个浮点数数组GPT3采用12288维向量通过训练使模型计算出的多维向量与文字语义产生关联使多维空间中的不同方向表示不同语义例如在经过训练后的向量空间中有两个向量中国、美国此时我们用E(美国) - E(中国) 得到的新向量就可以表示为美国与中国的差异。假如此时我询问LLM在中国有什么食物与美国的汉堡类似我们就可以这么做先找到表示汉堡的向量E(汉堡)然后加上表示两个国家差异的向量:E(美国) - E(中国)从而计算出一个新向量E(汉堡) E(美国) - E(中国)最后将得到的向量反向量化unembedding大概率就是我们要的结果当然真实情况会比这个复杂的多受到语句上下文的影响和多义词的影响运算可能得到不止一个结果并且会根据可能性形成每一个结果的概率分布然后通过某种函数算法选择一个最终结果。综上大语言模型就是把人类语言转为可以计算的多维向量坐标然后根据上文向量计算来推测下文。就像这样更神奇的是人类一开始训练语言模型只是为了让它理解人类语言起到翻译作用。但当模型和数据规模足够大时它不仅能够理解和生成自然语言还能理解、推理、分析人类生活中的大部分问题成为了可应用于各个领域的通用人工智能AGI这种因为数据和模型规模扩大而涌现出各种能力的现象我们称之为泛化。而这样的大规模语言模型我们就称为大语言模型Large Language Model简称LLM.如果大家想要进一步搞清楚大模型原理可以参考以下两个视频2. 大模型应用什么是大模型应用呢它与大模型有什么关系呢2.1 什么是大模型应用别着急我们从传统应用与大模型各种的能力边界来分析传统应用是由程序员告诉计算机规则编程计算机照着规则执行。擅长规则清楚、流程固定的事情可以确保100%准确行为可控、可追溯不擅长没有明确规则的事情自然语言的理解模糊的判断和表达大模型计算机通过大量数据训练自己学会规律和知识擅长理解和生成自然语言模糊问题的合理回答总结、改写、对话、创作不擅长准确的计算固定的流程和规则稳定可预测的结果而大模型应用则是把两者的能力结合大模型负责“思考”传统程序负责“行动”。例如点外卖的功能我们可以这样划分菜价、优惠、支付 →传统程序“给我推荐点清淡的” →大模型最终下单、扣钱 →传统程序在传统应用开发中介入AI大模型充分利用两者的优势。既能利用AI实现更加便捷的人机交互更好的理解用户意图又能利用传统编程保证安全性和准确性强强联合这就是大模型应用开发的真谛综上所述大模型应用就是整合传统程序和大模型的能力和优势来开发的一种应用。另外我们熟知的AI对话产品比如通义千问、豆包这样的APP或者聊天机器人也都属于大模型应用收集网页用户输入文本、上传的文件、图片 →传统程序分析和理解用户输入的问题 →大模型联网搜索与问题相关的资料 →传统程序根据资料生成答案 →大模型模型本身只具备理解、推理、生成回复的能力。我们平常使用的AI对话产品除了生成和推理还有会话记忆功能、联网功能等等。这些都是大模型不具备的。是需要通过额外的程序来实现的也就是基于大模型开发应用。所以我们现在接触的AI对话产品其实都是基于大模型开发的应用并不是大模型本身这一点大家千万要区分清楚。2.2 常见的大模型下面我把常见的一些大模型对话产品及其模型的关系给大家罗列一下大模型对话产品公司地址GPT-3.5、GPT-4oChatGPTOpenAIhttps://chatgpt.com/Claude 3.5Claude AIAnthropichttps://claude.ai/chatsDeepSeek-R1DeepSeek深度求索https://www.deepseek.com/文心大模型3.5文心一言百度https://yiyan.baidu.com/星火3.5讯飞星火科大讯飞https://xinghuo.xfyun.cn/deskQwen-Max通义千问阿里巴巴https://tongyi.aliyun.com/qianwen/MoonshootKimi月之暗面https://kimi.moonshot.cn/Yi-Large零一万物零一万物https://platform.lingyiwanwu.com/OK现在我们知道了大模型应用就是把传统程序与大模型结合的应用。2.3 与大模型的交互那么问题来了传统程序该如何与大模型交互呢答案是调用接口。大模型在部署时通常都会对外暴露基于HTTP协议的API接口我们可以用任何自己喜欢的方式调用该接口实现与大模型的交互当然首先我们需要有一个可以调用的大模型服务。3. 大模型服务前面说过大模型应用开发并不是在浏览器中跟AI聊天。而是通过访问模型对外暴露的API接口实现与大模型的交互。因此企业开发大模型应用首先需要有一个可访问的大模型通常有两种选择使用开放大模型部署私有大模型使用开放大模型API的优缺点如下优点没有部署和维护成本按调用收费缺点依赖平台方稳定性差长期使用成本较高数据存储在第三方有隐私和安全问题部署私有模型优点数据完全自主掌控安全性高不依赖外部环境虽然短期投入大但长期来看成本会更低缺点初期部署成本高维护困难接下来我们给大家演示下两种部署方式公共大模型私有大模型在本机演示将来在服务器也是类似的通常发布大模型的官方、大多数的云平台都会提供开放的、公共的大模型服务。大模型官方前面讲过我们不再赘述这里我们看一些国内提供大模型服务的云平台云平台公司地址DeepSeekDeepSeekhttps://www.deepseek.com阿里百炼阿里巴巴https://bailian.console.aliyun.com腾讯TI平台腾讯https://cloud.tencent.com/product/ti千帆平台百度https://console.bce.baidu.com/qianfan/overviewSiliconCloud硅基流动https://siliconflow.cn/zh-cn/siliconcloud火山方舟-火山引擎字节跳动https://www.volcengine.com/product/ark这些开放平台并不是免费而是按照调用时消耗的token来付费每百万token通常在几毛~几元钱而且平台通常都会赠送新用户百万token的免费使用权。token可以简单理解成你与大模型交互时发送和响应的文字通常一个汉字2个token左右接下来我们分别讲解DeepSeek和阿里巴巴的百炼平台。3.1 DeepSeek模型服务官方平台地址3.1.1 注册首次访问必须注册3.1.2 充值DeepSeek官方对外提供的大模型API服务是需要收费的因此我们必须注册账号充值少量金额1元也行。注册成功后即可进入平台管理页面点击充值选项进入充值页面选择合适的价格充值后即可使用DeepSeek的官方API服务。3.1.3 创建API_KEY由于是收费服务为了防止别人盗用你的账号DeepSeek的所有API都有权限校验功能。我们需要创建一个鉴权用的API_KEY可以。点击API Keys选项卡进入对应页面。第一次进入应该没有API key可以点击创建API key:注意API key只有在创建时可以查看以后都无法查看了。所以需要在创建时妥善保管自己的API keyOK准备工作完成。3.1.4 API文档访问公共大模型都是通过API的形式不同模型的API标准略有差异但基本都兼容OpenAI规范。接下来我们一起学习DeepSeek的官方API文档。地址如下可以看到在文档中有这样一段调用对话的API示例这段信息就描述了调用DeepSeek大模型的API要求请求URLhttps://api.deepseek.com/chat/completions请求头Content-Type: application/json请求参数的格式必须是application/jsonAuthorization: Bearer DeepSeek API Key上一节创建的API_KEY请求体json格式稍后解释请求方式虽然没说但是由于带请求体所以这里用POST方式3.1.5 测试我们可以使用任意的Http客户端来测试API注意需要在请求头中添加刚刚我们注册时准备的API_KEY3.2 阿里巴巴百炼模型服务我们以阿里云百炼平台为例。3.2.1 注册账号首先我们需要注册一个阿里云账号注意账号需要进行个人实名认证否则后续会有警告~然后访问百炼平台开通服务首次访问会弹出窗口询问是否同意开通百炼服务点击确认开通后如果未进行实名认证会提醒账户异常点击去认证申请个人认证即可此处略过。首次开通应该会赠送百万token的使用权包括DeepSeek-R1模型、qwen模型等等有效期是3~9个月不等。大家可以在《模型控制台》- 《模型用量》查看到你的免费额度使用情况由于阿里巴巴免费赠送了额度所以我们就跳过充值的过程了。3.2.2 申请API_KEY注册账号以后还需要申请一个API_KEY才能访问百炼平台的大模型。注册成功后进入阿里云百炼首页点击模型在阿里云百炼平台的左侧菜单的最下方有一个《密钥管理》选项点击后进入《密钥管理》页面点击创建API-KEY选择创建API-KEY后会弹出表单只有一个选项勾选后点击确定即可点击确定即可生成一个新的API-KEY后续开发中就需要用到这个API-KEY了一定要记牢。而且要保密不能告诉别人。3.2.3 体验模型访问百炼平台点击模型即可进入模型广场3.2.4 API文档点击API参考即可进入API文档页面3.2.5 测试我们使用Http客户端来调试不要忘了设置API_KEY3.3 本地部署很多云平台都提供了一键部署大模型的功能这里不再赘述。我们重点讲讲如何手动部署大模型。手动部署最简单的方式就是使用Ollama这是一个帮助你部署和运行大模型的工具。官网如下3.3.1 下载安装ollama首先我们需要下载一个Ollama的客户端在官网提供了各种不同版本的Ollama大家可以根据自己的需要下载。下载后双击就会弹出安装界面注意Ollama默认安装目录是C盘的用户目录如果不希望安装在C盘的话其实C盘如果足够大放C盘也没事就不能直接双击安装了。需要通过命令行安装。命令行安装方式如下在OllamaSetup.exe所在目录打开cmd命令行然后命令如下运行命令后同样会弹出刚才的安装窗口但是安装的位置已经是你设定的位置了。点击Install即可安装可以看到安装目录是自定义的D盘而不是C盘OK安装完成后还需要配置一个环境变量更改Ollama下载和部署模型的位置。环境变量如下环境变量配置方式相信学过Java的都知道这里不再赘述配置完成如图3.3.2 搜索模型ollama是一个模型管理工具和平台它提供了很多国内外常见的模型我们可以在其官网上搜索自己需要的模型3.3.3 运行模型选择自己合适的模型后ollama会给出运行模型的命令复制这个命令然后打开一个cmd命令行运行命令即可然后你就可以跟本地模型聊天了注意首次运行命令需要下载模型根据模型大小不同下载时长在5分钟~1小时不等请耐心等待下载完成。ollama控制台是一个封装好的AI对话产品与ChatGPT类似具备会话记忆功能。ollama也提供了供程序访问的HTTP接口默认地址是http://127.0.0.1:11434/api/chat

更多文章