Ollama 模型 + VS Code:私有化部署 Copilot 使用教程

张开发
2026/4/16 8:45:32 15 分钟阅读

分享文章

Ollama 模型 + VS Code:私有化部署 Copilot 使用教程
Ollama 模型 VS Code私有化部署 Copilot 使用教程在vscode中copilot可以提高我们的工作效率但是github copilot每个月的使用有限制。购买价格较贵那有没有什么其他的方法可以使用copilot呢有一个利用ollama私有化部署模型并在vscode中辅助编程的方法。Ollama 是一款开源、轻量且高效的本地AI模型运行工具支持一键部署 Llama 3、Qwen2.5、DeepSeek、Mistral 等上百款主流大语言模型无需复杂配置普通电脑也能轻松运行本地AI。本教程将详细讲解 Ollama 的全平台安装、AI模型部署并手把手教你在 VS Code 中集成使用实现代码辅助、问答交互等功能全程实操无冗余新手也能快速上手。一、教程前置准备1. 硬件要求关键Ollama 对硬件的要求主要取决于部署的模型大小核心是内存和显卡无独立显卡也可使用CPU运行轻量模型推荐配置如下可根据模型选择灵活调整轻量模型如 Qwen2.5:7B、Phi3:mini内存 ≥ 8GBCPU 支持虚拟化大部分现代CPU都满足无需独立显卡适合日常办公本。标准模型如 Qwen2.5:14B、Llama3.2:8B内存 ≥ 16GB推荐 NVIDIA 独立显卡支持CUDA加速显存 ≥ 6GB运行更流畅。高性能模型如 Llama3.1:70B内存 ≥ 32GBNVIDIA 独立显卡显存 ≥ 24GB适合专业开发或高性能设备。2. 软件要求操作系统Windows 10/11、macOSIntel/M系列芯片、LinuxUbuntu 20.04 优先如你之前使用的Ubuntu系统。VS Code最新版本下载地址https://code.visualstudio.com/确保能正常安装扩展。网络环境部署模型时需要联网下载模型文件建议稳定网络模型大小从几百MB到几十GB不等国内用户建议配置镜像加速。二、Ollama 安装全平台教程Ollama 支持全平台一键安装不同系统操作略有差异以下是详细步骤选择对应系统操作即可。1. Linux 系统以Ubuntu为例你当前使用的系统Ubuntu 系统推荐两种安装方式一键脚本安装便捷手动安装适合国内网络较慢的情况任选其一即可。方式一一键脚本安装推荐网络良好时打开终端CtrlAltT输入以下命令一键下载并安装 Ollamacurl -fsSL https://ollama.com/install.sh | sh安装完成后验证是否成功输入命令ollama --version若输出类似“ollama version is 0.12.0”的信息说明安装成功。方式二手动安装国内网络较慢时下载 Ollama 压缩包wget https://github.com/ollama/ollama/releases/latest/download/ollama-linux-amd64.tgz解压压缩包到 /usr 目录sudo tar -C /usr -xzf ollama-linux-amd64.tgz创建 Ollama 启动服务编辑服务配置文件sudo vim /etc/systemd/system/ollama.service在文件中输入以下内容注意替换 User 和 Group 为你的当前用户名如 ubuntu等配置信息[Unit] DescriptionOllama Service Afternetwork-online.target [Service] ExecStart/usr/bin/ollama serve Userubuntu Groupubuntu Restartalways RestartSec3 EnvironmentOLLAMA_HOST0.0.0.0:11434 [Install] WantedBymulti-user.target加载配置并启动服务sudo systemctl daemon-reload sudo systemctl enable ollama sudo systemctl start ollama查看服务状态确认启动成功sudo systemctl status ollama出现“active (running)”即为启动成功。ollama默认服务地址为服务器端口号的11434三、Ollama 部署 AI 模型核心步骤Ollama 部署模型极其简单一行命令即可完成模型下载和启动无需额外配置。下载并部署 AI 模型Ollama 支持上百款模型可访问 Ollama 官方模型库 查看所有模型以下推荐几款常用中文模型按需选择模型名称区分大小写模型名称说明显存占用参考下载命令qwen2.5:72b-instruct中文代码长上下文能力出色适配聊天、复杂代码辅助等场景私有化部署核心模型~36GB72B参数需高性能设备ollama pull qwen2.5:72b-instructcodellama:70b-code-q4_K_M代码补全模型仅适合代码补全不适合聊天适配 VS Code 代码自动补全场景~35GB70B参数代码专项优化需高性能设备ollama pull codellama:70b-code-q4_K_Mdeepseek-coder:33b“综合代码强速度快”的模型兼顾代码辅助与响应速度适合日常开发代码调试、生成~16.5GB33B参数平衡性能与速度需高性能设备ollama pull deepseek-coder:33bllama3:8b-instruct-q4_0“轻量快速”的模型适合日常提问、轻量化代码辅助低配置设备也可流畅运行~5GB8B参数轻量高效ollama pull llama3:8b-instruct-q4_0部署步骤以 llama3:8b-instruct-q4_0 为例打开终端Linux/macOS或 PowerShellWindows输入下载命令ollama pull llama3:8b-instruct-q4_0下载速度取决于网络耐心等待4.5GB 模型正常网络约10-20分钟。下载完成后启动模型进入交互模式ollama run llama3:8b-instruct-q4_0启动成功后终端会出现提示符此时可直接与模型对话如输入“帮我写一段Python快排代码”输入/bye可退出交互模式。4. 常用 Ollama 命令必备ollama --version # 查看 Ollama 版本 ollama list # 查看已安装的所有模型 ollama run 模型名 # 启动模型进入交互模式 ollama pull 模型名 # 下载模型 ollama rm 模型名 # 删除不需要的模型 ollama prune # 清理未使用的模型谨慎操作 ollama show 模型名 --modelfile # 查看模型详细信息四、VS Code 集成 Ollama核心操作使用 VS Code 插件“Continue”集成 Ollama步骤简单适配所有 Ollama 版本且功能更丰富适合日常开发。步骤1安装 Continue 插件搜索并安装插件continue安装完成后重启 VS Code左侧边栏会出现“Continue”图标说明插件安装成功。步骤2配置 Continue 插件连接 Ollama点击 VS Code 左侧边栏的“Continue”图标弹出插件窗口。新建一个配置文件点击配置按钮在配置文件中配置信息后即可在continue插件中进行对话your-ip填写你的ip地址# This is an example configuration file # To learn more, see the full config.yaml reference: https://docs.continue.dev/reference name: 我的代码大模型配置 version: 1.0.0 schema: v1 enableStreaming: true models: # 你最强的模型中文代码长上下文不乱说 - name: Qwen2.5 72B Instruct provider: ollama model: qwen2.5:72b-instruct apiBase: http://your-ip:11434 # 顶级代码补全模型只适合补全代码不适合聊天 - name: CodeLlama 70B provider: ollama model: codellama:70b-code-q4_K_M apiBase: http://your-ip:11434 # 综合代码强速度快 - name: DeepSeek 33B provider: ollama model: deepseek-coder:33b apiBase: http://your-ip:11434 # 轻量快速日常提问 - name: Llama3 8B provider: ollama model: llama3:8b-instruct-q4_0 apiBase: http://your-ip:11434 mcpServers: - uses: anthropic/memory-mcp步骤3验证连接是否成功连接完成后在 Continue 插件的聊天框中输入问题如“帮我解释一下Python的装饰器”点击发送若模型能正常返回回复说明连接成功可正常使用。五、VS Code 中使用 Ollama 的核心场景实操集成完成后Ollama 可全程在 VS Code 中使用无需切换终端核心场景如下覆盖日常开发需求1. 代码辅助最常用代码生成在 Continue 聊天框输入需求如“写一段Python读取Excel文件的代码使用pandas库”模型会生成完整代码并附带注释。代码调试将报错的代码复制到聊天框输入“帮我调试这段代码解决报错问题”模型会定位错误并给出修改方案。代码优化复制已写好的代码输入“优化这段代码提升运行效率”模型会对代码进行重构、简化。2. 交互式问答在 Continue 聊天框中可直接与模型对话比如技术问题“Docker 数据卷和绑定挂载的区别是什么”语法查询“JavaScript 中 async/await 的使用场景和注意事项”文档解读“帮我解读这段JSON配置文件的含义”模型会结合上下文给出简洁、准确的回答无需切换浏览器搜索。3. 快捷操作提升效率快捷键唤醒按 CtrlIWindows/Linux或 CmdImacOS可快速调出 Continue 聊天框无需点击侧边栏。代码应用模型生成代码后点击代码下方的“Apply Code”应用代码可直接将代码插入到当前打开的文件中无需复制粘贴。六、常见问题排查避坑指南操作过程中可能会遇到一些小问题以下是高频问题及解决方案帮你快速排查1. 问题1Ollama 服务启动失败提示“Error: ollama server not responding”解决方案确认已执行ollama serve启动服务且终端未关闭前台启动方式。检查端口 11434 是否被占用Linux/macOS输入lsof -i :11434查看占用进程杀死占用进程kill -9 进程ID。Windows输入netstat -ano | findstr :11434找到进程ID在任务管理器中结束该进程。重启 Ollama 服务重新执行ollama serve。2. 问题2模型下载缓慢或下载失败解决方案重新配置国内镜像确保OLLAMA_MODEL_SERVER环境变量设置正确重启终端后再尝试下载。若镜像仍无法解决更换网络如手机热点或使用手动下载模型包参考 Linux 手动安装步骤。3. 问题3VS Code 插件无法连接 Ollama提示“连接失败”解决方案确认 Ollama 服务已启动且能通过curl http://localhost:11434/api/tags正常访问。检查 VS Code 插件配置确保选择的模型名称与已安装的模型一致区分大小写如 qwen2.5:7b 不能写成 Qwen2.5:7b。重启 VS Code 和 Ollama 服务重新配置插件连接。4. 问题4运行模型时提示“out of memory”内存不足解决方案更换更小的模型如将 qwen2.5:7b 换成 phi3:mini降低内存占用。关闭终端中其他占用内存的进程释放内存。若有独立显卡确保已安装对应驱动NVIDIA 显卡安装 CUDAAMD 显卡安装 ROCm启用 GPU 加速减少内存占用。七、总结本教程完整覆盖了 Ollama 的全平台安装、AI 模型部署以及 VS Code 的集成方式核心优势的是“简单、轻量、无门槛”——无需复杂的环境配置一行命令部署模型VS Code 集成后可直接在开发环境中使用本地 AI实现代码辅助、交互式问答等功能既保护数据隐私本地运行无需联网上传数据又能提升开发效率。后续可根据自己的硬件配置尝试不同的模型也可以通过 Ollama 的 API 接口将本地模型集成到其他开发工具中拓展更多使用场景。如果遇到其他未提及的问题可参考 Ollama 官方文档https://github.com/ollama/ollama或留言咨询。

更多文章