谷歌开源 Gemma 4,31B 太强了,本地就能跑多模态,部署全攻略来了

张开发
2026/4/16 16:03:37 15 分钟阅读

分享文章

谷歌开源 Gemma 4,31B 太强了,本地就能跑多模态,部署全攻略来了
4月初谷歌 DeepMind 悄悄把 Gemma 4 系列模型挂上了 HuggingFace没有大张旗鼓但社区反应很快——有人拉了一晚上的权重有人直接开测有人说这是今年到目前开源模型里最值得跑一遍的东西。这篇文章把这几天能找到的测试数据和部署方法整理了一下给有兴趣自己跑跑看的朋友参考。满血版完整部署下载https://pan.quark.cn/s/e0c65aed4367Gemma-4-31B 是什么Gemma 是谷歌的开源模型系列和他们的闭源旗舰 Gemini 共享底层技术权重完全公开任何人可以下载、修改、部署。这次 Gemma 4 一共发布了四个版本E2B、E4B、26B 和 31B覆盖了手机到工作站全场景。其中 Gemma-4-31B-it 是这次的旗舰版本it 的意思是 instruction-tuned指令微调版也就是可以直接对话使用的版本不是需要额外训练才能用的 base 模型。这次有一个变化很多人注意到了许可证从之前谷歌私有协议换成了 Apache 2.0。这个改动的实际意义是你现在可以拿这个模型做商业产品、做二次分发基本没有什么限制。之前 Gemma 3 的协议让不少开发者搁置了相关项目现在这个问题解决了。31B 版本有什么特点数学推理和代码能力的变化在 AIME 2026美国数学邀请赛题目上31B 拿到了 89.2%而上一代 Gemma 3 27B 是 20.8%。代码方面LiveCodeBench v6 从 29.1% 涨到了 80.0%Codeforces ELO 从 110 拉到 2150。有 B 站 UP 主测了一整天他的评价是“这不是版本更新是换了个物种。”上下文窗口31B 支持 256K token 的上下文上一代 Gemma 3 虽然也号称 128K但实测在长文档检索上表现一般。这次 31B 在多段文字检索测试multi-needle retrieval上从 13.5% 涨到了 66.4%说明长上下文真的能用了不只是标注在规格里的数字。多模态31B 支持图像和视频输入最长 60 秒1fps 采样视觉理解在 MMMU Pro 上达到 76.9%。有人拿了一张网页截图让模型找按钮位置返回的是 JSON 格式的边界框坐标31B 定位最准。思考模式四款模型都有内置的可开关思考模式开启后模型先输出内部推理再给答案。数学、逻辑、多步骤规划类任务效果提升明显这个能力和 Gemini 的 thinking 功能同源。Agent 工具调用原生支持函数调用和结构化 JSON 输出可以让模型调用外部工具和 API。有人测了多模态函数调用给一张曼谷寺庙的照片问这是哪个城市帮我查一下当地天气模型正确识别出曼谷并自动调用 get_weather 工具。这个能力是训练阶段内置的不是靠提示词的。语言支持原生训练支持 140 多种语言中文日常使用没有问题。需要什么硬件才能跑这是很多人最关心的问题。官方文档和 Unsloth 的部署说明里都有硬件需求表。下面是 4-bit 量化后的参考版本4-bit 量化显存需求适合设备E2B约 5GB手机、树莓派E4B约 6GB笔记本独显、Jetson26B MoE约 18GB24G 显卡工作站、Mac31B Dense约 20GBRTX 4090、H100、M 系列 Mac31B 满血 bfloat16 权重大概 60G全精度跑需要 90G 显存适合多卡服务器。消费级显卡上要跑量化版本。有人在 Linux.do 论坛发帖说用 vLLM 部署全精度 google/gemma-4-31B-it大约要下载 60G 文件加载模型参数大约需要 58G 显存90G 显存勉强够 20 万上下文。量化后性能损失方面CSDN 上有人测了31B 用 GGUF Q4_K_M 量化后MMLU 下降约 1.5-2 个百分点日常问答感知不明显。Mac 用户Ollama 大版本更新后在 Apple Silicon 上使用苹果自家的 MLX 框架推理速度有明显提升。24GB 统一内存的 M 系列 Mac 可以跑 26B MoE 版本更大内存配置可以跑 31B。和同类模型对比目前在这个参数级别主要竞争对手是 Qwen3.5 27B 和 Llama 4 Scout。Arena AI 开源排行榜Gemma 4 31B 目前排第三26B MoE 排第六。Qwen3.5 27B 和 Gemma 4 31B 基本持平人类偏好评分上两者体验接近。跑分对比主要 benchmark指标Gemma 4 31BQwen3.5 27BLlama 4 ScoutMMLU Pro85.2%86.1%偏低AIME 2026 数学89.2%——GPQA Diamond84.3%85.5%—MMMU Pro 视觉76.9%——LiveCodeBench80.0%——Qwen3.5 27B 在 MMLU Pro 和 GPQA Diamond 上略高Gemma 4 31B 在数学和视觉上领先整体相差不大。推理速度根据社区测试RTX 4090 上 Q4 量化Qwen3.5 27B约 35 tok/s速度最快Gemma 4 31B Dense约 25 tok/sGemma 4 26B MoE约 11 tok/sMoE 路由开销导致比预期慢上下文实际可用长度理论上 Gemma 4 31B 有 256K但社区反馈单张 RTX 5090 上实际只能放约 20K context token剩余显存被模型权重占满了。Qwen3.5 27B 在同样硬件上可以跑到 190K。如果工作流程需要长上下文这个差距要考虑进去。许可证Gemma 4 和 Qwen3.5 都是 Apache 2.0商用没有限制。Llama 4 月活用户超过 7 亿后有限制还要求标注Built with Llama。对要做商业产品的人来说前两个更合适。Llama 4 Scout总参数 109B最低也要 70GB 显存个人用户基本跑不起来不在同一个使用场景里。Ollama 本地部署教程推荐新手Ollama 是运行本地模型最简单的工具模型下载、推理引擎、API 服务一个 App 搞定。第一步安装 Ollama打开 https://ollama.com/download下载对应系统的安装包。Windows、Mac、Linux 都有。安装完成后在终端输入检查是否正常ollama--version注意使用 Gemma 4 需要 Ollama 0.20.0 或以上版本老版本不支持记得先更新。第二步拉取模型根据自己的显存选择版本在终端运行# 手机 / 低配笔记本约 5GBollama pull gemma4:e2b# 笔记本独显推荐约 9.6GBollama pull gemma4:e4b# 24G 显卡或 Mac性价比版本约 18GBollama pull gemma4:26b# RTX 4090 / M 系列 Mac满血版约 20GBollama pull gemma4:31b下载速度取决于网络31B 大约 20GB国内网络可能需要挂代理或使用镜像。备用下载地址第三步运行模型ollama run gemma4:31b运行后直接在终端对话或者 Ollama 会在本地开一个 API 服务默认 http://localhost:11434可以接入其他工具使用。第四步接入可视化界面可选Ollama 本身是命令行工具如果想要网页界面可以安装 Open WebUIdockerrun-d-p3000:80 --add-hosthost.docker.internal:host-gateway\-vopen-webui:/app/backend/data\--nameopen-webui ghcr.io/open-webui/open-webui:main安装好后访问 http://localhost:3000在设置里把模型后端指向 Ollamahttp://localhost:11434就可以在网页上选 Gemma 4 使用了。llama.cpp 部署教程进阶适合 CPU 推理或定制需求Unsloth 提供了优化过的 GGUF 量化版本llama.cpp 支持 CPU 推理显卡不够强的机器也能跑只是速度慢一些。第一步编译 llama.cppgitclone https://github.com/ggml-org/llama.cppcdllama.cpp cmake-Bbuild-DGGML_CUDAON# 有 NVIDIA 显卡开这个# 如果没有显卡或用 Mac改为 -DGGML_CUDAOFFcmake--buildbuild--configRelease -j$(nproc)第二步下载模型用 huggingface-cli 下载 Unsloth 的 GGUF 量化版本pipinstallhuggingface_hub --break-system-packages huggingface-cli download unsloth/gemma-4-31B-it-GGUF\--local-dir ./gemma4-31b\--include*UD-Q4_K_XL*Q4_K_XL 是推荐的量化级别精度和文件大小平衡较好。对精度要求高的场景可以选 Q6 或 Q8。第三步运行exportLLAMA_CACHEunsloth/gemma-4-31B-it-GGUF./build/bin/llama-cli\-hfunsloth/gemma-4-31B-it-GGUF:UD-Q4_K_XL\--temp1.0\--top-p0.95\--top-k64注意不要开 repetition penalty重复惩罚保持默认 1.0谷歌官方推荐这个配置否则可能影响输出质量。vLLM 部署教程全精度 / 服务器场景适合有高显存显卡或多卡服务器想跑全精度版本或作为 API 服务的场景。安装需要从 GitHub 源码构建目前 pypi 版本还没更新gitclone https://github.com/vllm-project/vllmcdvllm pipinstall-e.--break-system-packages运行服务CUDA_VISIBLE_DEVICES0vllm servegoogle/gemma-4-31B-it\--host127.0.0.1\--port8000\--max-model-len200000\--gpu-memory-utilization0.95\--reasoning-parser gemma4\--enable-auto-tool-choice\--tool-call-parser gemma4\--default-chat-template-kwargs{enable_thinking: true}启动后可以用标准 OpenAI 格式的 API 接入端点是 http://127.0.0.1:8000/v1。实际用来做什么根据这几天社区的讨论比较实际的用法本地代码助手接入 VS Code 的 Continue 插件或 Cursor代码补全和解释都可以走本地不用担心代码泄露给云端。Codeforces ELO 2150 的编程能力处理日常业务代码够用。文档分析256K 上下文量化版实际可用 20K 取决于显存放进去一份合同或报告让模型提取关键信息不需要联网。内容创作辅助多语言支持加上长上下文可以做翻译、改写、总结这类工作跑在本地没有 API 费用。Agent 自动化原生函数调用支持可以搭配工具链做一些自动化流程比如读文件、调接口、整理结果。

更多文章