SmolVLA部署教程:requirements.txt依赖安装与num2words避坑指南

张开发
2026/4/20 10:39:03 15 分钟阅读

分享文章

SmolVLA部署教程:requirements.txt依赖安装与num2words避坑指南
SmolVLA部署教程requirements.txt依赖安装与num2words避坑指南1. 项目概述与环境准备SmolVLA是一个专门为经济实惠的机器人技术设计的紧凑型视觉-语言-动作模型。这个模型只有约5亿参数却能在保持高效性能的同时大幅降低计算资源需求让更多开发者和研究者能够轻松上手机器人AI应用。本教程将手把手带你完成SmolVLA Web界面的完整部署过程重点解决依赖安装中的常见问题特别是num2words库的安装避坑指南。环境要求Python 3.8GPU推荐RTX 4090或同等级别CPU也可运行但速度较慢系统内存至少8GB存储空间模型文件需要约906MB2. 快速安装与依赖配置2.1 基础环境搭建首先创建项目目录并进入mkdir -p /root/smolvla_base cd /root/smolvla_base设置必要的环境变量避免后续出现缓存问题export HF_HOME/root/.cache export HUGGINGFACE_HUB_CACHE/root/ai-models export XFORMERS_FORCE_DISABLE_TRITON12.2 requirements.txt依赖安装创建requirements.txt文件包含所有必要的依赖cat requirements.txt EOF lerobot[smolvla]0.4.4 torch2.0.0 gradio4.0.0 numpy pillow num2words EOF开始安装主要依赖pip install -r requirements.txt3. num2words安装避坑指南3.1 常见安装问题num2words是一个将数字转换为文字表达的库在SmolVLA中用于自然语言处理。安装时可能遇到以下问题问题1权限不足# 错误提示Permission denied # 解决方案使用用户安装模式 pip install --user num2words问题2网络超时# 错误提示Timeout error # 解决方案使用国内镜像源 pip install num2words -i https://pypi.tuna.tsinghua.edu.cn/simple问题3版本冲突# 如果已有旧版本先卸载再安装 pip uninstall num2words -y pip install num2words0.5.103.2 验证安装成功安装完成后验证num2words是否能正常使用import num2words print(num2words.num2words(123)) # 应该输出 one hundred and twenty-three如果运行正常说明num2words已正确安装。4. 模型下载与配置4.1 下载模型文件SmolVLA模型需要从Hugging Face下载如果网络连接不稳定可以手动下载# 创建模型目录 mkdir -p /root/ai-models/lerobot/smolvla_base # 如果自动下载失败可以手动下载后放置到该目录 # 模型文件包括pytorch_model.bin, config.json, tokenizer.json等4.2 文件结构检查确保项目目录结构如下/root/smolvla_base/ ├── app.py # 主应用文件 ├── config.json # 模型配置文件 ├── requirements.txt # 依赖文件 ├── start.sh # 启动脚本可选 └── /root/ai-models/lerobot/smolvla_base/ ├── pytorch_model.bin # 模型权重 ├── config.json # 模型配置 └── tokenizer.json # 分词器文件5. 启动Web界面5.1 直接启动方式最简单的启动方式cd /root/smolvla_base python app.py服务将在端口7860启动在浏览器中访问http://localhost:7860即可使用。5.2 创建启动脚本为了方便以后使用可以创建启动脚本cat start.sh EOF #!/bin/bash cd /root/smolvla_base export HF_HOME/root/.cache export HUGGINGFACE_HUB_CACHE/root/ai-models python app.py EOF chmod x start.sh以后只需要运行./start.sh即可启动服务。6. 使用SmolVLA Web界面6.1 输入配置Web界面提供直观的操作方式图像输入可选上传或拍摄3个不同角度的图像系统自动调整为256×256像素如果没有图像会使用灰色占位图机器人状态设置Joint 0基座旋转Joint 1肩部关节Joint 2肘部关节Joint 3腕部弯曲Joint 4腕部旋转Joint 5夹爪控制语言指令可选 输入自然语言指令例如Pick up the red cube and place it in the blue box6.2 运行推理点击 Generate Robot Action按钮系统会处理输入的图像和文本通过SmolVLA模型生成机器人动作输出6个关节的目标位置6.3 快速测试示例界面提供4个预设示例方便快速测试抓取放置演示抓取红色方块放入蓝色盒子伸展任务向前抓取桌面物体回原位夹爪回到初始位置并关闭堆叠任务将黄色方块堆叠在绿色方块上7. 常见问题解决7.1 模型加载失败如果出现模型加载错误检查以下几点# 检查模型路径是否正确 ls -la /root/ai-models/lerobot/smolvla_base/ # 检查文件权限 chmod -R 755 /root/ai-models # 确认num2words已安装 python -c import num2words; print(num2words安装成功)7.2 CUDA不可用问题如果GPU不可用模型会自动降级到CPU运行# 在app.py中可以看到相关代码 device cuda if torch.cuda.is_available() else cpu print(f使用设备: {device})CPU模式下推理速度会较慢但功能完全正常。7.3 内存不足处理如果遇到内存不足问题# 减少批量大小 # 在config.json中调整batch_size参数 # 清理GPU缓存 python -c import torch; torch.cuda.empty_cache()8. 总结通过本教程你应该已经成功部署了SmolVLA Web界面并解决了num2words等依赖的安装问题。这个紧凑高效的视觉-语言-动作模型为机器人技术提供了一个经济实惠的解决方案特别适合学习和研究使用。关键要点回顾正确设置环境变量避免缓存问题使用国内镜像源解决num2words安装超时确保模型文件路径正确理解Web界面的输入输出格式现在你可以开始使用SmolVLA进行机器人动作生成的实验和开发了。尝试不同的图像输入和语言指令观察模型生成的机器人动作体验视觉-语言-动作模型的强大能力。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章