别再死记硬背VGG结构了！手把手带你用PyTorch复现VGG16/19（附代码与权重加载）

张开发

• 2026/4/21 9:55:31 • 15 分钟阅读

分享文章

别再死记硬背VGG结构了！手把手带你用PyTorch复现VGG16/19（附代码与权重加载）

从零构建VGG网络PyTorch实战指南与设计哲学解析在深度学习领域VGG网络以其简洁优雅的架构设计成为计算机视觉任务的经典基准模型。不同于死记硬背网络结构参数本文将带您深入理解VGG的设计精髓并手把手实现一个完整的PyTorch版本。无论您是希望夯实基础还是准备面试这次代码级的探索都将让您获得远超论文表面的实战认知。1. 环境准备与核心设计理念开始编码前我们需要明确VGG的两个革命性贡献小卷积核堆叠策略和深度对性能的影响。2014年牛津大学Visual Geometry Group提出的这种架构在ILSVRC竞赛中证明了深度的重要性。先配置基础环境import torch import torch.nn as nn import torchvision print(fPyTorch版本: {torch.__version__})VGG的核心设计选择全部使用3×3卷积核步长1padding1每经过池化层通道数翻倍64→128→256→512最大池化统一采用2×2窗口步长2全连接层固定为4096→4096→1000的结构提示现代实现中通常会加入BatchNorm层加速收敛但原始VGG并未使用2. 模块化构建VGG网络2.1 卷积块生成器VGG的重复结构非常适合模块化设计。我们先实现一个生成卷积块的工厂函数def make_layers(in_channels, cfg, batch_normFalse): layers [] for v in cfg: if v M: layers [nn.MaxPool2d(kernel_size2, stride2)] else: conv2d nn.Conv2d(in_channels, v, kernel_size3, padding1) layers [conv2d, nn.ReLU(inplaceTrue)] if batch_norm: layers [nn.BatchNorm2d(v)] in_channels v return nn.Sequential(*layers)2.2 完整网络架构基于上述函数我们可以轻松实现不同版本的VGGclass VGG(nn.Module): def __init__(self, features, num_classes1000, init_weightsTrue): super().__init__() self.features features self.avgpool nn.AdaptiveAvgPool2d((7, 7)) self.classifier nn.Sequential( nn.Linear(512*7*7, 4096), nn.ReLU(True), nn.Dropout(), nn.Linear(4096, 4096), nn.ReLU(True), nn.Dropout(), nn.Linear(4096, num_classes), ) def forward(self, x): x self.features(x) x self.avgpool(x) x torch.flatten(x, 1) x self.classifier(x) return x不同配置的架构参数配置名称卷积层结构总层数VGG11[64,M,128,M,256,256,M,512,512,M,512,512,M]11VGG16[64,64,M,128,128,M,256,256,256,M,512,512,512,M,512,512,512,M]16VGG19在VGG16基础上增加三个卷积层193. 预训练权重加载与应用3.1 官方权重加载PyTorch官方提供了预训练好的VGG权重# 加载预训练模型 model torchvision.models.vgg16(pretrainedTrue) # 冻结特征提取层 for param in model.features.parameters(): param.requires_grad False # 修改最后一层适配新任务 model.classifier[6] nn.Linear(4096, 10) # 假设新任务有10类3.2 自定义权重的保存与加载训练好的模型需要正确保存和加载# 保存整个模型 torch.save(model.state_dict(), vgg_custom.pth) # 加载时需先实例化相同结构的模型 loaded_model VGG(make_layers(3, [64,64,M,128,128,M,256,256,256,M,512,512,512,M,512,512,512,M])) loaded_model.load_state_dict(torch.load(vgg_custom.pth))4. 实战猫狗分类任务4.1 数据准备与增强使用torchvision提供的工具快速构建数据管道from torchvision import transforms train_transform transforms.Compose([ transforms.RandomResizedCrop(224), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize(mean[0.485, 0.456, 0.406], std[0.229, 0.224, 0.225]) ]) train_data torchvision.datasets.ImageFolder( path/to/train, transformtrain_transform )4.2 训练流程关键代码实现一个完整的训练循环def train_model(model, dataloaders, criterion, optimizer, num_epochs25): for epoch in range(num_epochs): for phase in [train, val]: if phase train: model.train() else: model.eval() running_loss 0.0 running_corrects 0 for inputs, labels in dataloaders[phase]: optimizer.zero_grad() with torch.set_grad_enabled(phase train): outputs model(inputs) loss criterion(outputs, labels) if phase train: loss.backward() optimizer.step() running_loss loss.item() * inputs.size(0) running_corrects torch.sum(outputs.argmax(1) labels) epoch_loss running_loss / len(dataloaders[phase].dataset) epoch_acc running_corrects.double() / len(dataloaders[phase].dataset) print(f{phase} Loss: {epoch_loss:.4f} Acc: {epoch_acc:.4f})5. VGG的现代改进与优化虽然原始VGG现在看起来有些过时但其设计理念仍影响着现代网络架构内存优化用1×1卷积降维类似Inception思想计算加速将全连接层转换为卷积层FCN现代技巧加入BatchNorm和LeakyReLU改进后的特征提取部分示例class ImprovedVGGBlock(nn.Module): def __init__(self, in_channels, out_channels): super().__init__() self.conv nn.Sequential( nn.Conv2d(in_channels, out_channels, 3, padding1), nn.BatchNorm2d(out_channels), nn.LeakyReLU(0.1), nn.Conv2d(out_channels, out_channels, 3, padding1), nn.BatchNorm2d(out_channels), nn.LeakyReLU(0.1), ) def forward(self, x): return self.conv(x)在实际项目中VGG仍然有其独特优势架构简单易于理解特征提取能力稳定适合作为基准模型或迁移学习的起点。我在多个工业级图像分类项目中发现当数据量不大时适当改进的VGG模型往往能达到与更复杂模型相近的效果但训练成本和部署难度却低得多。

更多文章

前端开发 2026/4/21 9:54:28

软考高级系统架构设计师备考（十三）：计算机网络—常见协议与TCP/IP协议族

软考高级系统架构设计师备考（十三）：计算机网络—常见协议与TCP/IP协议族在计算机网络中，协议（Protocol是实现通信的规则与标准。上一节我们已经学习了网络体系结构（分层模型），而本节将进一步深入：每一层到底使用了哪些协议？这些协议是如何协同工作的？在软考高级…

如何用深蓝词库转换工具快速解决输入法迁移难题：完整操作指南【免费下载链接】imewlconverter ”深蓝词库转换“ 一款开源免费的输入法词库转换程序项目地址: https://gitcode.com/gh_mirrors/im/imewlconverter 切换输入法时，你是否曾为多年积…

张开发

前端开发 2026/4/21 9:09:16

Windows Cleaner终极指南：5分钟解决C盘爆红问题，让系统重获新生！

Windows Cleaner终极指南：5分钟解决C盘爆红问题，让系统重获新生！ 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服！ 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 你是否遇到过…

张开发

别再死记硬背VGG结构了！手把手带你用PyTorch复现VGG16/19（附代码与权重加载）

最新文章

齿轮箱零部件及其装配质检中的TVA技术突破（25）

给激光放大器找个好‘心脏’：手把手教你读懂1064nm皮秒种子源的关键参数（以瀚盈PS-1064为例）

SAP生产版本导入避坑指南：从‘黄灯’到‘绿灯’，详解CM_FV_MKAL_CONSISTENCY_CHECK函数的使用

C#怎么实现EF Core全局查询过滤 C#如何用HasQueryFilter配置全局过滤条件自动排除已删除数据【数据库】

前端测试框架

HY-Motion 1.0作品集：从日常行为到体育动作，看文字如何丝滑转化

推荐文章

从零上手CH340G：USB转串口芯片的实战应用指南

别再手动算周期了！用STM32CubeMX的TIM1输入捕获测按键时长（附完整代码）

AI代码配额管理实战指南：7大行业真实配额模型+3类超限预警SOP（附2026大会未发布白皮书节选）

集合（ArrayList）

防止SQL注入的运维实践_实时清理数据库缓存与历史记录

MySQL Explain 执行计划性能对比

相关文章

无损音乐下载与高品质音频管理：tidal-dl-ng的核心能力探索

LyricsX：让歌词如影随形的桌面歌词助手

如何利用自动化抢票工具突破大麦网90%的抢票失败率：从绝望到成功的完整指南

电子设计竞赛必备：RC、运放、TTL信号处理电路实战指南（附避坑技巧）

从RoboMaster到智能仓储：深入聊聊麦克纳姆轮底盘的那些‘坑’与最佳实践

libhv实战：从零构建一个高效的WebSocket客户端

分享文章

更多文章

软考高级系统架构设计师备考（十三）：计算机网络—常见协议与TCP/IP协议族

TI CCS在Win10安装卡壳？手把手教你排查并修复‘临时路径Unicode字符’问题（附注册表安全修改指南）

mplfinance事件处理详解：从零实现K线图的拖拽、缩放与键盘控制（Python量化必备）

昂瑞威HS6621低功耗蓝牙开发：从SDK三个例程看透Master、Slave与串口透传应用

手把手教你搭建手势识别系统：基于MediaPipe Hands的彩虹骨骼版快速部署教程

nli-MiniLM2-L6-H768精彩效果：多跳推理链（A→B→C）中B-C关系的独立验证

抖音批量下载工具终极指南：如何高效获取去水印视频素材

nli-MiniLM2-L6-H768部署教程：GPU驱动版本兼容性检查与CUDA Toolkit验证

NVIDIA Profile Inspector：解锁显卡隐藏潜能，打造极致游戏体验

DLSS Swapper深度解析：游戏渲染技术版本管理的完整指南

如何用深蓝词库转换工具快速解决输入法迁移难题：完整操作指南

Windows Cleaner终极指南：5分钟解决C盘爆红问题，让系统重获新生！