深度学习篇---展平可行性

张开发
2026/4/21 4:47:37 15 分钟阅读

分享文章

深度学习篇---展平可行性
一、关键点卷积层已经完成了“结构化编码”1. 卷积层的本质是局部特征提取器在展平之前卷积层已经通过以下方式将空间结构信息内化到了特征值本身# 假设一个简单的场景 # 输入: 猫脸图片 (3, 224, 224) # 经过卷积层后某个通道可能专门检测左耳尖 # 另一个通道专门检测右耳尖关键理解卷积核在空间上滑动时每个位置的特征值已经包含了该位置的局部结构信息例如通道5的第3行第4列的值 “在位置(3,4)检测到了胡须特征”的强度空间位置信息并没有丢失而是通过“哪个通道的哪个位置有高响应”这种形式被保留2. 全连接层的学习能力全连接层的每个神经元都能学习任意特征组合展平后的向量: [v1, v2, v3, ..., vn] ↑ ↑ ↑ 位置A 位置B 位置C 的猫耳 的猫眼 的猫须 响应 响应 响应全连接层可以学习空间不变性模式权重w1可以学习“只要左耳和右耳同时出现就是猫脸”相对位置关系权重w1和w5虽然对应不同位置但可以学习它们的协同关系二、为什么展平可行用具体例子说明例子检测“猫脸”卷积层输出简化通道1左耳检测器: [0.9, 0.1] ← 左耳在左上角 [0.1, 0.1] 通道2右耳检测器: [0.1, 0.1] [0.1, 0.9] ← 右耳在右下角 通道3鼻子检测器: [0.1, 0.2] [0.8, 0.1] ← 鼻子在左下角展平后[0.9, 0.1, 0.1, 0.1, # 通道1的所有位置 0.1, 0.1, 0.1, 0.9, # 通道2的所有位置 0.1, 0.2, 0.8, 0.1] # 通道3的所有位置全连接层可以学习# 伪代码全连接层的权重学习 猫脸判断 w1*0.9(左耳_左上) w6*0.9(右耳_右下) w11*0.8(鼻子_左下) # 即使位置被打散只要权重正确就能识别出猫脸三、为什么这样设计是合理的1. 人类认知类比想象你在描述一张照片❌ 不能说“像素(10,20)是红色像素(15,25)是蓝色...” — 这是原始图像✅ 可以说“左上角有耳朵右下角有耳朵中间偏下有鼻子” — 这是卷积层输出的特征展平相当于把“左上角有耳朵右下角有耳朵...”这些描述写成一行文本交给一个能读懂上下文的人全连接层来判断。2. 全连接层的“位置编码”能力虽然展平丢失了显式的二维坐标但保留了隐式的位置编码# 展平后的索引包含了位置信息 index (channel * H row) * W col # 不同的 index 对应不同的 (channel, row, col)全连接层通过学习不同的权重w_index本质上就是在学习哪些通道的哪些位置组合在一起有意义这个组合的权重是多少3. 参数量与表达能力的权衡方式参数量全连接层能否学习空间关系保留2D结构全连接(C×H×W)²能但参数爆炸展平全连接(C×H×W) × 输出维度能参数适中卷积继续处理卷积核参数能参数更少四、什么时候展平会失效展平假设重要的空间关系是“位置无关的组合”即特征A在位置P和特征B在位置Q的组合有意义如果任务需要严格的局部空间连续性如像素级分割展平后全连接层会难以保持这种结构这时候应该继续使用卷积层如全卷积网络 FCN或者使用注意力机制如 Transformer五、总结核心答案展平之所以能做到“信息无损”是因为卷积层已经将原始的空间结构转化为了“每个位置上的语义特征”展平只是改变了存储方式而全连接层足够强大可以通过学习不同位置的权重组合来重建空间关系。空间结构信息不是被丢弃了而是被编码到了“哪个通道的哪个位置有什么特征”这种形式中展平后的全连接层完全有能力解析这种编码。

更多文章