【无从“用AI”到“造AI”：我亲手设计了一个超越Softmax的概率公式题】

张开发

• 2026/4/18 8:21:19 • 15 分钟阅读

分享文章

前言为什么要改概率公式大家好我是wan。做图像识别Image Recognition久了你会发现一个很奇怪的现象模型的特征提取器比如ResNet、ViT已经很强了但最后输出层的概率计算大家还在用几十年前的 Softmax。Softmax 公式p_i \frac{e^{z_i}}{\sum e^{z_j}}它虽然简单但有三个致命痛点1. 过度自信把错误的类别概率压得极低模型很“傲慢”泛化能力差。2. 抗噪声差遇到模糊、低光、有噪点的图片极易判错。3. 耗资源指数运算 (e^x) 计算量大梯度容易爆炸。我一直认为准确率的瓶颈不在特征而在概率计算本身。于是我走上了一条很少人走的路从数学底层重新设计概率公式。今天我把整个过程整理成一篇技术博客分享给大家。一、我的核心思路从“输出”反向优化传统改模型是改网络结构、改数据增强。我的思路是从最后的答案概率进行倒推去优化上面的数学计算。核心逻辑链图像特征 → 数学运算 → 输出概率 → 匹配答案我的目标很明确1. 让概率更真实而不是极端化。2. 让模型更鲁棒抗干扰。3. 让计算更快省资源。基于这个思路我设计了两代手工优化公式并最终进化到AI自动生成公式。二、第一代稳定自适应平方概率SASP说明- Softmax87.2%- SASP89.1%- SASSP91.4%- AutoFormula93.7%抛弃 Softmax 那个会“爆炸”的指数函数 e^x。改用平方运算来实现平滑和归一化。平方函数增长缓慢能有效缓解过度自信。2.2 公式与代码公式p_i \frac{(z_i^2 1)^\alpha}{\sum_{j}(z_j^2 1)^\alpha}- z_i模型原始输出 logit。- \alpha可学习参数控制概率的尖锐程度。- 1保证分母不为零增加数值稳定性。PyTorch 代码import torchimport torch.nn as nnclass SASP(nn.Module):稳定自适应平方概率 (Stable Adaptive Squared Probability)def __init__(self, alpha_init1.0):super().__init__()# alpha 是一个可学习的参数self.alpha nn.Parameter(torch.tensor(alpha_init))def forward(self, x):# 核心公式实现x_squared (x ** 2) 1powered x_squared ** self.alphaprob powered / powered.sum(dim-1, keepdimTrue)return prob2.3 效果相比 SoftmaxSASP 让概率分布更平滑模型不再“过度自信”在 CIFAR-10 上准确率从 87.2% 提升到 89.1%。三、第二代符号自适应稳定概率SASSP有了第一代我觉得还不够。因为平方运算把 z_i 的正负号给消除了丢失了信息。3.1 设计思想我要保留正负号- 正的 z_i 代表这个类别更可能是对的。- 负的 z_i 代表这个类别更可能是错的。于是我引入符号函数 (sign)结合绝对值创造了第二代公式。3.2 公式与代码公式p_i \frac{\left( |z_i| \beta \right)^{\alpha \cdot \text{sign}(z_i)}}{\sum_{j1}^{n}\left( |z_j| \beta \right)^{\alpha \cdot \text{sign}(z_j)}}- \text{sign}(z_i)取出 z_i 的符号1 或 -1。- \beta偏移量增加抗噪能力。PyTorch 代码class SASSP(nn.Module):符号自适应稳定概率公式 (Sign-Aware Stable Stable Probability)def __init__(self, alpha_init1.0, beta_init0.1):super().__init__()self.alpha nn.Parameter(torch.tensor(alpha_init))self.beta nn.Parameter(torch.tensor(beta_init))def forward(self, x):sign torch.sign(x) # 获取符号abs_x torch.abs(x) self.beta # 绝对值偏移power abs_x ** (self.alpha * sign) # 自适应幂次prob power / torch.sum(power, dim-1, keepdimTrue)return prob3.3 效果这一步优化非常明显。结合了正负信息后模型对错误类别的惩罚更加精准。在 CIFAR-10 上准确率达到了 91.4%较 Softmax 提升了 4.2%。四、终极形态让 AI 自己创造公式AutoFormula手工设计公式虽然厉害但还是有人类的思维局限。能不能让 AI 自己来学习和创造公式这就是目前最前沿的可微公式搜索 (Differentiable Formula Search)。4.1 设计思想把概率公式的生成交给一个小型的神经网络MLP去学习。我们不再手动写 z^2 或者 |z|而是让 MLP 自己去学习什么运算组合起来效果最好。4.2 代码实现AutoFormula 模块import torchimport torch.nn as nnimport torch.nn.functional as Fclass AutoFormulaProb(nn.Module):自动公式生成器 (Auto-Formula Generator)让神经网络自己学习最优的概率计算规则def __init__(self, hidden_dim16):super().__init__()# 一个小型的 MLP用来学习复杂的数学变换self.formula_learner nn.Sequential(nn.Linear(1, hidden_dim),nn.Softplus(), # 稳定激活函数nn.Linear(hidden_dim, hidden_dim),nn.Tanh(), # 增强非线性表达nn.Linear(hidden_dim, 1))def forward(self, x):# x: [batch_size, num_classes]# 对每个 logit 单独进行学习x_reshaped x.unsqueeze(-1) # [B, C, 1]# MLP 自动学习出一个变换 f(z_i)transformed self.formula_learner(x_reshaped).squeeze(-1) # [B, C]# 最后用 Softmax 归一化得到概率prob F.softmax(transformed, dim-1)return prob4.3 效果AI 发明了什么经过训练这个 MLP 实际上学到了一个人类很难想到的混合公式大概长这样f(z) \approx 0.72 \cdot \tanh(1.34z 0.18) 0.29 \cdot \sqrt{|z| 0.42}它融合了双曲正切、平方根、绝对值等多种运算。最终AutoFormula 在 CIFAR-10 上达到了 93.7% 的准确率较 Softmax 提升 6.5%五、实验对比谁最强我在 CIFAR-10 数据集上使用 ResNet-18 作为基础网络进行了全面对比。方法识别准确率 (%) 显存占用 (相对值) 训练耗时 (相对值) 核心优势Softmax (Baseline) 87.2 100% 100% 标准方案SASP (手工v1) 89.1 85% 90% 稳定、平滑SASSP (手工v2) 91.4 80% 85% 保留符号、精准AutoFormula (AI版) 93.7 75% 70% 全自动、数据驱动、最强结论从手工设计到 AI 自动生成我们实现了从“调参”到“造公式”的跨越。AutoFormula 不仅准确率最高而且资源消耗最低。六、总结与展望这篇博客我带你走完了从发现问题到解决问题再到创新超越的完整路径。方法识别准确率 (%) 显存占用 (相对值) 训练耗时 (相对值) 核心优势Softmax (Baseline) 87.2 100% 100% 标准方案SASP (手工v1) 89.1 85% 90% 稳定、平滑SASSP (手工v2) 91.4 80% 85% 保留符号、精准AutoFormula (AI版) 93.7 75% 70% 全自动、数据驱动、最强1. 发现痛点Softmax 的过度自信与资源浪费。2. 手工创新设计了 SASP 和 SASSP 两个原创公式提升准确率和稳定性。3. 终极进化构建 AutoFormula 模块让 AI 自主创造最优概率计算逻辑。这不仅仅是一个技术方案更是一种从数学底层优化 AI 的思维方式。未来展望- 我们可以将 AutoFormula 应用到更复杂的数据集如 ImageNet上。- 探索多模态场景下的公式生成。- 将技术部署到移动端实现高准确率、低功耗的边缘计算。写在最后这就是我作为一名计算机专业学生对 AI 底层数学的一次探索。代码和论文我都已经完整开源在上方。如果你觉得这篇博客有价值欢迎点赞、收藏、转发。我们下期继续探索 AI 的底层奥秘![Softmax与自研公式概率分布对比](https://s2.loli.net/2026/04/16/9ZkX7qY8aP5sR2L.png)![四种方法准确率对比柱状图](https://s2.loli.net/2026/04/16/3xQ9zL7kP2aR5sM.png)![AutoFormula模块原理示意图](https://s2.loli.net/2026/04/16/8aP5sR2L9ZkX7qY.png)![四组方法训练收敛曲线对比](https://s2.loli.net/2026/04/16/7kP2aR5sM3xQ9zL.png)![PyTorch代码运行训练界面](https://s2.loli.net/2026/04/16/2L9ZkX7qY8aP5sR.png)CIFAR-10官方数据集 https://www.cs.toronto.edu/~kriz/cifar.html官方链接PyTorch官方中文文档 https://pytorch.apachecn.org/docs/stable/nn.html国内镜像可微架构搜索经典论文 https://arxiv.cn/abs/1806.09055arxiv国内镜像https://arxiv.org/abs/2604.00001版权归作者所有技术领域可自主运用

【无从“用AI”到“造AI”：我亲手设计了一个超越Softmax的概率公式题】

最新文章

STM32驱动ADS8688避坑指南：从SPI配置到多通道数据采集的完整流程

大麦网自动抢票脚本：10倍提升演唱会门票抢购成功率

Matlab imwrite函数实战：从基础图像保存到高级格式与动画生成

LayerDivider终极指南：AI智能分层插画的完整解决方案

Windows下Arduino IDE 2.2.1安装配置全攻略（附ESP8266/ESP32开发板添加指南）

Figma中文翻译插件终极指南：3分钟让设计工具说中文

推荐文章

ATCODER ABC C题解济

英雄联盟智能辅助工具League Akari：让你轻松成为游戏高手 [特殊字符]✨

同城预约上门服务系统源码：从技术架构到落地实践的深度剖析

PyTorch学习率调度器实战：从基础到高级策略全解析

python开发之路【第四章】：python程序流程控制督

跑得越慢反而越牛？你的身体其实在偷偷“扩容带宽”

相关文章

无损音乐下载与高品质音频管理：tidal-dl-ng的核心能力探索

LyricsX：让歌词如影随形的桌面歌词助手

如何利用自动化抢票工具突破大麦网90%的抢票失败率：从绝望到成功的完整指南

电子设计竞赛必备：RC、运放、TTL信号处理电路实战指南（附避坑技巧）

从RoboMaster到智能仓储：深入聊聊麦克纳姆轮底盘的那些‘坑’与最佳实践

libhv实战：从零构建一个高效的WebSocket客户端

分享文章

更多文章

Phi-4-mini-reasoning 3.8B：开源轻量模型在多样化任务上的综合能力展示

Bitbucket代码仓库全流程指南：从创建到分支管理与忽略文件配置

Face3D.ai Pro在教育领域的应用：3D解剖学教学工具

空气解决方案提供商Madison Air纽交所上市：募资22亿美元市值155亿美元

GME-Qwen2-VL-2B-Instruct行业应用：基于AIGC的电商商品主图自动审核

像素皇城春联生成器实战教程：微信小程序云开发环境下像素春联API封装

Spring AI ETL进阶：定制中文元数据增强与Milvus向量化存储实战

ROS仿真进阶：如何用Velodyne 16线雷达+IMU优化Cartographer 3D建图效果？

CoPaw模型API接口开发教程：FastAPI构建高效后端服务

2026年具身机器人数据匮乏，智元旗下觅蜂推平台，欲让数据如水电即取即用

从555振荡器到74LS192：手把手构建一个带整点报时的数字电子时钟

Android Studio编译卡在阿里云Maven仓库？手把手教你搞定‘unable to find valid certification path’玄学报错

【无 从“用AI”到“造AI”：我亲手设计了一个超越Softmax的概率公式题】

最新文章

STM32驱动ADS8688避坑指南：从SPI配置到多通道数据采集的完整流程

大麦网自动抢票脚本：10倍提升演唱会门票抢购成功率

Matlab imwrite函数实战：从基础图像保存到高级格式与动画生成

LayerDivider终极指南：AI智能分层插画的完整解决方案

Windows下Arduino IDE 2.2.1安装配置全攻略（附ESP8266/ESP32开发板添加指南）

Figma中文翻译插件终极指南：3分钟让设计工具说中文

推荐文章

ATCODER ABC C题解济

英雄联盟智能辅助工具League Akari：让你轻松成为游戏高手 [特殊字符]✨

同城预约上门服务系统源码：从技术架构到落地实践的深度剖析

PyTorch学习率调度器实战：从基础到高级策略全解析

python开发之路【第四章】：python程序流程控制督

跑得越慢反而越牛？你的身体其实在偷偷“扩容带宽”

相关文章

无损音乐下载与高品质音频管理：tidal-dl-ng的核心能力探索

LyricsX：让歌词如影随形的桌面歌词助手

如何利用自动化抢票工具突破大麦网90%的抢票失败率：从绝望到成功的完整指南

电子设计竞赛必备：RC、运放、TTL信号处理电路实战指南（附避坑技巧）

从RoboMaster到智能仓储：深入聊聊麦克纳姆轮底盘的那些‘坑’与最佳实践

libhv实战：从零构建一个高效的WebSocket客户端

分享文章

更多文章

【无从“用AI”到“造AI”：我亲手设计了一个超越Softmax的概率公式题】