从SQL到Transformer——统计学是如何统一演进的

张开发

• 2026/4/20 3:30:36 • 15 分钟阅读

分享文章

本文试图用通俗的语言，梳理一下从确定性的数据处理，到充满不确定性的现代大模型，中间经历了哪些关键的数学、工程与科学思想。我们不追求严谨的公式推导，只求提供一个直观的认知地图。结构化与确定性：P=1 的 SQL 世界学生时代的分数排名回想一下学生时代。每次考试结束，老师会公布一张成绩单：学生姓名、语文分数、数学分数、总分、班级排名。这些数字是确定的——你的分数是85就是85，不会有时是85有时是90。在概率论的语言里，这叫P=1，即必然事件。SQL 是什么SQL 正是处理这类确定性数据的利器。你写一句：SELECTname,scoreFROMstudentsWHEREscore90数据库会返回一个确定的、可重复的结果。同样的查询，今天跑和明天跑，只要数据没变，结果一模一样。没有歧义，没有“可能”，没有“大概”。为什么说它是“结构化”结构化数据就像一张整齐的表格：每一行是一个记录，每一列是一个字段。字段类型是明确的——整数、字符串、日期。你不能把“张三”存到分数列里。这种严格的约束，让计算机可以高效地存储、索引、查询。局限性与过渡然而，现实世界并不总是这样整齐。当你问“这句话是什么意思”或者“明天会不会下雨”时，答案不再是简单的 0 或 1。这就把我们引向了概率的世界。小结：SQL 世界是确定性的、精确的、可重复的。它是数据处理的基础，但无法处理歧义和不确定性。不确定性登场：P≠1 时怎么办？贝叶斯歧义无处不在你听到有人说“我喜欢 TACO”。他是在说特朗普，还是想吃墨西哥卷饼？一个朋友说“我在交大上学”。他指的是上海交大、西安交大，还是西南交大？给你一个数列：1, 2, 3, 5，下一个数字是什么？有人会回答 7（质数数列），有人会回答 8（斐波那契数列）。当 P ≠ 1 时，我们需要用概率来思考。条件概率与贝叶斯公式不同上下文会改变概率：在质数数列的上下文中，P(下一个是7) = 1在斐波那契数列的上下文中，P(下一个是8) = 1这就是条件概率：P(A|B) 表示“在 B 发生的条件下，A 发生的概率”。而贝叶斯公式则是计算条件概率的核心工具。贝叶斯公式允许我们根据新的证据（B）来更新对一个假设（A）的信念。比如，你一开始认为“TACO 指特朗普”的概率是 0.3（先验概率）。当你看到上下文是“牛肉、鸡肉、奶酪”时，这个概率会急剧下降（后验概率）。生活中的贝叶斯医生看病：病人有某种症状，医生先根据流行病学有一个先验概率（比如得流感的概率 10%），然后根据检查结果（新证据）更新概率。这就是贝叶斯思维的体现。小结：贝叶斯公式是处理不确定性的数学基础，它教会我们如何用新信息不断修正判断。Embedding：把单词变成数字计算机不认识“意思”你给计算机一个词“TACO”，它看到的只是一串字符 T、A、C、O。它不知道这个词和“卷饼”、“特朗普”有什么关系。为了让计算机理解语义，我们必须把单词变成数字。什么是 EmbeddingEmbedding（嵌入）就是将每个单词映射到一个向量（一串数字）的过程。向量的每个维度代表这个词的某种潜在特征。最简单的例子：按照字母表位置，T=20, A=1, C=3, O=15，那么 “TACO” 的向量就是[20, 1, 3, 15]。当然，这太简陋了，因为“TACO”和“TALK”的向量会很接近，但语义完全不同。真实的 Embedding真实的 Embedding 是通过训练得到的，通常是几百维的浮点数向量。训练的目标是：语义相近的词，它们的向量在空间中也彼此靠近。“国王”和“王后”的向量距离很近。“苹果”（水果）和“橘子”的向量距离很近，但与“苹果”（公司）的向量很远。一个著名的例子：在训练好的词向量中，vec(“国王”) - vec(“男人”) + vec(“女人”)的结果非常接近vec(“女王”)。这说明向量不仅编码了词义，还编码了关系。为什么重要Embedding 是连接“符号世界”（单词）与“数学世界”（向量）的桥梁。有了它，我们才能用几何和代数的方法处理语义。小结：Embedding 将离散的单词转化为连续的向量，让计算机可以计算“词与词之间的相似度”。词频统计：早期探索直到今天如何判断词义给你一句话：“菜单上写着：牛肉 TACO、鸡肉 TACO、奶酪 TACO”。即使你不懂英文，你也能猜出来，这里的 TACO 一定是一种食物，而不是一个政治人物。为什么？因为“牛肉”、“鸡肉”、“奶酪”这些词频繁地出现在 TACO 周围。词频统计的基本思想这种思路就是词频统计：一个词的含义，可以通过它周围经常出现的词来刻画。如果你统计了海量文本，发现“TACO”旁边经常跟着“玉米饼”、“莎莎酱”、“鳄梨酱”，那么 TACO 是食物的概率就极高。经典算法：TF-IDF 和 BM25TF-IDF（词频-逆文档频率）：它认为一个词在文档中出现的次数越多（TF高），就越重要；但如果这个词在很多文档中都

更多文章

前端开发 2026/4/17 0:04:07

RDB与AOF持久化原理深度解析

Redis 的持久化机制是其保证数据可靠性的核心，主要包括 RDB (Redis Database) 和 AOF (Append Only File) 两种方式，以及从 Redis 4.0 开始支持的混合持久化模式。下面将详细解析 RDB 和 AOF 的工作原理、触发机制、优缺点，并结合应用场景进行…

终极指南：5个高效技巧彻底优化你的Windows 11系统性能【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter and cu…

张开发

前端开发 2026/4/17 0:01:49

为什么降AI降完还是检测不通过？3个被忽视的检测机制原因

很多人降AI之后重新检测，发现AI率还是超标，但找不到原因。我整理了3个最常被忽视的原因，这些在用户反馈里出现频率最高。推荐工具：嘎嘎降AI（www.aigcleaner.com），9大平台验证，未达…

张开发

从SQL到Transformer——统计学是如何统一演进的

最新文章

终极MFE-starter单元测试指南：异步代码测试策略与最佳实践

如何快速掌握Ultimate Plumber：Linux管道即时预览工具完全指南

从源码到生产：Convex-Backend 完整编译指南

Keylogger性能优化：10个提升键盘记录效率的技巧

如何用AI助手快速掌握流媒体下载的终极解决方案

mini3d进阶扩展：如何添加光照、背面剔除和二次线性插值

推荐文章

从零上手CH340G：USB转串口芯片的实战应用指南

别再手动算周期了！用STM32CubeMX的TIM1输入捕获测按键时长（附完整代码）

AI代码配额管理实战指南：7大行业真实配额模型+3类超限预警SOP（附2026大会未发布白皮书节选）

集合（ArrayList）

防止SQL注入的运维实践_实时清理数据库缓存与历史记录

MySQL Explain 执行计划性能对比

相关文章

无损音乐下载与高品质音频管理：tidal-dl-ng的核心能力探索

LyricsX：让歌词如影随形的桌面歌词助手

如何利用自动化抢票工具突破大麦网90%的抢票失败率：从绝望到成功的完整指南

电子设计竞赛必备：RC、运放、TTL信号处理电路实战指南（附避坑技巧）

从RoboMaster到智能仓储：深入聊聊麦克纳姆轮底盘的那些‘坑’与最佳实践

libhv实战：从零构建一个高效的WebSocket客户端

分享文章

更多文章

RDB与AOF持久化原理深度解析

【WRF-Chem进阶】添加和配置被动示踪物烟流Passive Tracer Plumes

从客服到审单全AI化，售后工单系统迎来智能时代

从零开始：用Python和Gemini 3四步搭建你自己的AI Agent

Spring Cloud Gateway 下的流式输出： SSE实现细节（超时、缓冲与断流治理）

还在手动逐句转写会议录音？2026年这4款录音转写在线神器，1分钟转完1小时音频

网卡数据处理机制与性能优化实战

Arduino轻量LED节奏控制库：基于位图的同步指示器设计

C++——虚拟地址空间区域划分

信息化基础设施层建设

终极指南：5个高效技巧彻底优化你的Windows 11系统性能

为什么降AI降完还是检测不通过？3个被忽视的检测机制原因