从SQL到Transformer——统计学是如何统一演进的

张开发
2026/4/20 3:30:36 15 分钟阅读

分享文章

从SQL到Transformer——统计学是如何统一演进的
本文试图用通俗的语言,梳理一下从确定性的数据处理,到充满不确定性的现代大模型,中间经历了哪些关键的数学、工程与科学思想。我们不追求严谨的公式推导,只求提供一个直观的认知地图。结构化与确定性:P=1 的 SQL 世界学生时代的分数排名回想一下学生时代。每次考试结束,老师会公布一张成绩单:学生姓名、语文分数、数学分数、总分、班级排名。这些数字是确定的——你的分数是85就是85,不会有时是85有时是90。在概率论的语言里,这叫P=1,即必然事件。SQL 是什么SQL 正是处理这类确定性数据的利器。你写一句:SELECTname,scoreFROMstudentsWHEREscore90数据库会返回一个确定的、可重复的结果。同样的查询,今天跑和明天跑,只要数据没变,结果一模一样。没有歧义,没有“可能”,没有“大概”。为什么说它是“结构化”结构化数据就像一张整齐的表格:每一行是一个记录,每一列是一个字段。字段类型是明确的——整数、字符串、日期。你不能把“张三”存到分数列里。这种严格的约束,让计算机可以高效地存储、索引、查询。局限性与过渡然而,现实世界并不总是这样整齐。当你问“这句话是什么意思”或者“明天会不会下雨”时,答案不再是简单的 0 或 1。这就把我们引向了概率的世界。小结:SQL 世界是确定性的、精确的、可重复的。它是数据处理的基础,但无法处理歧义和不确定性。不确定性登场:P≠1 时怎么办?贝叶斯歧义无处不在你听到有人说“我喜欢 TACO”。他是在说特朗普,还是想吃墨西哥卷饼?一个朋友说“我在交大上学”。他指的是上海交大、西安交大,还是西南交大?给你一个数列:1, 2, 3, 5,下一个数字是什么?有人会回答 7(质数数列),有人会回答 8(斐波那契数列)。当 P ≠ 1 时,我们需要用概率来思考。条件概率与贝叶斯公式不同上下文会改变概率:在质数数列的上下文中,P(下一个是7) = 1在斐波那契数列的上下文中,P(下一个是8) = 1这就是条件概率:P(A|B) 表示“在 B 发生的条件下,A 发生的概率”。而贝叶斯公式则是计算条件概率的核心工具。贝叶斯公式允许我们根据新的证据(B)来更新对一个假设(A)的信念。比如,你一开始认为“TACO 指特朗普”的概率是 0.3(先验概率)。当你看到上下文是“牛肉、鸡肉、奶酪”时,这个概率会急剧下降(后验概率)。生活中的贝叶斯医生看病:病人有某种症状,医生先根据流行病学有一个先验概率(比如得流感的概率 10%),然后根据检查结果(新证据)更新概率。这就是贝叶斯思维的体现。小结:贝叶斯公式是处理不确定性的数学基础,它教会我们如何用新信息不断修正判断。Embedding:把单词变成数字计算机不认识“意思”你给计算机一个词“TACO”,它看到的只是一串字符 T、A、C、O。它不知道这个词和“卷饼”、“特朗普”有什么关系。为了让计算机理解语义,我们必须把单词变成数字。什么是 EmbeddingEmbedding(嵌入)就是将每个单词映射到一个向量(一串数字)的过程。向量的每个维度代表这个词的某种潜在特征。最简单的例子:按照字母表位置,T=20, A=1, C=3, O=15,那么 “TACO” 的向量就是[20, 1, 3, 15]。当然,这太简陋了,因为“TACO”和“TALK”的向量会很接近,但语义完全不同。真实的 Embedding真实的 Embedding 是通过训练得到的,通常是几百维的浮点数向量。训练的目标是:语义相近的词,它们的向量在空间中也彼此靠近。“国王”和“王后”的向量距离很近。“苹果”(水果)和“橘子”的向量距离很近,但与“苹果”(公司)的向量很远。一个著名的例子:在训练好的词向量中,vec(“国王”) - vec(“男人”) + vec(“女人”)的结果非常接近vec(“女王”)。这说明向量不仅编码了词义,还编码了关系。为什么重要Embedding 是连接“符号世界”(单词)与“数学世界”(向量)的桥梁。有了它,我们才能用几何和代数的方法处理语义。小结:Embedding 将离散的单词转化为连续的向量,让计算机可以计算“词与词之间的相似度”。词频统计:早期探索直到今天如何判断词义给你一句话:“菜单上写着:牛肉 TACO、鸡肉 TACO、奶酪 TACO”。即使你不懂英文,你也能猜出来,这里的 TACO 一定是一种食物,而不是一个政治人物。为什么?因为“牛肉”、“鸡肉”、“奶酪”这些词频繁地出现在 TACO 周围。词频统计的基本思想这种思路就是词频统计:一个词的含义,可以通过它周围经常出现的词来刻画。如果你统计了海量文本,发现“TACO”旁边经常跟着“玉米饼”、“莎莎酱”、“鳄梨酱”,那么 TACO 是食物的概率就极高。经典算法:TF-IDF 和 BM25TF-IDF(词频-逆文档频率):它认为一个词在文档中出现的次数越多(TF高),就越重要;但如果这个词在很多文档中都

更多文章