从生活案例到统计检验:正态分布、卡方分布、t分布、F分布及其检验方法全解析

张开发
2026/4/15 5:08:19 15 分钟阅读

分享文章

从生活案例到统计检验:正态分布、卡方分布、t分布、F分布及其检验方法全解析
1. 正态分布与Z检验从身高测量到质量检测生活中最常见的正态分布案例莫过于人类身高。假设我们测量1000名成年男性的身高数据会呈现中间高、两侧低的钟形对称分布。这种中间多、两头少的分布特征正是正态分布最直观的体现。正态分布由两个参数决定均值μ决定分布的中心位置标准差σ决定数据的离散程度。比如中国成年男性平均身高172cm标准差约6cm那么95%的人身高会在160-184cm之间μ±2σ。在工业生产中Z检验是验证产品质量的利器。某灯泡厂声称其产品寿命服从均值2000小时、标准差100小时的正态分布。质检员随机抽取50个灯泡测得平均寿命为1980小时。要判断这批产品是否达标我们可以构建Z统计量import numpy as np 样本均值 1980 总体均值 2000 总体标准差 100 样本量 50 Z (样本均值 - 总体均值) / (总体标准差/np.sqrt(样本量)) print(fZ值为: {Z:.2f}) # 输出Z值为-1.41计算得到Z-1.41对比标准正态分布表在显著性水平α0.05时临界值为±1.96。由于-1.41落在接受域内说明样本与总体无显著差异产品质量合格。这里有个实用技巧当样本量n≥30时根据中心极限定理即使原始分布非正态Z检验也近似适用。2. 卡方分布与卡方检验从问卷调查到基因研究卡方检验最适合分析分类变量的关联性。举个有趣的例子某美妆品牌想了解性别与化妆习惯的关系调查了200人得到如下列联表化妆不化妆总计男性2080100女性7030100总计90110200假设性别与化妆无关原假设那么理论上男性化妆比例应与女性相同。通过计算期望频数期望男性化妆 (100*90)/200 45 期望女性化妆 (100*90)/200 45然后构建卡方统计量observed [20, 80, 70, 30] expected [45, 55, 45, 55] chi2 sum((np.array(observed)-np.array(expected))**2/np.array(expected)) print(f卡方值为: {chi2:.2f}) # 输出67.68自由度为(2-1)*(2-1)1查卡方分布表α0.05的临界值为3.84。由于67.68远大于临界值我们拒绝原假设认为性别与化妆习惯显著相关。在生物医学领域这种分析方法常用于研究基因型与表型的关联。3. t分布与t检验从小样本实验到药物测试当样本量较小通常n30或总体方差未知时t检验就派上用场了。比如某药厂研发降压药选取15名高血压患者进行试验测得服药前后血压差值平均为8mmHg标准差为3mmHg。要判断药效是否显著即差值是否大于0可以使用单样本t检验from scipy import stats 样本均值 8 样本标准差 3 样本量 15 t (样本均值 - 0) / (样本标准差/np.sqrt(样本量)) # 0为假设的总体均值 p_value 1 - stats.t.cdf(t, df样本量-1) print(ft值为: {t:.2f}, p值为: {p_value:.5f}) # t10.33, p≈0自由度为14查t分布表得临界值约2.145α0.05。由于10.33远大于临界值说明药效显著。t分布比正态分布更矮胖随着自由度增大逐渐接近正态分布。实际应用中A/B测试、心理学实验等小样本场景都依赖t检验。4. F分布与F检验从农业试验到模型比较F检验主要用于比较方差典型应用是方差分析(ANOVA)。假设农学家测试三种肥料对小麦产量的影响每种肥料施用5块试验田得到如下数据单位kg肥料A12, 15, 13, 14, 16肥料B18, 20, 17, 19, 16肥料C10, 12, 11, 9, 8要判断肥料类型是否影响产量可以计算组间方差与组内方差的比值组间方差 5*((np.mean(A)-总均值)**2 (np.mean(B)-总均值)**2 (np.mean(C)-总均值)**2)/2 组内方差 (np.var(A,ddof1)np.var(B,ddof1)np.var(C,ddof1))/3 F 组间方差 / 组内方差 print(fF值为: {F:.2f}) # 输出约28.57分子自由度2分母自由度12查F分布表得临界值约3.89α0.05。由于28.573.89说明肥料类型对产量有显著影响。在机器学习中F检验常用于特征选择比较不同特征对目标变量的解释力。

更多文章