机器学习——基本问题

张开发
2026/4/16 9:21:00 15 分钟阅读

分享文章

机器学习——基本问题
有监督学习线性模型多元线性回归预测连续的数值如房价、销量。逻辑回归解决二分类问题如判断邮件是否是垃圾邮件输出概率。非线性模型决策树通过一系列if-then规则进行决策非常直观易懂。用途分类和回归。随机森林集成学习方法。通过构建多棵决策树并综合它们的結果如投票或平均极大地提升了模型的准确性和鲁棒性不易过拟合。用途几乎可用于任何问题是非常强大的基准模型。梯度提升机另一种集成学习方法如 XGBoost, LightGBM, CatBoost。通过迭代地训练新树来修正前一轮树的错误性能通常比随机森林更优是许多数据科学竞赛的“大杀器”。用途处理结构化/表格数据的最佳选择之一。支持向量机传统图像处理中最好用的算法目前不用了。SVM寻找一个“最大间隔”的超平面来区分不同类别的数据。对于非线性问题可以使用“核技巧”映射到高维空间进行分离。用途尤其在中小规模数据集上表现优异适用于高维数据如文本、图像。神经网络与深度学习神经网络由大量神经元连接构成的模型可以拟合极其复杂的非线性关系。深度学习特指层次更深的神经网络。多层感知机最基础的前馈神经网络可用于表格数据的分类和回归。卷积神经网络专门为处理网格状数据如图像设计是计算机视觉领域的核心。循环神经网络专门为处理序列数据如文本、时间序列、语音设计。Transformer目前自然语言处理领域的绝对主力模型如BERT, GPT系列在计算机视觉等领域也表现优异。其他经典模型朴素贝叶斯基于贝叶斯定理假设特征之间相互独立。虽然“朴素”但在文本分类等领域非常高效。K近邻一种“懒学习”算法通过查找最接近的K个已知样本的标签来预测新样本。简单但计算开销大。无监督学习无监督学习的数据没有标签。模型的任务是发现数据内在的结构和模式。聚类算法K-Means将数据分成K个簇使得同一簇内的数据点尽可能相似。用途客户分群、图像压缩、异常检测。DBSCAN基于密度的聚类算法能发现任意形状的簇并能识别出噪声点。层次聚类通过构建树状的簇结构来形成数据集的层次分组。降维算法主成分分析将高维数据投影到低维空间尽可能保留原始数据的方差。常用于数据可视化和特征预处理。t-SNE, UMAP更现代的非线性降维技术特别擅长将高维数据可视化到2维或3维空间能保留复杂的局部结构。关联规则学习Apriori用于从大规模数据中发现物品之间的关联规则。用途“购物篮分析”经典的“啤酒和尿布”故事。异常检测隔离森林专门用于异常检测的算法通过随机分割来隔离异常点效率很高。自编码器一种神经网络通过将输入压缩再重建来学习数据的核心特征。重建误差大的点可以被视为异常。半监督学习半监督学习处理只有少量数据有标签大部分数据无标签的情况。它结合了监督和无监督学习的方法。强化学习强化学习模型智能体通过与环境交互根据获得的奖励或惩罚来学习最佳策略。用途AlphaGo、机器人控制、自动驾驶、游戏AI。模型选择问题类型预测数值 - 回归问题线性回归、随机森林回归、梯度提升回归。预测类别 - 分类问题逻辑回归、SVM、随机森林、神经网络。发现分组 - 聚类K-Means, DBSCAN。发现异常 - 异常检测隔离森林。降低维度 - 降维PCA, t-SNE。数据规模和特征样本少、特征少从简单模型开始如SVM、逻辑回归。样本多、特征多表格数据树模型随机森林、XGBoost通常是首选。图像、文本、语音数据深度学习CNN, RNN, Transformer几乎是不二之选。对可解释性的要求需要解释模型为什么这样预测决策树、逻辑回归、线性模型。追求极致精度可解释性不重要深度学习、复杂的集成模型。

更多文章