[具身智能-270]:AI特征向量的本质是每个样本都是在n个坐标轴(即特征空间)组成的空间中的一个点,每个特征值的大小决定了该样本在空间中的位置。分类的本质就是具有相同特征属性的点是相邻的

张开发
2026/6/19 1:18:19 15 分钟阅读
[具身智能-270]:AI特征向量的本质是每个样本都是在n个坐标轴(即特征空间)组成的空间中的一个点,每个特征值的大小决定了该样本在空间中的位置。分类的本质就是具有相同特征属性的点是相邻的
特征向量数据在空间中的“坐标”特征向量本质上就是将一个样本比如一张图片、一段文本、一个用户的所有特征值组织成一个有序的数值列表。特征空间想象一个由n个相互垂直的坐标轴构成的多维空间每个坐标轴代表一个特征。这就是特征空间。特征向量一个具体的样本其n个特征值就构成了它在这个n维空间中的唯一坐标。这个坐标就是一个特征向量。举个例子假设我们用两个特征来描述水果重量克和直径厘米。一个苹果的特征是[150, 7.5]。一个橙子的特征是[130, 6.8]。一个西瓜的特征是 。在这个二维特征空间里苹果和橙子就是两个点它们在空间中的位置比较接近。而西瓜这个点则会距离它们非常遥远。 分类的本质寻找边界让“物以类聚”“具有相同特征属性的点是相邻的”这正是分类任务能够成立的关键假设。在特征空间中相似的样本例如同一种类的水果会自然地聚集在一起形成一个个“簇”。分类算法的工作就是在这些“簇”之间找到一条或多条决策边界。目标这条边界能最大程度地将不同类别的点分离开。预测当一个新的、未知类别的样本一个新点出现时算法只需要看它落在了决策边界的哪一侧就能判断它属于哪个类别。继续上面的水果例子分类算法可能会在特征空间中画一条线将苹果和橙子的点与西瓜的点分隔开。 进阶思考从“人工坐标”到“机器绘制的地图”在传统方法中特征如重量、直径通常需要人工设计和提取。但在深度学习如卷积神经网络CNN中模型能够自动学习如何从原始数据如图像的像素中提取出最有效高阶的特征并构建出能让不同类别样本分得更开的特征空间。这就像是我们不再需要手动告诉机器“重量”和“直径”这两个坐标轴而是让机器自己从成千上万的图像中学习并绘制出一张能最有效区分所有物体的“地图”特征空间。这张地图可能拥有成百上千个我们无法直观理解的维度但它在数学上能让分类任务达到极高的准确率。总而言之已经抓住了机器学习数据表示和分类问题的精髓。这个几何化的视角是理解许多复杂算法如支持向量机SVM、K近邻KNN等的绝佳起点。

更多文章