通俗易懂讲透谱聚类（Spectral Clustering）

张开发

• 2026/6/22 15:28:40 • 15 分钟阅读

分享文章

通俗易懂讲透谱聚类Spectral Clustering本科生/研究生都能看懂谱聚类是解决复杂形状、非线性边界数据最强的聚类算法之一K-Means分不出来的月牙形、环形、交错数据它都能轻松搞定。本文用大白话生活案例数学推导可直接运行代码总结适合课堂笔记、实验报告。一、谱聚类是什么一句话讲明白谱聚类把数据建成图 → 切图分组 → 降维 → 简单聚类核心不直接看原始坐标而是看点与点之间的“连接关系”。对比一下K-Means只看距离只擅长球形簇谱聚类看连接强度擅长任意形状、交错、非线性分布的数据二、超通俗小案例5个地点自动分两组有5个地点 A、B、C、D、E距离如下想分成两个“活动圈”。ABCDEA028109B20798C87023D109201E98310谱聚类怎么做建图把地点当“点”距离当“边权重”转相似度距离越近相似度越高建拉普拉斯矩阵记录点之间的连接关系特征分解把复杂数据投影到简单空间聚类在新空间里轻松分成两类结果组1A、B组2C、D、E三、谱聚类核心流程最标准 6 步构建相似度矩阵 W用高斯核RBF计算两点相似性wije−∥xi−xj∥22σ2w_{ij}e^{-\frac{\|x_i-x_j\|^2}{2\sigma^2}}wije−2σ2∥xi−xj∥2构建度矩阵 D对角矩阵每个值是当前点所有相似度之和Dii∑jWijD_{ii}\sum_j W_{ij}Dii∑jWij构建拉普拉斯矩阵 L最常用对称归一化拉普拉斯LsymI−D−1/2WD−1/2L_{sym}I-D^{-1/2}WD^{-1/2}LsymI−D−1/2WD−1/2特征分解求 L 最小的 k 个特征值对应的特征向量。构建新特征空间把特征向量按行拼成新数据每行代表一个点。普通聚类在新空间里跑 K-Means得到最终簇。四、核心公式报告/作业直接用1. 相似度RBF 核wijexp⁡(−∥xi−xj∥22σ2)w_{ij} \exp\left(-\frac{\|x_i - x_j\|^2}{2\sigma^2}\right)wijexp(−2σ2∥xi−xj∥2)2. 度矩阵Dii∑j1nwijD_{ii} \sum_{j1}^n w_{ij}Dii∑j1nwij3. 归一化拉普拉斯矩阵LsymI−D−1/2WD−1/2L_{sym} I - D^{-1/2}WD^{-1/2}LsymI−D−1/2WD−1/24. 聚类目标最小化归一化割NcutNcut(A1,...Ak)∑i1kCut(Ai,Ai‾)Vol(Ai)Ncut(A_1,...A_k) \sum_{i1}^k \frac{Cut(A_i,\overline{A_i})}{Vol(A_i)}Ncut(A1,...Ak)∑i1kVol(Ai)Cut(Ai,Ai)五、为什么谱聚类这么强关键理解K-Means 假设簇是凸的、球形的谱聚类不假设形状只看图连接把非线性可分数据变成线性可分一句话谱聚类用图论线性代数给数据“换一套坐标系”让复杂数据变简单。六、完整实战代码图像分割可直接复制运行谱聚类最经典应用图像分割把图片按颜色/位置分成区域。# 安装依赖# pip install numpy matplotlib scikit-learn scikit-imageimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportSpectralClusteringfromskimageimportio,colorfromskimage.transformimportrescaleimportwarnings warnings.filterwarnings(ignore)# 1. 加载并缩小图片 image_urlhttps://upload.wikimedia.org/wikipedia/commons/thumb/a/a3/June_odd-eyed-cat.jpg/800px-June_odd-eyed-cat.jpgimageio.imread(image_url)imagerescale(image,0.2,multichannelTrue)# 缩小加速rows,cols,_image.shape# 2. 构造像素特征RGB 坐标 X[]foriinrange(rows):forjinrange(cols):r,g,bimage[i,j]X.append([r,g,b,i/rows,j/cols])Xnp.array(X)# 3. 谱聚类 n_clusters4scSpectralClustering(n_clustersn_clusters,affinityrbf,gamma10,random_state42)labelssc.fit_predict(X)# 4. 可视化结果 # 原图plt.figure(figsize(12,4))plt.subplot(131)plt.imshow(image)plt.title(Original Image)plt.axis(off)# 分割图seg_imgnp.zeros((rows,cols,3))colorsnp.random.rand(n_clusters,3)foriinrange(rows):forjinrange(cols):seg_img[i,j]colors[labels[i*colsj]]plt.subplot(132)plt.imshow(seg_img)plt.title(Segmented Image)plt.axis(off)# 边界图boundnp.zeros_like(seg_img)foriinrange(1,rows-1):forjinrange(1,cols-1):iflabels[i*colsj]!labels[i*colsj1]or\ labels[i*colsj]!labels[(i1)*colsj]:bound[i,j][1,0,0]plt.subplot(133)plt.imshow(bound)plt.title(Boundary)plt.axis(off)plt.tight_layout()plt.show()代码输出三张图原始图像谱聚类分割图区域边界图七、谱聚类优缺点面试/报告必背✅ 优点擅长非线性、任意形状簇高维数据表现好只需相似度矩阵可自定义相似规则数学优美、理论稳定❌ 缺点计算慢 O(n³)大数据不行内存占用大n×n 矩阵对参数敏感gamma、核函数需要指定簇数 k八、适用场景什么时候用首选谱聚类数据形状不规则月牙、环形、交错小规模高维数据图像分割、视频分割、图节点聚类社交网络、文本聚类、特征学习不要用数据量 1万 → 用 K-Means / Mini-Batch K-Means带噪声、密度不均 → 用 DBSCAN不知道簇数 → 用 Mean Shift / 层次聚类九、一句话总结谱聚类是基于图论与特征分解的高级聚类算法擅长处理K-Means无法解决的非线性、复杂形状数据是机器学习、图像处理、数据挖掘中最强大的聚类工具之一。

更多文章

前端开发 2026/6/17 7:21:41

Python的__init_subclass__类装饰器链式调用与元类协作

Python的类装饰器与元类机制一直是其面向对象编程中的高级特性，而__init_subclass__的引入进一步丰富了类层次结构的控制能力。当开发者需要在不显式使用元类的情况下定制子类行为，或实现装饰器链式调用与元类的协作时，这一特性展现出强大的灵…

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 要降低人工智能生成文本的辨识度，得从多个维度着手干预。其一，别用过…

张开发

前端开发 2026/6/17 7:02:30

深度解析UnityLive2DExtractor：高效提取Live2D Cubism 3资源的完整实战指南

深度解析UnityLive2DExtractor：高效提取Live2D Cubism 3资源的完整实战指南【免费下载链接】UnityLive2DExtractor Unity Live2D Cubism 3 Extractor 项目地址: https://gitcode.com/gh_mirrors/un/UnityLive2DExtractor UnityLive2DExtractor是一款专业级的…

张开发

通俗易懂讲透谱聚类（Spectral Clustering）

最新文章

拆解RoF-X-X系列：手把手教你配置热插拔与链路冗余，打造高可靠卫星地面站

避坑指南：Mac+VS Code+Anaconda配置PyQt6/PySide6时，Designer和rcc路径到底怎么找？

IoT-MCP框架：大语言模型与物联网的智能交互方案

抖音批量下载助手终极指南：三步自动化采集海量视频素材

AI Agent 时代：如何让AI帮你编写高质量Java接口

实战指南：如何在CIFAR-100-LT上使用LDAM Loss提升长尾分类效果（附代码）

推荐文章

相关文章

分享文章

更多文章

Python的__init_subclass__类装饰器链式调用与元类协作

Yahoo Finance API .NET包装器：快速构建金融数据应用的完整指南

告别内存噩梦：用现代C++（C++11/14/17）思路根治0xC0000005崩溃

智能字幕解决方案：让Jellyfin媒体服务器实现全自动中文字幕管理

别再手动拖拽了！用Next AI Draw.io，一句话生成AWS架构图（附Docker部署避坑指南）

不止于精度图：用EVO的进阶功能深入分析你的SLAM算法表现

用GEE和Sentinel-5P数据，5分钟搞定城市空气质量变化趋势图（以NO2为例）

旧本焕新记：华硕A555L低成本改造实战与取舍

rPPG非接触式心率检测框架：从零开始构建你的远程生理监测系统

3分钟掌握Office文档快速预览：无需打开完整程序就能查看Word、Excel、PPT

2025届最火的五大降AI率工具解析与推荐

深度解析UnityLive2DExtractor：高效提取Live2D Cubism 3资源的完整实战指南