在真实采集条件下评估航空LiDAR点云语义分割的深度学习模型:以纳瓦拉为例

张开发
2026/4/19 3:46:51 15 分钟阅读

分享文章

在真实采集条件下评估航空LiDAR点云语义分割的深度学习模型:以纳瓦拉为例
大家读完觉得有帮助记得关注和点赞摘要深度学习的最新进展显著改善了3D语义分割但大多数模型侧重于室内或地面数据集。它们在真实航空采集条件下的行为仍未得到充分探索尽管已有一些研究涉及类似场景但其在数据集设计、采集条件和模型选择上均有所不同。为弥补这一空白我们进行了一项实验性基准测试评估了多种最先进的架构在一个大规模航空LiDAR数据集上的表现该数据集是在西班牙纳瓦拉的实际飞行条件下采集的覆盖了异质的城市、乡村和工业景观。本研究比较了四种具有代表性的深度学习模型包括 KPConv、RandLA-Net、Superpoint Transformer 和 Point Transformer V3在航空测量中常见的五个语义类别如地面、植被、建筑物和车辆上的性能突出了航空数据中类别不平衡和几何可变性的固有挑战。结果表明所有测试模型的总体准确率均超过 93%其中 KPConv 通过在各类别上一致的表现获得了最高的平均交并比78.51%尤其是在具有挑战性和代表性不足的类别上。Point Transformer V3 在代表性不足的车辆类别上表现出卓越的性能75.11% IoU而 Superpoint Transformer 和 RandLA-Net 则是在分割鲁棒性和计算效率之间进行了权衡。1 引言航空激光探测与测距 已成为获取地球表面大规模三维信息的重要技术。机载激光扫描系统 能够以高几何精度重建地形、植被和城市结构支持环境监测、土地管理和基础设施评估等应用。随着这些数据集空间分辨率和覆盖范围的增加自动语义分割方法对于将原始点云转化为有意义的空间产品如数字表面模型 和数字地形模型变得至关重要。在过去的十年中深度学习推动了3D语义分割的重大进展。继开创性地直接处理无序点集的基础性 PointNet 之后后续基于分层采样、卷积和图的方法以及近期基于 transformer 的模型在成熟的基准测试上取得了越来越强的性能尤其是在室内和地面领域。然而这些数据集中的大多数与航空LiDAR数据的特征存在显著差异后者通常表现出不规则密度、强烈的类别不平衡和物体尺度的巨大变化。因此现有3D分割模型在航空场景下的可迁移性仍只被部分理解。与地面或城市测绘环境相比航空LiDAR分割面临独特的挑战。天底点视角和飞行参数导致不均匀的点分布而大范围的地理覆盖引入了场景组成的高度可变性。植被、地面和建筑物等类别在大多数场景中占主导地位而车辆等较小物体的代表性不足。这些因素使得在大规模评估对于评估实际采集条件下模型的鲁棒性至关重要。最近的基准测试如 DALES 和 FRACTAL拓宽了航空LiDAR数据的地理和语义多样性推动了深度学习在航空分割任务中的应用。然而大多数公开可用的数据集包括 DALES 和 FRACTAL在以下某些方面仍然有限空间范围、点密度、评估方法的范围或所代表环境的多样性。此外新架构的出现特别是基于 transformer 的模型凸显了对航空数据进行更新的比较评估的必要性因为这些方法在此领域很大程度上尚未得到评估。为弥补这一空白本研究的目的是在西班牙纳瓦拉获得的涵盖异质城市、乡村和工业景观的实际航空LiDAR数据上对四种具有代表性的方法进行基准测试KPConv、RandLA-Net、Superpoint Transformer 和 Point Transformer V3涵盖了卷积、基于MLP和 transformer 的架构。评估纳入了代表当前最先进水平但基本未在实际航空数据上评估过的近期基于 transformer 的模型评估它们在具有自然类别不平衡和可变点密度的未经过滤场景下的性能。因此本研究旨在评估这些条件下模型的鲁棒性、类别级性能和泛化能力通过提供对当前深度学习在航空LiDAR数据上性能状态的见解来补充现有基准。2 相关工作随着深度学习架构的发展3D点云的语义分割取得了快速进展。早期的方法如 PointNet为直接处理无序点集奠定了基础而 PointNet 则引入了分层多尺度聚合。后续方法探索了不同的范式基于卷积的方法包括 KPConv、PointCNN 和 PointConv高效的基于MLP的架构如 RandLA-Net以及基于图的方法如 DGCNN 和 Superpoint Graphs。最近基于 transformer 的模型 通过注意力机制建模点集达到了最先进的性能。然而这些架构大多是在室内或地面数据集上开发和评估的例如 S3DIS、ScanNet、SemanticKITTI 和 Semantic3D。这些数据集在采集视角、采样密度、空间范围和类别分布上与航空LiDAR存在显著差异使得将结论直接迁移到航空场景的可靠性不确定。深度学习在航空LiDAR中的应用最近随着专门的ALS基准测试而受到更多关注。ISPRS Vaihingen 基准 是首个为航空LiDAR语义标注九个类别制定标准但其有限的覆盖范围0.2 平方公里和较低的点密度4–7 点/平方米使其不足以训练现代深度学习架构。早期的大规模工作如 DFC 2018 和 DublinCity分别扩展了空间覆盖范围和点密度但在环境多样性或地理范围上仍然有限。DALES 代表了一个重要的里程碑覆盖 10 平方公里包含 5 亿个标记点密度为 50 点/平方米八个类别评估了包括 KPConv、PointNet 和 Superpoint Graphs 在内的多种架构在城市场景上的表现。随后的贡献解决了特定方面LASDU 专注于密集城市环境OpenGF 提供了最大的公开可用地面滤波数据集47 平方公里YUTO Semantic 在多个飞行任务中进行了跨模型评估KPConv、RandLA-Net、EyeNet尽管仅限于城市环境。其他专门的数据集包括 CENAGIS-ALS以其在城市街区上极高的密度275 点/平方米而著称。最近FRACTAL 引入了一个超大规模数据集覆盖 250 平方公里的异质法国景观包含 92.6 亿个标记点密度为 37 点/平方米提供了前所未有的地理多样性涵盖乡村、城市和森林环境尽管只评估了一个 RandLA-Net 基线。ECLAIR 提供了相当大的覆盖范围10 平方公里和高点密度50 点/平方米以及十一个语义类别尽管只评估了基于 Minkowski 的架构。尽管取得了这些进展大多数公开可用的ALS数据集在空间范围、点密度、评估架构的多样性或环境代表性方面仍然有限。许多依赖于精心控制的采集或以城市为中心的覆盖范围而基于 transformer 的架构的快速出现已经超过了基准测试的发展近期基于 transformer 的模型如 Superpoint Transformer 和 Point Transformer V3基本未在航空数据上进行评估。为此本研究在从异质景观中实际采集的航空LiDAR数据上对四种具有代表性的架构进行了基准测试KPConv、RandLA-Net、Superpoint Transformer 和 Point Transformer V3涵盖了卷积、基于MLP和 transformer 的范式为实际条件下模型的鲁棒性和类别级性能提供了更新的比较性见解。3 实验设置3.1 数据与预处理实验在一个在潘普洛纳地区西班牙纳瓦拉实际飞行条件下采集的大规模航空LiDAR数据集上进行。该调查覆盖约 4 平方公里包含城市、工业、乡村和半乡村环境如图1所示分为训练集65%和测试集35%平均点密度约为 50 点/平方米。每个点由其三维坐标 (x, y, z)、强度、RGB颜色、回波编号、回波数量和归一化植被指数描述。该数据集包含五个代表典型航空测绘场景的语义类别地面、低矮植被、中/高植被、建筑物和车辆。表 I 总结了每个语义类别的点分布突出了实际航空数据中典型的显著类别不平衡特别是车辆和低矮植被类别它们合计约占标记点的 2%。为了进行训练和评估原始点云被分割成重叠的 50×50 米图块坐标和每点属性在训练前都进行了归一化。在推理时通过点级别的类别概率平均来合并重叠图块的预测提供了额外的空间上下文和隐式的测试时数据增强。类别点数 (百万)百分比 (%)地面87.9962.50低矮植被1.981.41中/高植被22.7716.17建筑物27.0919.24车辆0.960.68总计​140.80​100​表 I每个类别的标记点数单位百万及百分比。图1西班牙纳瓦拉潘普洛纳周边评估LiDAR场景的地理分布。绿色区域表示训练区红色区域表示测试集。3.2 模型选择了四种具有代表性的深度学习架构进行比较KPConv、RandLA-Net、Superpoint Transformer 和 Point Transformer V3。选择这些模型是因为它们捕捉了3D点云处理中的互补范式是近期文献中最广泛采用的基线之一并且在公共基准测试中始终表现出强大的性能。KPConv 是一种基于卷积的架构通过内核点集在点邻域上定义连续卷积核。由于其能够保留精细空间细节并稳健地建模局部表面它在不同领域中表现出高精度。RandLA-Net 代表了一种专为大规模点云设计的轻量级且可扩展的方法。它将随机采样与局部特征聚合层相结合显著降低了内存消耗。这使其特别适合每场景需要处理数百万个点的密集航空LiDAR数据。Superpoint Transformer 引入了一个基于注意力的框架其在几何上一致的超点上操作而非单个点。通过将空间分组与自注意力相结合它有效地捕捉长距离上下文关系同时保留几何结构。Point Transformer V3 放弃了点集的严格置换不变性处理将点云序列化为有序序列并应用分块注意力。这用更简单、更高效的方案取代了计算成本高昂的基于KNN的邻域和繁重的位置编码从而极大地扩展了感受野。所有模型均使用公开可用的源代码实现并在相同的实验条件下进行训练以确保可比性。它们的配置遵循原始出版物推荐的最佳超参数设置并进行了微调以适应航空LiDAR数据的空间尺度和密度。方法总体准确率 (OA)平均IoU (mIoU)各类别IoU地面KPConv96.16​78.51​95.11​RandLA-Net93.3971.9891.23Superpoint Transformer95.3774.2794.42Point Transformer V395.7973.5694.68表 II所选方法在数据集测试集上的概述。我们报告了每个类别的总体准确率、平均IoU和每个类别的IoU。每列中的最佳值以粗体显示。3.3 训练协议所有模型均采用相同的实验设置进行训练以确保公平比较。训练在一台配备NVIDIA RTX 6000 Ada GPU48 GB显存、AMD EPYC 9454处理器和64 GB内存的工作站上进行。每个模型用不同的随机种子训练三次报告的结果对应于这些运行的平均性能以考虑训练变异性。所有模型在归一化坐标空间中使用 0.005 的网格大小导致有效采样密度约为每平方米 20 个点。批大小根据每个架构的要求进行调整RandLA-Net 为 24KPConv 和 Point Transformer V3 为 10Superpoint Transformer 为 4。数据集被划分为训练集和测试集模型训练至收敛。3.4 评估指标模型性能使用3D点云语义分割的标准指标进行评估包括总体准确率、每个类别的交集比并集 和平均IoU。这些指标共同量化了全局准确性和类别一致性为主流类别和少数类别提供了全面的评估。每个类别的IoU、平均IoU 和总体准确率 定义如下其中 TPc​、FPc​和 FNc​分别表示类别 c的真阳性、假阳性和假阴性的点数Nc​是类别总数。虽然OA总结了总体正确性但mIoU通过对所有类别进行同等加权在类别不平衡情况下提供了更具信息性的洞察。同时报告全局指标和每个类别的指标确保了模型之间的公平比较特别是对于代表性不足的类别。模型参数量 (百万)训练轮数训练时间 (分钟)推理时间 (分钟)KPConv23.262061140RandLA-Net1.118030717Superpoint Transformer0.218051319Point Transformer V346.1812053114表 III计算效率比较。参数量以百万计时间以分钟计。训练时间指直到收敛的总时长推理时间指处理整个测试集的时间。4 结果本节介绍基准测试的定量和定性结果。分析聚焦于全局指标和每个类别的性能以识别模型在主流和少数类别之间行为的差异以及它们的计算效率。4.1 定量性能表 II 总结了四种评估架构在数据集测试集上的整体性能。结果显示所有模型都达到了很高的总体准确率范围从 93.39% 到 96.16%证明了现代深度学习方法在航空LiDAR分割方面的通用能力。然而对所有类别进行同等加权的平均IoU指标显示出更明显的差异范围从 71.98% 到 78.51%表明跨语义类别的鲁棒性存在不同程度的差异。表 III 展示了计算成本比较揭示了模型复杂性、训练持续时间和推理速度之间的显著权衡。KPConv 成为性能最佳的模型实现了最高的总体准确率96.16%和平均IoU78.51%。值得注意的是它在五个语义类别中的四个处于领先地位包括地面95.11%、低矮植被33.61%、中/高植被95.12%和建筑物93.97%。然而这种卓越的精度是以显著的计算成本为代价的。如表 III 所示KPConv 需要最长的训练时间20个轮次共 611 分钟和推理时间40 分钟参数量为 2326 万反映了其沉重的计算负荷。RandLA-Net 尽管实现了最低的平均IoU71.98%但在主流类别如地面 91.23% 和中/高植被 93.57%上保持了有竞争力的性能。随机采样策略虽然在计算上高效但似乎丢失了准确分类少数类别和边界区域所需的关键几何细节这从其低矮植被23.61%和建筑物82.49%上的性能可以看出。其参数量仅为 111 万展示了最快的训练时间80个轮次共 307 分钟和第二快的推理时间17 分钟突显了其计算效率。Superpoint Transformer 在大多数类别上表现出平衡的性能平均IoU排名第二74.27%。其基于超点的聚合在计算效率和分割质量之间提供了良好的权衡。然而它在低矮植被上表现不佳20.61%表明在超点级别的几何分组可能会将稀疏植被与周围地形合并。其参数量仅为 21 万是最轻量级的架构。Point Transformer V3 在车辆类别上实现了最高性能75.11% IoU比 KPConv 高出 0.35 个百分点验证了注意力机制对于小而孤立物体的有效性尽管它们在训练数据中稀缺。然而PTv3 在低矮植被上表现最差11.23% IoU表明基于序列化的分组策略可能难以处理漫散、低密度的点模式。尽管具有最高的参数量4618 万但由于其优化的架构它实现了最快的推理时间14 分钟。最引人注目的观察结果是所有模型在主流类别和少数类别之间的性能差距。虽然所有架构在地面、中/高植被和建筑物上的IoU都超过了 91%但低矮植被的结果范围在 11.23% 到 33.61% 之间。这反映了实际航空LiDAR数据中存在的严重类别不平衡其中低矮植被仅占总点数的 1.41%见表 I。车辆类别虽然同样代表性不足0.68%但在所有模型中都达到了显著更高的IoU69.02%–75.11%这可能是因为与低矮植被的漫散性相比它具有更独特的几何结构。4.2 定性分析此处应插入图2。根据原文图2是定性比较的可视化结果展示了RGB图像、真实标签以及四个模型的分割结果对比。代表性测试场景的定性比较展示了RGB图像、真实标签以及四个评估架构的分割结果。在语义类别中低矮植被始终是最具挑战性的。其几何形状与地面和中/高植被高度重叠形成薄薄的不连续层。这使得它比车辆等紧凑且几何形状独特的物体更容易被混淆尽管它在数据集中也高度代表性不足。KPConv 提供了最连贯的分割。建筑物屋顶和植被边界被清晰地划分几乎没有渗色并且恢复了最大体积的低矮植被证明了对这种挑战性类别相比其他架构具有更高的敏感性。RandLA-Net 表现出最明显的错误。大的平面屋顶经常被误分类为地面模糊的结构也会被归为此类。小型车辆的预测偶尔出现在建筑物或平坦表面上反映了其随机采样策略引入的边界模糊性。Superpoint Transformer 产生了干净且稳定的建筑物掩码。目视检查显示即使在低矮植被区域也表现出稳健的分割性能。值得注意的是它正确地识别了一个对其他架构具有挑战性的复杂建筑结构证明了其处理复杂几何形状的鲁棒性。Point Transformer V3 实现了最可靠的车辆检测这得益于其广泛的感受野和基于注意力的特征加权。然而在植被和建筑物空间交织的区域它表现出轻微的颜色渗色并且很少预测低矮植被这些植被通常被吸收到地面类别中。总的来说定性检查强化了定量结果说明了性能差异如何转化为边界精度、少数类别恢复和几何细节保留方面可观察到的差异。5 结论本工作对四种最先进的深度学习架构KPConv、RandLA-Net、Superpoint Transformer 和 Point Transformer V3在覆盖西班牙纳瓦拉异质景观的实际航空LiDAR点云上进行了基准测试。实验反映了以强烈类别不平衡为特征的实用航空测绘场景。结果表明所有架构都实现了较高的总体准确率93%但平均IoU显示出更明显的差异71.98%–78.51%。这种差异的出现是因为总体准确率由主流类别主导而平均IoU对所有类别进行同等加权从而暴露了在处理少数类别时的困难。在此背景下KPConv 作为整体性能最佳的模型脱颖而出在所有语义类别上表现出鲁棒性特别是在低矮植被33.61% IoU等少数类别上表现出色。Point Transformer V3 在具有清晰几何结构的少数类别上表现良好特别是车辆75.11% IoU。Superpoint Transformer 以高参数效率实现了有竞争力的结果而 RandLA-Net 则以其较低的整体性能作为其计算效率的权衡。在低矮植被上持续存在的困难IoU范围 11.23%–33.61%突显了近地植被层固有的几何模糊性以及在真实飞行条件下由严重类别不平衡带来的挑战。这强调了对实际航空LiDAR分割中改进少数类别识别的专门策略的需求。本基准测试提供了在当前实际条件下模型能力和局限的定量和定性证据有助于弥合受控研究环境和实际大规模部署之间的差距。未来的工作应探索超越逐点指标的评估方法以更好地捕捉空间一致性以及针对航空LiDAR特征明确设计的架构或训练策略。

更多文章