《Improving RGB-infrared object detection with cascade alignment-guided transformer》论文分享(侵删)

张开发
2026/4/21 13:23:20 15 分钟阅读

分享文章

《Improving RGB-infrared object detection with cascade alignment-guided transformer》论文分享(侵删)
原文链接https://doi.org/10.1016/j.inffus.2024.102246author{Maoxun Yuan and Xiaorong Shi and Nan Wang and Yinyan Wang and Xingxing Wei}摘要多光谱数据在目标检测中的融合特别是可见光和红外图像是近年来备受关注的课题。来自可见光(RGB)和红外(IR)图像的互补信息可以改善可变光照条件带来的挑战使其成为许多领域的宝贵资源包括RGB-IR目标检测、RGB-IR语义分割和RGB-IR人群计数。然而现有的方法仍然存在弱对准和融合精度不高的问题。这两个问题对准确的目标检测提出了巨大的挑战。本文主要解决RGB-IR目标检测任务中的上述问题。具体地说我们首先提出了一种平移比例旋转对齐(TSRA)模块来对齐区域建议中的两个通道特征。基于对齐区域特征我们引入了互补融合变压器(CFT)模块来捕捉互补特征。这两个模块可以耦合在一个统一的感兴趣区域(ROI)检测头中称为级联对准制导变压器(CAGT)以获得稳健的融合特征。最后在CAGT的基础上构建了一个用于RGB-IR目标检测的区域特征对齐与融合检测器CAGTDet。通过在无人机数据集上的综合实验我们的方法有效地缓解了这两个问题的影响得到了稳健的检测结果。此外为了评估该方法的泛化能力我们还在KAIST多光谱行人数据集中的自然图像上进行了实验。结果表明我们的方法优于其他先进的方法。1. Introduction图1。RGB-IR目标探测中的弱不对准和融合不精确问题的例子。图(A)显示了无人机数据集的基本事实注释。红色和黄色框对应于两个通道中相同对象的注释。需要注意的是虽然这些配对图像已经通过图像配准算法进行了处理但是未对准仍然存在。子图(B)可视化了一个融合不精确问题的例子其中显示融合的特征甚至比提取的可见特征更差。空中目标检测是精准农业、救灾和紧急救援等各种现实应用中必不可少的一步。与通常从较低海拔视角拍摄的传统图像不同航空图像提供了鸟瞰。这意味着这些图像中的对象通常是任意定向的。为了应对这些挑战已经提出了几种面向最新技术的目标检测方法[4-7]并在复杂的航空图像数据集上取得了令人印象深刻的结果[189]。然而这些方法是专门为可见光(RGB)图像设计的无法解决夜间场景等照明条件有限带来的挑战。红外摄像机已经被用来导航这些复杂的场景。这些相机能够探测热辐射使它们即使在昏暗的光线下也能产生清晰的物体轮廓使可见光(RGB)图像和红外(IR或T)图像兼容。可见光(RGB)和红外(IR)图像之间的这种兼容性在许多领域都有应用例如RGB-IR车辆检测、RGB-IR行人检测和RGB-IR显著目标检测。然而在这些任务中有两大困难仍然没有解决。(1)图像不对准是RGBIR图像应用中的一大挑战。以前的工作[1011]通常假设RGB和IR图像对在几何上是完全对齐的[12-14]并直接使用特征融合方法。然而即使在执行了图像配准算法后配对的图像也只是弱对齐缺乏精确的对准。如图1(A)所示以DroneVehicle[15]数据集为例航空图像对中的对象由于其任意方向而经常在位置、比例和角度上发生变化。考虑到这三个偏差的相关性这三个偏差中的一个偏差(位置、大小和角度)的变化将影响其他偏差。因此航空RGB-IR图像对中的弱不对准问题是相当复杂的。(2)特征级融合是多通道任务中常用的融合策略之一。利用卷积神经网络(CNN)强大的特征提取能力前人的工作[1617]已经通过特征级联获得了可以接受的融合性能。然而在一些极端情况下这些方法存在融合不精确的问题如图1(B)所示。融合后的特征甚至比从任一种模式提取的特征都差导致下游任务的性能下降。针对上述问题本文围绕RGB-IR目标检测任务在目标检测过程中实现区域级对齐和融合。我们的主要思想是通过预测区域提案在两种模式中的偏差并利用自我注意机制来实现互补融合来解决上述两个问题。为了解决弱对齐的挑战我们引入了平移、缩放和旋转对齐(TSRA)模块。该模块被设计用来校准从两个通道提案中得出的感兴趣区域(ROI)特征。在本模块中我们首先应用通道选择(MS)策略来选择高质量的标注作为参考包围盒。然后我们对两个模式的区域特征进行通道校准(MC)过程以执行特征对齐过程。为了进一步提高对齐过程的精度我们还将其扩展为级联版本以执行从粗略到精细的步骤。对于融合的不精确性问题我们利用Transformer的长程依赖建模能力[18]引入互补融合变换(CFT)模块对每对对齐的感兴趣区域进行感兴趣区域特征融合。在所提出的跨通道互补注意机制的帮助下我们的CFT增强了通道本身的特征同时捕获了来自另一通道的互补特征。在该模块中我们还设计了目标区域感知损失来引导CFT缩短类内距离和扩大类间距离。这两个模块耦合在一个称为级联对齐制导Transformer(CAGT)的统一ROI头中以获得最终稳健的ROI功能。综上所述本文主要做了以下几个方面的工作·提出了一种新的多模式检测头CAGT用于解决区域级的弱对准和融合不精确问题。据我们所知这是通过改进探测头来解决上述问题的第一项工作。·为了解决上述两个问题我们提出了平移、缩放和旋转对齐(TSRA)模块和互补融合变压器(CFT)模块。这两个模块耦合在目标检测头中以获得最终的融合特征。·为了评价方法的有效性我们在此基础上构建了基于CAGT的RGB-IR目标检测方法。在DroneVehicle数据集和KAIST数据集上的大量实验表明所提出的模型能够有效地解决弱对齐和融合不精确问题。2. Related work2.1. Cross-modal image alignment图像对齐是将感测图像转换为参考图像以便它们共享相同的坐标系以促进像素级匹配的过程。目前的方法通常分为两类基于区域的方法和基于特征的方法。基于区域的方法[2021]使用相似性度量函数对齐图像对而基于特征的方法[2223]涉及四个步骤特征提取和匹配、变换模型估计和图像扭曲。鉴于深度学习在特征提取中的强大潜力许多研究人员[24-26]已经开发出数据驱动的跨模式图像对齐策略。Dou等人。[24]提出了一种用于图像块匹配的多特征关系该关系可以利用特征关系之间的优势互补。为了实现高精度、低成本的遥感图像配准叶等人。[25]设计了一种无监督学习方法的多尺度框架在多尺度上生成一条从粗到精的排列管道。最近一种新的ShapeConv[26]被提出来捕捉复杂的特征交互以寻求良好的对应。虽然图像对准是各个领域中的关键过程但它增加了额外的时间消耗并且无法完全解决弱未对准问题。与这些方法相比我们提出了一种专门针对RGB-IR目标检测任务的区域级对齐方法。2.2. RGB-T transformertransformer模型[18]最近显示了它在捕获远程依赖方面的优势。为了融合可见光和红外通道特征已经探索了RGBT变压器[27-29]。VS等人。[30]将变压器引入可见光和红外图像融合中设计了一种多尺度融合策略。TGFUSE[27]还提出了基于变换和生成式对抗网络的红外和可见光图像融合方法。除了将多模式转换器应用于像素级融合任务外Liu等人还提出了一种新的算法。[29]利用RGBT图像对上的两个SWIN转换器进行RGB-T显著目标检测。类似地酱等人也是如此。[31]提出了在RGB-T显著目标检测中利用MCNet提取共享通道特征的方法。此外冯等人还提出了一种RGBT跟踪框架。[32]基于变压器框架。最近利用RGB和红外图像进行跨通道的人重新识别任务也受到了广泛的关注。郑等人。[34]提出了一种基于视觉转换器的区分特征学习网络DFLN-VIT用于跨通道人的再识别。此外设计了一个结构感知的位置转换网络SPOT[35]用于学习语义感知的可共享情态特征探索丰富的上下文和结构信息。由于这些模型在特征融合过程中忽略了模式之间的相关性郑等人对此进行了研究。[36]针对这一问题提出了一种新的多通道人名识别方法-变压器关系正则化方法。与上述方法不同的是我们的方法是专门为RGB-T目标检测任务设计的可以用来解决检测头中的弱对准和融合不精确问题。2.3. Multispectral object detection多光谱目标检测是目标检测的一个重要研究领域取得了显著的研究成果。由于一些RGBT数据集[1537]已经公布越来越多的研究被提出利用对准的RGB和IR图像来提高探测器的性能。Wagner等人。[38]构建了第一个利用多通道图像进行融合的融合架构提高了目标检测的可靠性。[1239]设计了一种光照感知融合模块用于动态融合RGB-IR特征。此外Cian[17]还提出了利用不同通道的交互注意机制来融合特征。周等人。[40]通过设计一种称为DMAF的特征融合模块来解决通道不平衡问题。最近多模式显著对象检测[41]受到越来越多的关注并且已经开发了各种方法[134243]。张某等人。[13]建立端到端多层次的显著目标检测框架。为了探索共享信息和特定通道的特性提出了一种RGB-D显著目标检测的特异度保持网络(SPNET)[43]。此外Zhang et al.[42]设计了第一个利用不确定性进行RGB-D显著检测的随机框架。与这些方法不同的是我们的目标是解决弱对准和融合不精确的问题并提出了TSRA模块和CFT模块来对准和融合ROI头部的RGB-IR特征。3. Methodology3.1. Translation-scale-rotation alignment module我们提出的TSRA以插入式模式工作因此可以集成到两级探测器的结构中以有效地应对弱未对准的挑战。该模块主要由两部分组成通道选择策略和通道校准过程。图2.我们设计的评估方法概述在后续步骤中概述(A)原始边界框。(B)扩展包围盒。(C)裁剪物体。(D)两化进程。(E)将原始边界框映射到裁剪后的图像。(F)分数的计算。Modality-Selection Strategy.正如在[19]中所分析的模式选择(MS)策略旨在从两个模式中选择最好的带注释的边界框作为参考模式而不是简单地选择红外图像[4044-46]。通过该操作我们区分了参考包围盒和感测包围盒以识别参考和感测特征。如图2所示设计了一种用于RGB和IR图像的评价方法来确定感测和参考包围盒。具体地说每个成对的边界框和最初被展开以包含整个对象。随后我们从它们各自的原始图像中裁剪完整的对象和并对它们进行彩色二值化。最后我们通过评估它们各自的二值图像)和)来计算分数(和()。然后选择分数最高的那个作为参考边界框(例如如果gt我们选择)。分数的计算如下其中和obj分别表示原始边界框和整个对象中的白色像素数。框表示原始边界框中的总像素数。为评估分数范围为0到1。如果是理想的批注则分数应接近1。Modality-Calibration Process.图3.通道校准(MC)过程的特定结构利用三组完全连接的层来预测位置、大小和角度上的偏差。这些建议是由定向RPN预测的。参考文献[4748]我们的方法引入了参考图像和感测图像的概念。如图3所示通过应用旋转的RoIAlign操作从提取的特征中汇集输入特征和。然后通过输入特征的减法运算得到新的特征地图表示为−。之后在特征映射中捕获两个模态之间的表示。此外使用表示为的三个线性层分支来预测位置偏差、角度偏差和尺寸偏差。因此偏差表示可以表示为然后将该预测偏差添加到原始建议(ℎ)以获得新的经调整的建议(ℎℎ)。最后通过旋转RoIAlign操作重新汇集特征得到对齐的特征表示为Multi-task Jitter.图4多任务抖动方法的演示其中红色框表示感测的边界框而蓝色和绿色框描述抖动提议的实例。受RoI jitter的启发[44]我们提出了一种新的多任务抖动(MJ)来提高MC过程的对准精度。如图4所示多任务抖动被应用于所感测的提案以论证偏差。其中ℎ和分别表示检测到的抖动建议的位置、宽度、高度和角度。Cascade Calibration Structure.图5.级联通道的结构--校准过程。B和C分别代表类和包围盒它们是分类和回归的结果。由于单个MC操作可能不能在所有距离级别上完美地执行对准过程因此MC过程可以被分解为从粗到细的对准步骤的序列。参考Cascade R-CNN[49]的体系结构级联结构也可以用于我们的TSRA模块。所提出的级联TSRA模块‘的结构如图5所示其公式如下其中是MC进程的次数表示MC进程表示由多任务抖动增强的提案。级联的TSRA模块通过迭代次的MC过程来提炼提议的最终得到精确对齐的特征从而达到更好的检测效果。请注意在级联TSRA的第一步中只使用一次多任务抖动来增加偏差因为在其他步骤中使用此操作将导致级联结构的效率较低。Loss function.我们使用以下损失函数来评估预测偏差的精度其中表示积极提案的数量表示一批提案的索引。和表示预测的位置、大小和角度偏差。变量∈{01}其中如果建议为负则0否则为正。∗∗和∗表示TH感测边界框的相应地面实况偏差表示如下在等式中(7)(ℎ)表示用于指示感测边界框的宽度、高度、位置和角度的堆叠向量而(ℎ)表示基准边界框。3.2. Complementary fusion transformer图6.建议的CFT模块的具体结构。来自两个通道的ROI特征的输入被分成多个块。标记和标记是可学习的嵌入伪装成学习融合的特征表示。在TSRA模块的监督下得到对齐的感兴趣区域特征用于后续的感兴趣区域特征融合过程。我们的融合方案不是直接添加每个感兴趣区域对的特征而是从感兴趣区域特征中探索上下文信息并引入变换结构来优化计算所需的互补特征。如图6所示我们将每对ROI特征和划分为块并将平面化的块特征馈送到输入序列中作为(1…)和(1…)。此外参考文献[50]我们将位置嵌入添加到每对补丁特征上并输入两个可学习的标记和它们的输出状态和代表最终的融合ROI特征用于分类和回归。然后这些输入序列被串联并投射到跨通道互补注意中。Cross-modal Complementary Attention.在MS策略的帮助下参考特征的表示将比感知特征更好。因此我们从检测到的特征中提取互补特征来增强参考特征的表示。为此我们引入了一种新的注意力机制来融合每对感兴趣区域特征。具体地说我们的机制操作于两个补丁特征的拼接关键字和值如()()仅从参考补丁特征查询为。因此该机构的输出特征可以计算为其中表示矩阵的转置运算√是缩放参数。Query、Key、Value都是通过对对应的补丁特征进行线性变换得到的公式如下其中和是查询、关键字和值的线性层的权重。Object-Region-Aware Loss.在多层感知器层之后我们得到和的输出并将它们分别馈送到另外两个独立的感知器层进行分类预测和bounding box预测。为了鼓励变换模型聚焦于前景区域我们提出了目标区域感知损失来最大化类间距离和最小化类内距离。具体地对于 tokens 的每个输出状态我们通过平均 tokens 来获得前台和背景的中心特征其中和表示带有GROUSTREAL注释的输出的数量1表示foreground token0表示background token。因此foreground token和background token之间的距离可以表示为然后每个令牌与中心特征(和)之间的距离可以表示为因此我们在特征学习过程中对类内方差和类间距离进行了优化。最后我们提出的对象区域感知损失可以定义为其中 0是强制分隔前景和背景特征的边距。3.3.基于CAGT的面向对象检测器在以前的版本[19]中结合TSRA模块TSFADet开发了一种两阶段目标检测方法。在此基础上我们进一步构建了一个基于CAGT的检测器CAGTDet来评估我们提出的方法。CAGTDet由一个双流骨干网、一个面向区域的建议网络(Oriented RPN)和我们提出的CAGT组成。在这一部分中我们将详细描述所提出的框架和总损失函数。图7.我们建议的CAGTDet的总体结构。我们将CAGT注入到两阶段目标检测框架中以对齐和融合ROI特征。整体架构。如图7所示我们显示了所提出的定向检测器的总体框架。我们的CAGTDet还建立在面向R-CNN[6]的结构之上并采用双流主干网络来处理RGB-IR输入。遵循FPN结构[51]主干生成五个比例的特征地图。然后这些特征被聚集并接受定向RPN以输出区域建议。然后执行TSRA模块和CFT模块以对准和融合两个通道的ROI特征。最后利用融合后的特征进行分类和回归。Total Loss用于训练探测器的总损耗如下其中和保留与定向R-CNN中相同的公式[6]。在本文中我们使用1在不同的损失函数之间取得平衡。

更多文章