摘要:语义分割技术能够对复杂、多元的场景实现细粒度理解,是促进无人系统高效、智能工作的关键技术之一.大规模无监督语义分割旨在从大规模未标记图像中学习语义分割能力.然而,现有方法由于自学习伪标签存在类别混淆和形状表示欠佳的问题,导致最终分割精度较低.为此,本文提出一种伪标签去噪和SAM优化(Pseudo-label Denoising and SAM Optimization,PDSO)方法以解决大规模无监督语义分割问题.本文设计了一种基于去噪的特征微调模块,在基于小损失准则从大规模数据集中筛选出具有干净图像级伪标签的潜在样本后,利用这些干净样本对预训练的主干网络进行微调,使网络获得更稳健的类别表示.为了进一步减少伪标签中的类别噪声,设计了一种基于聚类的样本去噪模块,根据类别占比和样本与聚类中心之间的距离来去除干扰聚类任务的噪声样本,从而提升聚类性能.本文还设计了一种SAM提示优化模块,根据聚类距离识别出图像中的活跃类别,以过滤噪声目标,并将点和框作为SAM的目标提示信息,生成预期的目标掩膜以细化伪标签中目标的边缘.实验结果表明,在大规模语义分割数据集ImageNet-S50、ImageNet-S300和ImageNet-S919的测试集上,本文方法在平均交并比指标上分别达到了45.0%、26.6%和14.5%,显著提高了分割目标的类别准确率和边缘精度.
摘要:随着工业化和城市化的快速发展,环境监测的重要性日益凸显,然而传统监测方法受限于高昂成本、布局困难和维护挑战,难以实现全面和实时的监测.群智感知作为一种新兴的环境监测方法,利用广泛使用的高度智能设备和集成传感器进行环境数据的大规模收集和实时传输.但现有研究很少同时考虑到数据隐私保护、工作平衡以及系统成本,导致在实际应用中难以达到预期效果.为解决这一问题,本文提出一种能适用于环境监测群智感知的低成本、高效率方法(Adaptive Federated Learning based Crowd Sensing algorithm for Environmental Monitoring,AFL-CSEM).具体而言,考虑系统中的资源限制、设备异构性和数据非独立同分布等挑战,本文结合群智感知与联邦学习技术进行了系统建模,在用户设备上进行本地模型训练,仅共享模型参数,有效保护数据隐私;进行系统的收敛性分析,得到基于联邦学习的群智感知算法在非独立同分布数据分布下的收敛界限;为了减少设备异构性影响,依据收敛性分析的结果,设计一种自适应控制方法,动态调整局部更新频率和批大小,以适应异构与动态的监测环境.通过在真实数据集上的比较,所有实验结果一致证明了本文所提出算法的有效性,AFL-CSEM算法在减少计算和通信开销、降低经济成本的同时,提升了模型训练的效率与精度,为环境监测领域的群智感知提供了一种新颖且具有参考价值的解决方案.
摘要:可见光热红外(RGB and Thermal infrared,RGBT)跟踪是一种结合了可见光和热红外光两种不同传感器信息的多模态目标跟踪方法.这种方法旨在克服单一传感器在特定环境下的局限性,通过融合多种传感器的数据来提高目标跟踪的鲁棒性和准确性.然而,在现有的RGBT跟踪算法中,大多将可见光与热红外图像提取的特征直接进行融合,忽略了两种模态间的同质性与异质性.此外,RGBT跟踪还经常受到目标快速运动、尺度变化、光照变化、热交叉和遮挡等多种挑战因素的影响,现有工作往往是通过研究单一结构来同时解决所有问题,但这需要足够复杂的模型和足够多的训练数据.本文提出了一种新的面向不同挑战并结合多模态同异质信息分离与融合的网络,用于RGBT跟踪.在该网络的每层主干中都设计了一个挑战感知模块用于融合每种挑战下来自可见光与热红外两种不同模态的特征,并自适应地聚合所有挑战下的融合特征.此外,还加入了注意力增强模块及多尺度辅助模块对主干网络所提取的特征进行增强.最后根据可见光与热红外的同质性与异质性,分别提取它们的特有特征与共有特征并进行自适应融合.在GTOT、RGBT234和LasHeR数据集上的大量实验表明,与现有RGBT跟踪方法相比,本文提出的跟踪器显示出非常强的竞争力.
摘要:在复杂自然场景的端到端文本识别中,由于文本和背景难以区分,文本检测的位置信息和识别的语义信息不匹配,无法有效利用检测和识别之间的相关性.针对该问题,本文提出双域感知下多方显式信息协同的自然场景端到端文本识别方法(Multi-party Synergetic explicit Information with Dual-domain Awareness text spotting,MSIDA),通过强化文本区域特征和边缘纹理,利用文本检测和识别特征之间的协同作用提高端到端文本识别性能.首先,设计融合文本空间和方向信息的双域感知模块(Dual-Domain Awareness,DDA),增强文本实例的视觉特征信息;其次,提出多方显式信息协同模块(Multi-party Explicit Information Synergy,MEIS)提取编码特征中的显式信息,通过匹配对齐用于检测和识别的位置、分类和字符多方信息生成候选文本实例;最后,协同特征通过解码器引导可学习的查询序列获得文本检测和识别的结果.相比最新的DeepSolo(Decoder with explicit points Solo)方法,在Total-Text、ICDAR 2015和CTW1500数据集上,MSIDA模型的准确率分别提升0.8%、0.8%和0.4%.代码和数据集在https://github.com/msida2024/MSIDA.git可以获取.
摘要:阿尔茨海默病(Alzheimer’s Disease,AD)是一种慢性神经系统退行性疾病,其准确分类有助于实现AD的早期诊断,从而及时采取针对性的治疗和干预措施.本文提出了一种最近邻域聚合图神经网络(Graph neural network with nearest Neighborhood AgGrEgation,GraphNAGE)的AD分类新方法.首先进行图数据建模,将AD数据样本表示为图数据.采用基于互信息(Mutual Information,MI)的特征选择方法,从样本的114维大脑皮层与皮层下感兴趣区域(Cerebral Cortex and Subcortical Regions Of Interest,CCS-ROI)的体积特征中选取重要性高的体积特征,并将其用于节点建模.提出基于相似性度量的关系建模方法,利用重要性高的体积特征、遗传基因、人口统计信息和认知评分对样本之间的关系进行建模.进而构建GraphNAGE,针对每个节点,基于与该节点相关的边的权重进行最近邻域采样,然后使用均值聚合方法对采样得到的邻居节点和中心节点的数据进行聚合,最后通过一个全连接层和一个Softmax层实现AD分类.在TADPOLE(The Alzheimer’s Disease Prediction Of Longitudinal Evolution)数据集上进行实验,结果表明:本文提出的AD分类方法的准确率(ACCuracy,ACC)为98.20%,分数为97.34%,曲线下面积(Area Under Curve,AUC)为97.80%.实验结果表明:本文提出的AD分类方法充分利用了AD数据样本之间的相关性,其性能优于传统的基于机器学习、深度学习和图神经网络(Graph Neural Network,GNN)的AD分类方法.