工业过程数据涵盖离散和连续变量,它们之间内在的统计分布特性是揭示系统运行状况的关键.然而,现有的监测模型多聚焦于高斯假设下的连续过程变量,忽略了离散变量、连续变量的多模分布特性以及数据中的噪声、离群点对模型的影响,难以精准反映数据的真实分布特性,对非高斯、非平稳过程的异常检测效果欠佳.因此,本文提出一种鲁棒的工业过程异常检测方法——连续和离散变量协同分析的变分贝叶斯混合判别方法(Continuous and Discrete Variables-Concurrent Analysis-based Variational Bayesian Mixture Discriminant,CDVCA-VBMD).通过构建基于变分贝叶斯推断的面向连续变量的混合学生分布模型与面向离散多变量的混合多项分布模型,有效解决过程变量非高斯分布特性难以有效提取的问题,实现了过程变量复杂相关性的高效处理与分析;同时,在过程监测中引入了持续学习的理念,确保对非平稳时变工业过程异常的有效检测.以数值仿真系统和田纳西·伊斯曼过程为例,进行了大量验证性和对比性实验.结果表明,CDVCA-VBMD能准确估计非平稳工业过程多变量的混合多模分布特性,并对数据中的噪声和离群点具有较强的鲁棒性,从而实现工业异常的准确检测,为非高斯复杂工业过程的长期、鲁棒监测提供了有力支持.
基于Transformer的大语言模型(Large Language Models, LLM)和视觉Transformer(Vision Transformers, ViTs)分别在自然语言处理、机器视觉任务上实现了最为先进的性能.但是ViTs和LLM的常用激活函数GELU(Gaussian Error Linear Unit)、Swish在Transformer全量化推理中存在精度不足、计算效率低的问题,限制了它们在资源受限的边缘端设备上的部署和应用.本文提出了一种基于分段二次多项式拟合的激活函数高精度近似计算方法(Segmented Quadratic Polynomial Fitting,SQPF)及其量化推理过程,以实现端侧非线性激活函数的高性能部署.SQPF采用最小二乘法和粒子群优化方法求解非线性激活函数拟合优化问题,给出最优的二次多项式拟合系数和区间划分.得到的二次多项式拟合采用动态精度定点对称量化方法进行纯整数推理,推理过程仅包含移位操作和乘加运算.本文使用SQPF计算了GELU和Swish的二次多项式拟合Si-GELU和Si-Swish,并评估了量化推理精度.实验结果表明,在标准数据集ImageNet上,Si-GELU引起的ViTs(ViT、DeiT和Swin)模型分类任务准确率衰减仅为0.09%,是其他同类方法的27.3%;在主流的大语言模型评测数据集MMLU上,Si-Swish引起的子类别精度衰减不超过0.77%,大类别精度衰减不超过0.23%.极小的精度损失表明SQPF计算得到的最优分段二次多项式拟合可以直接替换Transformer模型中全精度浮点激活函数,不必进行参数微调或者重训练.
面部动作单元(Action Unit,AU)识别是计算机视觉与情感计算领域的热点课题.AU识别属于多标签二分类任务,目前面临着标签不均衡等挑战.现有的主流算法利用AU之间的关联,通过调整采样率和AU的权重来进行标签重均衡化.然而,这些方法仅仅使模型预测时从偏向出现频率高的标签转为偏向出现频率低的标签,并未解决偏置问题.根据出现频率的高低可将AU划分为头类和尾类,公平对待每一类是实现AU无偏识别的关键.本文引入因果推理理论,提出基于因果干预的无偏化方法(Causal Intervention for Unbiased facial action unit recognition,CIU),以解决多AU间不均衡的问题.通过调整不平衡域和平衡但不可见域上的经验风险实现模型的无偏性.大量实验结果表明,本方法在基准数据集BP4D、DISFA上超越已有的方法,其中在DISFA上超越当前最先进方法1.1%,且可以学习到无偏的特征表示.
Spark作为基于内存计算的分布式大数据处理框架,运行速度快且通用性强.在任务计算过程中,Spark的默认分区器HashPartitioner在处理倾斜数据时,容易产生各个分区数据量不平衡的情况,导致资源利用率低且运行效率差.现存的Spark均衡分区改进方法,例如多阶段分区、迁移分区和采样分区等,大多存在尺度把控难、通信开销成本高、对采样过度依赖等缺陷.为改善上述问题,本文提出了一种基于优先填补策略的分区方法,同时考虑了样本数据和非样本数据的分配,以便实现对全部数据的均衡分区.该方法在对数据采样并根据样本信息估算出每个键的权值后,将键按照权值大小降序排列,依次将键在满足分区容忍度的条件下分配到前面的分区中,为未被采样的键预留后面的分区空间,以获得针对样本数据的分区方案.Spark根据分区方案对样本中出现的键对应的数据进行分区,没有出现的键对应的数据则直接映射到可分配的最后一个分区中.实验结果表明,新分区方法能够有效实现Spark数据的均衡分区,在美国运输统计局发布的真实航空数据集上,基于该方法设计的优先填补分区器的总运行时间比HashPartitioner平均缩短了15.3%,比现有的均衡数据分区器和哈希键值重分配分区器分别平均缩短了38.7%和30.2%.
细粒度表情识别任务因其包含更丰富真实的人类情感而备受关注.现有面部表情识别算法通过提取局部关键区域等方式学习更优的图像表征.然而,这些方法忽略了图像数据集内在的结构关系,且没有充分利用标签间的语义关联度以及图像和标签间的相关性,导致所学特征带来的性能提升有限.其次,现有细粒度表情识别方法并未有效利用和挖掘粗细粒度的层级关系,因而限制了模型的识别性能.此外,现有细粒度表情识别算法忽略了由于标注主观性和情感复杂性导致的标签歧义性问题,极大影响了模型的识别性能.针对上述问题,本文提出一种基于关系感知和标签消歧的细粒度面部表情识别算法(fine-grained facial expression recognition algorithm based on Relationship-Awareness and Label Disambiguation,RALD).该算法通过构建层级感知的图像特征增强网络,充分挖掘图像之间、层级标签之间以及图像和标签之间的依赖关系,以获得更具辨别性的图像特征.针对标签歧义性问题,算法设计了基于近邻样本的标签分布学习模块,通过整合邻域信息进行标签消歧,进一步提升模型识别性能.在细粒度表情识别数据集FG-Emotions上算法的准确度达到97.34%,在粗粒度表情识别数据集RAF-DB上比现有主流表情分类方法提高了0.80%~4.55%.
甲骨文识别对于了解中国历史和传承中华文化都有重要的价值.目前,人工识别甲骨文需要具备丰富的专家经验并耗费大量的时间,而自动识别甲骨文的方法绝大部分受制于闭集假设,在甲骨文这种陆续发现新字符的现实场景下适用范围受限.为此,有研究者提出零样本甲骨文字符识别,其从视觉匹配的角度出发,将字模图像作为字符类别参考,通过拓片图像与字模图像的相似度匹配实现拓片图像的字符识别,然而其忽略了甲骨文拓片图像样本类内方差大的难点,仍存在因字形多变而容易匹配错误的不足.本文提出了一种两阶段的语义增强零样本甲骨文字符识别方法.第一阶段为域无关的字符语义学习阶段,通过提示学习从甲骨文拓片和字模图像中提取字符语义,解决甲骨文字符缺乏语义的问题.为应对拓片与字模之间的域差异,我们分别设置可学习的域提示信息和字符类别提示信息,通过解耦两者的语义实现更准确的特征提取.第二阶段为语义增强的字符图像视觉匹配阶段,模型通过两个分支分别提取类内共享特征和类间差异特征.第一个分支使用对比学习,将同一字符类别的不同字形视觉特征对齐到字符语义,引导模型关注类内共享特征;第二个分支使用损失函数N-Pair,增强模型对不同字符类别间差异特征的学习.在测试阶段,模型无须语义特征,通过训练中学到的类内相似性和类间差异性特征,实现更准确的拓片与字模匹配,提升零样本识别性能.我们在拓片数据集OBC306和字模数据集SOC5519上进行实验验证,实验结果表明,本文提出的方法在零样本甲骨文识别准确率比基准方法性能提升超过25%.
在不完美信道状态信息(Channel State Information,CSI)和不完美串行干扰消除(Successive Interference Cancellation,SIC)的场景下,研究了可重构智能表面(Reconfigurable Intelligent Surface,RIS)辅助多用户非正交多址接入(Non-Orthogonal Multiple Access,NOMA)网络的鲁棒资源分配问题.在考虑两类用户(信息用户和能量用户)服务质量(Quality of Service,QoS)和信息用户SIC约束下,建立了基站发射功率最小化的优化问题.该问题是一个多变量耦合的非凸优化问题.为了求解该问题,本文使用松弛变量、线性近似、S-程序、符号定性法转化该问题的非凸约束.然后将优化问题分解为两个子问题,最后使用交替优化方法迭代求解两个子问题,直到发送功率收敛.仿真结果表明:该文算法具有较好的收敛性,实现了资源的鲁棒分配,同时有效地降低基站发射功率.
现有的视觉语言多模态预训练方法仅在图像和文本的全局语义上进行特征对齐,对模态间细粒度特征交互的探索不足.针对这一问题,本文提出了一种基于跨模态引导和对齐的多模态预训练方法.该方法在模态特征提取阶段,采用基于视觉序列压缩的双流特征提取网络,在视觉编码器中联合图像和文本信息逐层引导视觉序列压缩,缓解与文本无关的冗余视觉信息对模态间细粒度交互的干扰;在模态特征对齐阶段,对图像和文本特征进行细粒度关系推理,实现视觉标记与文本标记的局部特征对齐,增强对模态间细粒度对齐关系的理解.实验结果表明,本文方法能够更好地对齐视觉文本的细粒度特征,在图文检索任务中,微调后的图像检索和文本检索的平均召回率分别达到了86.4%和94.88%,且零样本图文检索的整体指标相较于经典图文检索算法CLIP(Contrastive Language-Image Pre-training)提升了5.36%,在视觉问答等分类任务中,准确率也优于目前主流多模态预训练方法.
金融欺诈对经济和社会稳定造成了严重的威胁,因此开发有效的欺诈检测算法对于保护金融系统的完整性至关重要.目前已有多种基于图学习的欺诈检测算法应用于实际场景当中,这些方法或针对图的结构信息开展分类,或通过图卷积神经网络学习节点的嵌入式表示进行欺诈检测工作,关注角度相对单一,无法完备地在非平衡多关系图上开展欺诈检测分析.针对以上问题,本论文提出了一种结合随机游走下的特征增强与子核分解的图神经网络欺诈检测算法(Random Walk feature enhancement and Kcore subkernel decomposition Graph Neural Network,RWK-GNN),该算法能够高效地挖掘出多关系不平衡图中节点层级与全局网络层级的拓扑信息,并通过子核分解算法优化图结构特征在社区演进角度上的传播与聚合,最终完成欺诈检测与识别.为验证RWK-GNN算法性能,本文使用了图神经网络欺诈检测任务常用的公开数据集进行模型训练与测试.实验结果表明,在同一评价指标下,该方法较相关机器学习算法与图神经网络算法有着较大提升,与CARE-GNN算法相比,该方法的AUC值提升了17%;与PC-GNN算法相比,该方法的AUC值提升了8%;与SIGN算法相比,该方法的AUC值提升了7%.
多标签分类任务广泛存在于现实生活中,然而其经常存在不均衡数据问题,严重影响了分类性能.目前解决该问题的主流技术为重采样方法,主要分为过采样和欠采样,过采样通过生成与少数类标签相关的样本,欠采样则是通过删除与多数类标签相关的样本.然而,这些方法都专注于解决一种不均衡问题,即标签内不均衡或标签间不均衡,导致在解决一种不均衡的同时可能引入另一种不均衡.针对该问题,本文提出一种基于安全欠采样的不均衡多标签数据集成学习方法ESUS(Ensemble learning method based on Safe Under-Sampling).首先通过标签划分将多标签不均衡数据集划分成单标签数据集和标签对数据集,针对单标签数据集,提出一种安全欠采样方法解决标签内不均衡问题,并利用采样后的均衡数据集构建二分类模型.对于标签对数据集,进行数据剪枝后利用集成学习解决标签间不均衡问题,在保持分类性能的同时降低时空复杂度.最后将单标签数据集模型和标签对数据集模型集成为最终的分类模型.在六个多标签不均衡数据集上的实验结果表明:和七种对比方法相比,ESUS方法在四个评价指标上更稳定有效.
现有的WiFi感知方法对数据的采集量及接收器的硬件资源需求较高,同时海量的数据处理也会消耗大量软硬件资源.基于模型的WiFi感知方法通过建立动作模式与信号变化之间的数学模型,一定程度上降低了对数据量的依赖,但是主流方案仍然需要多个接收天线或者天线阵列.本文提出一种使用单天线接收器的感知方案,利用不同子载波的信道状态信息的比值消除硬件及噪声干扰,并提出基于方差和极差的子载波组合选择算法,筛选出优质的子载波组合得到动作特征.进一步提出基于菲涅尔区理论的高可用特征生成算法,巧妙地结合反射路径变化与信道状态信息(Channel State Information,CSI)动态相位旋转之间的关系,通过在复平面上的数据拟合与相位对齐获得高可用特征.理论分析和实验结果表明,本文提出的单天线方案完全符合菲涅尔区理论,同时,可以有效提升不同动作在不同场景下的识别效果.对于七种不同的动作,本文方案的总体识别准确率保持在95%左右,CSI选择和特征强化获得了约2%的准确率提升.
基于卷积神经网络的图像处理方法将卷积步长设置为与输入图像无关的固定值,输入图像的重要区域和不重要区域分配的卷积资源相等,从而导致资源分配不合理和网络冗余.针对该问题,本文提出动态步长卷积(Dynamic Stride Convolution,DSC)方法,通过学习一组与输入数据相关的偏移量来修改卷积核卷积步长,将更多的计算自适应分配给感兴趣区域.此外,本文利用学习到的偏移量来可视化卷积分布,提出层间可解释分析方法,以极低的计算消耗生成直观的可解释图,有助于研究人员分析卷积层之间的注意力分布.为了进一步优化卷积资源分配,本文设计新的损失函数来有效提高DSC的性能并实现对资源位置的编辑,并结合层间可解释分析方法将资源编辑可视化.本文将DSC嵌入到目标检测和图像分割等不同任务中,实验结果表明,在COCO数据集上不同网络的mAP(mean Average-Precision)增加了2%以上,证明了DSC方法的有效性.
知识蒸馏的核心思想是利用1个作为教师网络的大型模型来指导1个作为学生网络的小型模型,提升学生网络在图像分类任务上的性能.现有知识蒸馏方法通常从单一的输入样本中提取类别概率或特征信息作为知识,并没有对样本间关系进行建模,造成网络的表征学习能力下降.为解决此问题,本文引入图卷积神经网络,将输入样本集视为图结点构建关系图,图中的每个样本都可以聚合其他样本信息,提升样本的表征能力.本文从图结点和图关系2个角度构建图表征知识蒸馏误差,利用元学习引导学生网络自适应学习教师网络更佳的图表征,提升学生网络的图建模能力.相比于基线方法,本文提出的图表征知识蒸馏方法在加拿大高等研究院(Canadian Institute For Advanced Research,CIFAR)发布的100种分类数据集上提升了3.70%的分类准确率,表明本文方法引导学生网络学习到了更具有判别性的特征空间,提升了图像分类能力.
一阶段视觉定位方法由于其快速性而受到广泛关注,该方法利用图像与文本的融合特征预测目标框,但是现有方法在特征融合前没有进行图像与文本特征的对齐,限制了视觉定位的精度.为了解决这一问题,本文提出一种基于对比学习大模型的视觉定位方法.该方法采用基于对比学习的大规模预训练模型CLIP(Contrastive Language-Image Pre-training)提取图像和文本特征,利用Transformer编码器融合图像文本特征,使用多层感知机和融合特征预测目标框.该方法能够解决视觉定位方法上述不足的原因在于:借助CLIP模型的编码器可以提取高度语义对齐的图像和文本特征,同时使用全局注意力交互融合图像与文本的上下文特征.在5个数据集上,对本文提出的方法进行实验验证,实验结果表明:相比于现有视觉定位方法,本文方法取得了综合精度的提升.
基于密度的聚类是一种经典的聚类分析方法,它能够在不指定类簇数目的情况下发现非球形类簇.但真实复杂数据集中存在类簇边界模糊、数据密度不均、数据分布复杂等问题.当前,能够同时应对这三种问题的研究工作相对较少.对此,本文从自然世界的侵蚀现象中汲取灵感,提出侵蚀聚类(Erosion Clustering,EC)算法.本算法引入动态密度估计方法和侵蚀策略,逐层识别和剔除位于类簇边界上的数据,进而发现各个类簇潜在的核心区域;采用基于互可达图的聚类方法实现核心区域的聚类;设计基于局部密度峰值的分配方式完成边界数据的划分.在12个基准数据集上的实验结果表明,EC算法的聚类性能比7种对比算法分别在修正兰德指标、修正互信息、F 1分数上平均提高了96%、53%和36%.
多级子图像融合是加速合成孔径雷达(Synthetic Aperture Radar,SAR)时域成像的关键手段.然而,机动平台SAR的大斜视采集增强了频谱支持区域的不规则特性,降低图像融合的效率和精度.针对这些问题,本文设计了一种改进的混合坐标系,在此基础上开发了大斜视俯冲机动平台SAR快速时域成像算法.得益于改进混合坐标系中建立的等效斜距模型,频谱对斜视角的敏感度降低,消除了频谱空变现象.因此,设计频谱预处理函数可以有效压缩和拼接频谱,提升图像融合的效率和精度.通过仿真和原始数据处理,验证了提出算法性能的优越性.
当前语音关键词检测主流技术为端到端的深度学习方法,研究重点为网络结构优化、建模单元选取及搜索策略等,并取得较快进展,但对模型训练效率的关注相对较少.本文针对深度学习模型训练效率问题,提出了一种样本类不确定性抽样(Class Uncertainty Sampling,CUS)的样本应用策略加速收敛进程.其核心思想是在模型训练中后期,利用网络的前向输出层对样本评价信息进行样本类不确定性度量,并转化成样本选用概率,随机抽取训练样本子集用于后续训练.由于简单样本的类确定度高,它们参与后续训练的概率降低,但不影响模型的区分能力,增强对判决边界样本的关注,达到提高模型训练效率的目标.基于AISHELL-1普通话数据集的实验结果表明,相对常规训练策略,平均训练时长缩短60%,收敛时长缩短47.5%.虚警率(False Alarm Rate,FAR)为0.5 FP/h时,该方法的错误拒绝率(False Reject Rate,FRR)从4.75%降至3.65%,相对下降30.1%,最大关键词加权值(Maximum Term Weighted Value,MTWV)由0.837 4升至0.853 1.通过分析错标样本参与训练的行为,证实了该方法具有屏蔽掉大部分错误标注样本的能力,减少错标样本对训练的损害.基于大规模AISHELL-2普通话数据集的实验进一步证实了提出方法的有效性.
心电信号广泛应用于心脏疾病的医学检测中,可穿戴动态心电监测设备可以实现对心律失常的风险识别并预警.相比于静息心电信号,动态心电信号在采集过程中会受到更大运动伪迹的干扰,这些干扰会覆盖心电信号的关键信息,限制其临床应用.本文兼顾心电信号局部和全局特征,利用其周期性,研究了一种将心电信号低频PT波和高频QRS波群分开处理的两步式自适应阈值滤波算法,适用于单通道心电信号中的运动伪迹滤除.第一步先通过多分辨率阈值初步抑制心电信号低频部分中的运动伪迹;第二步,对受运动伪迹影响而不平衡的QRS波进行自适应阈值修复,通过对QRS波形调节,减少心电信号中高频部分运动伪迹,同时设置自适应阈值对心电信号P波、T波对应的小波系数进行处理,超出自适应阈值范围的小波系数通过波形缩放进行调整,进一步抑制低频运动伪迹.研究通过不同心电数据库评估算法的性能.在输入信噪比从-10 ~10 dB时,心电信号信噪比提升了10.912 2 dB和4.391 2 dB,滤波后心电信号与纯净心电信号的相关系数分别为0.687 6和0.978 3,提取的运动伪迹与原运动伪迹相关系数分别为0.953 0和0.852 9.实验结果表明,算法在不同噪声水平下,利用自适应阈值的优点,能有效复原受运动伪迹污染的心电信号波形特征,最大限度保留心电信号的临床信息,可作为可穿戴心电设备滤除运动伪迹的有效工具.
在6G通信系统中,随着天线规模的增大,菲涅尔区逐步扩展,现有的远场通信假设会引入严重的能量扩散,即角度域不再稀疏.近场通信利用球面波前进行建模,其信道模型与用户到达基站的角度和距离相关,在通信的同时可以估计角度和距离,实现通信感知一体化(Integrated Sensing And Communication,ISAC).本文针对近场环境下ISAC问题,提出了基于极坐标的近场模型,通过非均匀网格划分将ISAC转化为稀疏估计问题,进而提出基于稀疏贝叶斯学习模型和消息传递算法的ISAC算法,同时完成活跃用户检测、位置感知和通信.此外,所提算法采用差分调制,在通信和感知中无需利用导频,即可实现盲ISAC,有效提升通信系统的频谱效率.仿真结果表明,相对于均匀区域划分和文献现有方法,本文提出的ISAC算法可获得更高的感知精度和误码率性能.
短文本分类应用广泛,是当前的研究热点,但受到短文本标注数据稀缺和数据隐私保护不便集中训练的影响,分类效果不佳.针对上述问题,我们提出了基于联邦学习的主动半监督异质图注意力网络模型(Active Semi-Supervised Learning empowered Heterogeneous Graph ATtention network model based on Federated learning,Fed-ASSL-HGAT),通过设计新颖的主动半监督学习(Active Semi-Supervised Learning,ASSL)框架生成高质量标注样本赋能异质图注意力网络(Heterogeneous Graph ATttention network model,HGAT),引入联邦学习对部署在不同节点的模型进行联合训练以满足数据隐私保护需求.所提出的ASSL框架通过将主动学习的多类别标注转化成二元类别标注,可大大降低标注难度;设计基于信息增益的选择策略筛选软、硬标签,以防止信息损失;通过半监督学习选择高准确率、高稳定性的正负样本打伪标签以确保标注质量.实验结果表明,所提出的ASSL-HGAT(S)在AGNews、Snippets、TagMyNews数据集上相比HGAT基线模型F 1值分别提升2.45%、8.11%、7.46%.融合联邦学习所进一步提出的Fed-ASSL-HGAT模型可在不泄漏隐私数据的情况下满足性能要求.
稀疏卷积在处理激光雷达点云单目标跟踪时的潜力尚未得到充分发掘.目前,绝大多数点云跟踪算法使用基于球邻域的骨干网络,其显存计算资源占用大并且目标感知的关系建模不充分.针对此问题,本文提出一种基于稀疏卷积结构的LiDAR(Lightlaser Detection And Ranging)点云跟踪算法,并创新性地融合了空间点与体素双通道的关系建模模块,以高效适应稀疏框架下目标判别信息的嵌入.首先,本文采用3D稀疏卷积残差网络来分别提取模板和搜索区域的特征,并利用反卷积来获取逐点特征来保证跟踪任务中对空间位置特性的要求.其次,关系建模模块进一步在模板与搜索区域特征之间计算相似度语义查询表.为了捕捉到模板与搜索区域间细粒度的关联性,该模块一方面在空间点通道中利用近邻算法找出每个搜索区域点的模板近邻点,并根据语义查询表提取对应特征;另一方面,在体素通道中以每个搜索区域点为中心构建局部多尺度体素,并根据落入体素单元的模板点索引计算语义查询表中值的累计和.最后,将双通道的特征融合并送入基于鸟瞰图的候选包围盒生成模块来回归目标包围盒.为了验证所提出方法的优越性,本文在KITTI和NuScenes数据集进行了测试,对比其他使用稀疏卷积的算法,本文方法平均成功率和精确率分别提升了11.0%和12.0%.本文方法在继承了稀疏卷积高效特点的同时还实现了跟踪精度的提高.
近年来,基于卷积神经网络的深度学习模型已经在高光谱图像分类领域取得优异表现.然而,模型性能的提升通常依赖于更深、更宽的网络结构,导致参数量和计算量增长,从而限制了模型在机载或星载载荷中的实际部署.为此,本文提出基于轻量级全连接张量映射网络的高光谱图像分类方法.根据全连接张量网络分解的映射思想以及高光谱图像“图谱合一”的结构特点,本文设计两种张量映射卷积单元,通过使用多个具有全连接结构的小尺寸卷积核代替原始卷积核,降低了卷积层的时间和空间复杂度.此外,基于新单元构建残差双分支张量模块.双分支结构共享同一组权重参数,并采用通道分割操作减少特征通道数,提升特征提取过程的实时性.本文所提模型通过使用新单元和新模块充分挖掘高光谱图像的局部空谱信息和全局光谱信息,有效提高了分类性能并减少硬件资源消耗.在三个常用高光谱图像数据集上的实验结果表明,所提模型相较于其他现有工作具有更高的分类性能以及更低的参数量和计算量.
灾害场景下依托无人机配送资源应用前景广阔,但应急场景环境复杂多变,各类突发事件在时空上的不确定性会导致目标点对资源需求评估的不准确,进而影响到资源配送中无人机任务分配方案.针对此问题,在无人机任务分配模型中引入两阶段鲁棒优化方法.模型通过将无人机分配和任务分配相结合,充分利用无人机集群资源,实现需求变化最大化时的任务分配成本最低.本文对受伤人数等级与资源需求变化关系建模,将资源需求划分为3 个等级,实现了任务分配总成本变化的精确化表达,并采用列和约束生成(Column-and-Constraint Generation,C&CG)算法实现了资源需求不确定条件下的无人机任务分配.最后设计了3 种类型的实验,仿真结果验证了算法的有效性和优越性,相比确定性模型,该算法在应对需求变化时展现出更好的鲁棒性.
光场图像作为一种能够捕获场景每个位置光线信息的图像类型,在电子成像、医学影像和虚拟现实等领域具有广泛的应用前景.光场图像质量评估(Light Field Image Quality Assessment,LFIQA)旨在衡量此类图像的质量,但当前方法面临视觉效果与文本模态间异构性的重要挑战.为解决上述问题,本文提出了一种基于文本-视觉的多模态光场图像质量评估模型.具体来说,在视觉模态方面,我们设计了多任务模型,结合边缘自动阈值算法有效丰富了光场图像的关键表示特征.在文本模态方面,基于输入噪声特征与预测噪声特征的对比,准确识别光场图像的噪声类别,并验证了噪声预测对优化视觉表示的重要性.基于上述研究,进一步提出了一种优化的通用噪声文本配置方法,并结合边缘增强策略,显著提升了基线模型在光场图像质量评估中的准确性和泛化能力.此外,通过消融实验,评估了各组件对整体模型性能的贡献,验证了本文方法的有效性和稳健性.实验结果表明,该方法不仅在公开数据集Win5-LID和NBU-LF1.0的实验中表现出色,还在融合数据集中展示出优秀的实验结果,与现有最优算法相比,本文所提方法在两个数据库中的性能分别提升了2%和6%.本文提出的噪声验证策略和配置方法不仅为图像质量评估中的噪声预测任务提供了有价值的参考,也可用于其它噪声预测类型的辅助任务.
本文提出了一种子图转述的方法用于解决知识图谱问题生成中的未见谓词问题. 传统的问题生成方法主要利用标注的问答数据(问题-逻辑形式对)生成问题,然而标注数据难以覆盖知识图谱中所有的谓词,如何对未见的谓词生成问题依然是一个挑战. 本文提出了一种基于子图结构的语义解耦方法,通过将复杂问题对应的知识图谱子图分解为原子级子图,从而将包含未见谓词的多跳子图拆分为易于处理的单跳子图. 并且本文设计了一种子图转述方法,通过对数据集中的谓词进行采样,得到子图描述文本,并在大规模无监督数据上训练得到子图转述器,能够为包含未见谓词的子图提供自然语言形式的表述,为生成问题提供了有效的信息. 本文定量分析了在不同的难度级别下模型的性能表现,在GrailQA等数据集上的实验结果表明,本文的方法达到了最先进的性能.
处理器片上寄存器的分布形态与数量规模对处理器的整体计算性能有直接影响,这种影响表面上看是波及处理器片上缓存结构的改进和优化,本质上是时间要素与空间要素交织在一起的综合反映.因此,从时间和空间上确保处理器内核对片上缓存的局部化访问必将进一步提高处理器的整体计算性能.为了认识处理器片上缓存中存在的时间与空间及时局部性,以由传统缓存耦合而成的渗透缓存为工具来分析处理器内核访问片上缓存的时间与空间局部性,仿真实验表明渗透缓存因具备容纳时间与空间局部性的结构提高了处理器访问片上缓存的命中率,客观上缩短访存延迟,从而为提高处理器性能创造了有利条件.
量子图像传感器(Quanta Image Sensor,QIS)具有超高的单光子灵敏度与空间分辨率,因此其有望成为替代CMOS的下一代图像传感器.然而,从QIS获取的原始数据是二进制的图像帧,因此需要采用图像重建算法从二进制观测值中恢复原始场景.现有的方法包括基于模型的QIS图像重建和基于深度学习的QIS图像重建,其中基于模型的QIS图像重建通常需要进行大量的优化迭代,且对内部参数选择高度敏感.而基于深度学习的QIS图像重建则往往需要对每个具有细微不同的任务设计和训练单独的网络模型,灵活性欠缺并在很大程度上限制了其实用性.为了解决上述QIS图像重建方法的局限性,本文提出一种基于强化学习的免调参即插即用单光子图像重建方法.该方法能够自适应地对不同输入图像、不同过采样倍率和重建所处的不同迭代轮次动态选取合适的参数,实现更好的重建效果.具体地,本文将即插即用框架下的QIS图像重建任务中需要手动调整的参数建模为序列决策问题,引入结合无模型强化学习和基于模型强化学习思想的算法学习一个最佳策略,以实现对于不同输入图像在每次优化迭代时的最优超参选择.在合成和真实数据集上的实验结果表明,本文提出的方法可以在过采样倍率为4、6、8三种情况下,在峰值信噪比上相较现有先进方法提高约0.44~0.60 dB,在重建的视觉效果上也能够保留更多的纹理细节.真实极暗光QIS图像数据已在https://github.com/ying-fu/Real-SPAD-Dataset公开.
灰色故障是指对生产网络产生细微影响的交换机故障.然而,当这些轻微故障相互叠加或与新增故障叠加时,可能会导致整个生产网络的瘫痪.因此,检测灰色故障对生产网络的稳定性至关重要.传统解决方案关注的是在控制平面收集数据平面交换机中的流记录,并对其进行处理以检测灰色故障.然而,此类解决方案存在着不足:(1)缓存和处理大量的流记录会引入庞大的资源开销;(2)较高的检测时延无法保证灰色故障检测的时效性.近年来,可编程交换机的出现为灰色故障检测技术带来了新机遇:网络管理员可以将灰色故障检测算法部署运行至可编程交换机的线速ASIC流水线上,从而支持低开销、低时延、高精度的网内灰色故障检测技术.本文针对基于可编程交换机的网内灰色故障检测技术进行综述,在对灰色故障的概念、普遍性及对生产网络的危害进行描述的基础上,分析与讨论了现有基于可编程交换机的网内灰色故障检测技术的研究现状与进展,详细介绍每项技术的工作原理及流程,搭建真实的实验平台评估各项技术的检测指标,在文末指出了现有技术所面临的问题与挑战.
物联网的快速发展催生了大量新型的应用模式和互联生态,推动了产业数字化和智能化发展.物联网通过连接传感器、可穿戴设备、智能表计等低数据率、低功耗终端,赋予大量普通设备计算和联网的能力.随着应用场景和系统规模的扩展,传统无线技术难以适应物联网大规模、低功耗、远距离的设备组网要求.如何降低设备接入门槛、实现设备低功耗远距离连接,是当前物联网面临的重要挑战.LoRa(Long Range)作为一种代表性的低功耗广域网技术,有效解决了低功耗设备远距离连接问题,已成为物联网的核心支撑技术.然而LoRa在规模化应用中仍面临以下三方面重要挑战:(1)大规模连接场景高并发传输导致信号冲突,设备并发接入困难;(2)远距离无线链路信号衰减剧烈,弱信号可靠传输困难;(3)物联网共享信道异构协议干扰问题突出,广域异构共存困难.本文概述了现阶段低功耗广域物联网技术研究进展,重点阐述现有技术在实际应用场景中面临的三方面研究挑战及对应的技术方案.针对高并发冲突问题,现有研究提出冲突避免和并发解码方法;针对弱信号问题,现有研究在弱信号增强传输和接收端解码优化两个方面展开探索;针对异构协议竞争问题,现有研究设计了多种设计跨协议通信机制.本文综述了LoRa低功耗广域网最新相关研究,分析现有工作的创新点和局限性,并指出了低功耗广域网未来研究和发展的方向.