摘要:知识蒸馏可将复杂教师网络的表征能力迁移至轻量学生网络,有效提升模型性能与部署效率.然而,现有基于知识蒸馏的多模态图像融合方法常忽视师生网络的特征表示、模态偏好异构性及多模态图像的固有差异,导致知识传递低效、语义对齐不足及融合性能退化.针对上述问题,本文提出基于异构模型多层次知识蒸馏的红外与可见光图像融合方法,创新性设计跨层级知识传递机制,在特征层通过注意力引导红外显著性目标与可见光纹理的精准迁移;在关系层通过相似性关系匹配与拓扑结构对齐优化跨模态语义适配;在输出层通过响应约束确保融合结果的视觉一致性与语义完整性,缓解了师生网络模态偏好不匹配导致的信息失衡.此外,构建适配任务特性的轻量化CNN-Transformer双分支学生网络,兼顾全局信息建模与局部细节感知,增强对异构知识的接收整合能力.在MSRS、RoadScene、TNO和M3FD数据集上的实验结果表明,所提方法在三种结构差异显著的教师模型的指导下,互相关系数(Correlation Coefficient,CC)、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、空间频率保持度(Sum of the Correlations of Differences,SCD)和结构相似性指数(Structural Similarity Index Measure,SSIM)四项指标均优于教师模型及现有方法,且模型参数量仅为0.077 2 M,服务器上推理时间仅为31.22 ms,在提升融合性能与蒸馏鲁棒性的同时,实现了融合网络的轻量化与实时性;同时模型在Jetson AGX Xavier边缘平台上推理时间仅为250.31 ms,具备良好的边缘部署能力与实际应用价值.
摘要:针对传统双目视觉特征点检测算法效率低、匹配精度不足、对光照变化敏感以及参数调优复杂,导致双目视觉定位与测量精度受限的问题,本文提出一种基于Star-RTMPose(Star-enhanced Real-Time Multi-person Pose estimation)的双目视觉定位与测量方法.本文以钢铁冶金行业的连铸坯为研究对象,聚焦其火焰切割后毛刺切除所需的精准定位与尺寸测量需求,给出了对应的技术实现路径.首先,通过标定后的双目相机采集连铸坯图像,并采用LabelMe工具完成目标区域与关键点标注,将标注结果统一转换为MSCOCO(MicroSoft Common Objects in COntext)格式以适配模型训练.随后,采用“目标检测-关键点提取”的双阶段框架实现精准检测,即先基于RTMDet(Real-Time Models for object Detection)算法快速定位连铸坯的主体区域,进而采用基于RTMPose(Real-Time Multi-person Pose estimation)的改进模型Star-RTMPose提取关键点坐标.改进包括:在RTMPose主干引入StarTriBlock(Star Triple Block)模块,通过多支路动态融合机制增强网络对目标高层语义特征的表征能力,充分利用该阶段最大感受野与全局空间关联信息;使用基于深度可分离卷积的MaxDSC2(Maximum Depthwise Separable Convolution 2)模块替代网络头部的7×7大核卷积,并将该模块的中间通道数设定为输入通道数的0.45倍,在提升语义信息敏感度的同时降低参数量;用无参SimAM(Simple parameter-free Attention Module)注意力模块替代传统通道注意力模块,通过能量函数闭式解生成通道-空间三维联合权重,强化网络对空间特征的捕获性能,避免参数冗余.最终,结合双目相机标定参数与三角测量原理,完成关键点三维重建与连铸坯尺寸测量.实验结果表明:在关键点检测任务中,改进后的Star-RTMPose模型对单张图像的推理时间仅为9.86 ms,相较于基准模型RTMPose-T,其AP(Average Precision)提升1.09个百分点,PCK(Percentage of Correct Keypoints)提升0.40个百分点,NME(Normalized Mean Error)降低42.86%;改进后的模型在参数量更为精简的前提下,综合性能显著优于HRNet-W32、SwinTransformer-T等主流模型;在三维测量精度方面,本文方法对1型连铸坯长边尺寸的测量相对误差相较于传统ORB(Oriented FAST and Rotated BRIEF)算法以及改进后的FAST(Features from Accelerated Segment Test)算法分别降低了1.715个百分点和0.365个百分点.本文方法有效解决了传统算法鲁棒性欠佳的问题,实现了检测精度与测量精度的双重提升,切实满足工业场景对高精度检测的需求.
摘要:本文针对微波波导滤波器提出了一种融合单步渐进空间映射(One-Step Aggressive Space Mapping,OS-ASM)和隐式空间映射(Implicit Space Mapping,ISM)的高效复合优化策略.单步渐进空间映射能使远离最优解的初值迅速向最优解附近靠近,再辅以隐式空间映射优化,一般五步迭代以内即可使基于物理结构的微波波导滤波器高精度模型(精细模型(Fine Model, FM))仿真结果与目标理论特性几近完美拟合.与传统直接优化算法相比,本策略并非对精细模型直接进行迭代优化,而是对基于模匹配法的低精度模型(粗糙模型(Coarse Model,CM))迭代计算,精细模型仿真仅用于验证迭代优化粗糙模型生成的物理参数,时效性极高,同时也回避了单步渐进空间映射中粗糙模型必须实现极致拟合的严苛要求.本文以八阶切比雪夫型矩形波导滤波器(Bandpass Filter,BPF)和四阶双模圆波导滤波器为例,详细阐释了该策略的实施过程及效果.
摘要:基于电力线通信(Power Line Communication,PLC)和无线通信的双模通信技术兼具覆盖广、可靠性高与接入灵活等优势,可显著提升数据传输的可靠性、速率与时延等性能,在计量网络通信等场景中受到广泛关注.但是实际应用中,双模媒体接入控制(Media Access Control,MAC)算法、突发业务流量以及混合信道衰落等算法及参数都会影响计量网络的时延等性能,使得系统时延边界性能的理论分析和计算面临较大挑战.为解决双模双媒质多参数条件下确定性时延分析难题,提出了一种基于峰值信息年龄违背概率(Peak Age of information Violation Probability,PAVP)的双模通信网络确定性时延性能计算和优化方法,为计量网络的时效性保障提供新思路.首先,针对计量网络周期业务与突发业务共存的特点,建立联合突发流量和周期流量的混合到达模型,接着考虑双模信道混合衰落、基于超帧的MAC层混合接入算法和业务优先级构建跨层服务模型.在此基础上,利用随机网络演算(Stochastic Network Calculus,SNC)理论,基于矩生成函数(Moment Generating Function,MGF)和最大加代数推导了双模通信网络PAVP的理论上界,实现对随机到达与随机服务系统的时延边界性能的计算和分析.考虑队列稳定性和功率约束条件,建立连续数据包的功率优化模型,并利用李雅普诺夫算法将时间平均优化问题转换为与当前时隙队列和峰值信息年龄(Peak Age of Information,PAoI)相关的实时优化问题,从而实现节点和信道发射功率的动态优化分配.最后,通过系统仿真分析采样周期、混合流量强度、设备数量、PAoI阈值以及MAC竞争窗口等关键环节和参数对系统时延边界性能的影响.结果表明,混合流量条件下存在最优采样周期使系统时延边界性能达到最优;当双模节点数量超过20个时,MAC层接入算法成为时延性能主要影响因素;对比单模通信和双模固定参数条件,基于李雅普诺夫算法的功率优化能够进一步提升系统时延边界性能,提升数据传输实时性.相关结论为双模通信在智能计量网络的工程应用提供了理论基础和技术参考.
摘要:增量目标检测(Incremental Object Detection,IOD)旨在使模型从流式数据中持续学习新类别的识别与精确定位能力,同时有效保持对已学旧类别的检测性能.然而,当前主流目标检测器在增量训练过程中易遭遇灾难性遗忘问题:当仅利用新类别标注数据微调时,其对旧类别的检测性能显著退化.现有方法多依赖知识蒸馏或样本重放策略以缓解遗忘,但普遍忽视增量训练中的两个关键挑战:一是区域提议生成中的标签分配冲突,二是基于有限旧样本的硬标签监督所引发的过拟合风险.本文指出,现有方法在区域提议生成阶段采用不一致的标签分配策略:新类别与背景提议依据其与真实标注的交并比(Intersection over Union,IoU)匹配生成,而旧类别提议则依赖旧模型置信度进行推断.当两类提议在空间上重叠时,同一候选区域可能被赋予矛盾标签,导致分类与回归任务接收到冲突监督信号,干扰模型有效训练.此外,即使引入少量回放旧样本,若对其施加硬标签监督,模型仍易在小规模子集上过拟合,难以复现其在原始大规模旧数据集上获得的泛化能力,反而削弱旧知识保留效果.为此,本文提出一种面向增量目标检测的解耦学习框架.首先设计分层解耦的候选区域分配机制,依据“新类别→旧类别→背景类”提议的优先级顺序,对重叠区域进行互斥筛选,从源头消除标签冲突.进而引入双路径解耦监督策略:对新类别及背景区域采用真实标注训练,其中背景区域基于无偏背景定义进行监督;而对所有旧类别区域,无论是否在回放样本中显式标注,均仅通过知识蒸馏施加软监督,使其预测分布与旧模型输出对齐,避免硬标签诱导的局部过拟合,协同保障整个检测器训练过程的监督一致性与学习稳定性.在Pascal VOC与MS COCO标准基准上的实验表明,所提方法在单步及多步增量设置下均优于当前最先进(State-Of-The-Art,SOTA)方法,尤其在多步增量场景中,本文方法在平均精度(mean Average Precision,mAP)上分别提升2.0%和2.9%以上,有效验证了其在协同保留旧知识与学习新任务方面的优越性.本工作不仅提升了增量目标检测的持续学习能力,也揭示了区域提议生成与监督策略协同设计在缓解灾难性遗忘中的关键作用.
摘要:行人轨迹预测是自动驾驶和机器人导航等领域的核心挑战之一,其关键在于如何有效建模行人间的复杂交互关系并提取多尺度时空特征.本文提出一种基于图卷积与自适应Transformer的行人轨迹预测方法(pedestrian trajectory prediction method based on Graph Convolution and Adaptive Transformer,GCAT),通过层次化的特征提取与自适应交互建模实现高精度的轨迹预测.模型以历史观测时间窗口内所有行人的位置与速度信息作为输入,首先通过线性投影与正弦-余弦位置编码将原始观测映射至高维特征空间,以显式保留时序顺序信息.随后,引入关系图卷积网络捕获行人之间的局部拓扑结构及空间交互强度,通过基于特征余弦相似度的自适应邻接矩阵实时构建交互图,使图结构能够根据场景特征自适应调整.同时,引入增强型多层卷积结构,通过可学习的残差权重自适应平衡不同层级特征的贡献,有效缓解深层网络的梯度消失问题,增强局部交互特征的表达能力.此外,模型进一步引入空间自适应Transformer建模全局时空依赖关系,该模块通过可学习的空间偏移量实现特征图上的连续采样.具体实现中,模型通过线性层从输入特征中生成空间偏移量和注意力权重,偏移量与参考点坐标相加后经归一化得到实际采样位置,利用双线性插值从特征图中提取对应位置的特征值,再通过注意力权重进行加权聚合,获得对局部几何变化与全局时序依赖的增强表达.这种连续采样策略使模型能够聚焦于对轨迹预测最相关的空间区域,自适应地应对不同场景的几何布局变化.同时,模型融合多粒度时序特征,逐步提取从局部交互到全局依赖的多层次时空表达,有效解决了现有方法在长程依赖建模、环境适应性以及多尺度特征融合等关键方面存在的问题.在实验验证方面,本文在两个广泛使用的公共行人轨迹预测数据集ETH和UCY上对所提出的方法进行了系统评估.相比现有基线模型,所提出模型在平均位移误差(Average Displacement Error,ADE)和最终位移误差(Final Displacement Error,FDE)指标上分别取得了5.1%和13.2%的性能提升,验证了模型在复杂交互关系建模和多尺度时空特征提取方面的有效性与先进性.
摘要:氧化物半导体(Oxide Semiconductor,OS),特别是非晶氧化物半导体(Amorphous Oxide Semicondutor,AOS),因其适中的迁移率、极低的关态电流、优异的大面积均匀性以及与传统互补金属氧化物半导体(Complementary Metal Oxide Semiconductor,CMOS)工艺兼容的低温制备工艺,已成为突破硅基器件尺寸微缩物理极限的重要候选材料.近年来,AOS不仅在高端液晶显示(Liquid Crystal Display,LCD)与有机发光二极管(Organic Light-Emitting Diode,OLED)显示背板中实现了规模化应用,还在低功耗逻辑器件、高密度存储以及单片三维集成电路(Monolithic Three-Dimensional,M3D)等先进集成架构中展现出广阔的应用前景.尤其在M3D技术所要求的低热预算(<400 ℃)制造条件下,氧化物半导体在功耗、性能、面积与成本(Power-Performance-Area-Cost,PPAC)综合优化方面具备显著优势.在器件尺寸持续微缩的背景下,如何维持对沟道载流子的有效静电控制、抑制短沟道效应并保障器件长期可靠性,已成为制约氧化物半导体薄膜晶体管(Thin Film Transistors,TFTs)进一步发展的核心问题.其中,栅工程作为决定晶体管电学性能的关键环节,直接影响器件的阈值电压、亚阈值摆幅、漏电流以及偏置稳定性等重要指标.本文围绕氧化物半导体TFT的栅工程展开系统综述,重点从栅介质材料、栅结构设计以及栅-沟道界面工程三个方面总结近年来的研究进展与技术趋势.在栅介质层面,通过引入高介电常数(high-)材料及其复合结构,可在降低等效氧化层厚度的同时增强栅控能力、降低工作电压并有效抑制栅漏电流;在栅结构层面,采用鳍式晶体管、纳米线及全环绕栅(Gate-All-Aroud,GAA)等三维非平面结构,能够显著增强栅极对沟道的包裹性,从而缓解短沟道效应并提升器件在极限尺寸下的性能;在界面工程方面,通过界面钝化、能带调控及缺陷态调节等策略,可有效降低界面态密度,改善载流子输运特性,并显著提升器件的稳定性与可靠性.尽管氧化物半导体栅工程已取得显著进展,但仍面临若干关键挑战,包括器件可靠性机制的复杂性、现有界面优化策略在短沟道器件中的适用性,以及缺乏与n型氧化物半导体性能匹配且兼容后端工艺(Back End Of Line,BEOL)的高性能p型氧化物半导体材料.这些问题在一定程度上限制了互补电路及高密度集成应用的发展.总体而言,氧化物半导体作为后摩尔时代的重要技术路线,其发展潜力已得到学术界与产业界的广泛认可.随着栅工程相关材料、结构与界面调控技术的持续突破,氧化物半导体有望在未来高性能、低功耗电子器件与三维集成系统中发挥更加关键的作用.
摘要:基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)能够有效推动模型输出与人类偏好对齐,已被广泛用于抑制多模态大语言模型(Multimodal Large Language Models,MLLMs)在实际应用中出现的幻觉问题.其中,直接偏好优化(Direct Preference Optimization,DPO)方法通过避免显式奖励建模,以更稳定、高效的方式提升MLLMs的可信度与可用性,受到学术界与工业界的广泛关注.然而,DPO训练过程中仍存在若干挑战,如训练数据分布偏移、偏好数据构建过程中对指令事实性区分不足等,均可能加剧模型幻觉.此外,现有方法对视频等多图数据中伴随的音频信息利用不足,而音频可作为视觉理解的有效补充信号,具备缓解幻觉的潜力.针对上述问题,本文提出一种基于指令事实性判别与音频辅助的自对齐训练框架(Instruction Factuality and Audio Assistance,IFAA),通过四个核心模块生成高质量偏好数据,以抑制MLLMs的幻觉现象.具体包括:(1)同风格响应采样,有效降低直接偏好优化训练中的数据分布偏移;(2)长响应分割策略,提升模型自我判别的准确性;(3)指令事实性判别模块,构建更具事实依据的偏好数据;(4)音频辅助理解模块,通过融合音频信息提升偏好数据质量.最后通过直接偏好优化训练增强模型的可靠性.此外,创新性地引入基于ROC(Receiver Operating Characteristic)曲线的置信平衡点选择机制,以有效缓解多模态大型语言模型的过度自信问题.本文在五大主流MLLM评测基准上进行了实验,以验证所提框架的有效性与泛化能力.以LLaVA(Large Language and Vision Assistant)1.5模型为例,经本框架优化后,其在Object HalBench(Object Hallucination Benchmark)评测集上的句子级幻觉率降低43.1%,实例级幻觉率下降37.3%.此外,在其他前沿模型上的迁移实验表明,基于IFAA构建的偏好数据具有良好的泛化性,能够显著降低不同模型的幻觉率.该结果验证了本文框架在不同模型上的适用性,为MLLMs的幻觉抑制提供了新的有效途径.
摘要:基于分区的深度神经网络(Deep Neural Network,DNN)端边协同推理技术通过将模型拆分并分别在移动机器人终端和边缘服务器上部署,能够有效缓解端设备的资源受限以及现有模型轻量级化技术导致的推理精度降低等问题.然而,该技术也为机器人操作系统(Robot Operating System2,ROS2)的通信调度提出了新的挑战:现有的通信策略难以在保障协同推理关键数据流有效传输的同时,兼顾其他应用数据流的传输需求.针对这一问题,本研究提出了机器人操作系统中面向移动机器人深度神经网络端边协同推理的混合数据流动态调度算法(Hybrid Data Flow Dynamic Scheduling Algorithm for Mobile Robot Deep Neural Network Edge-End Collaborative Inference in the Robot Operating System2,DRECHS).首先,基于端边协同推理的机理分析,定义了深度神经网络中间数据的最大允许传输时间边界条件,为传输优化提供了理论基础.结合边界条件,设计了一种基于混杂切换系统理论的调度模型,将流调度过程建模为包含优先级优先子系统和时间优先子系统的动态切换模型.在此基础上,提出了具体的混合数据流调度算法.该算法集成在机器人操作系统的数据分发服务(Data Distribution Service,DDS)流控制器中,能够依据计算出的队列状态指标动态生成输出队列,实现对底层数据传输顺序的细粒度控制,从而在满足推理任务数据传输要求的基础上,实现对不同优先级数据流的差异化服务质量(Quality of Service,QoS)优化,有效平衡了系统的整体传输性能.针对所采用的动态分区方法,设计不同带宽条件下的仿真实验,对比分析了所提算法与系统内置调度算法等在传输延迟和丢包率方面的性能差异.实验结果表明,本研究提出的调度算法通过混杂切换系统模型和动态调度策略,在满足高优先级数据传输需求的同时,成功实现了对不同优先级数据流的差异化服务质量优化.此外,本研究提出了相应的部署方案,并在真实设备上部署了该调度算法及深度神经网络端边协同推理框架,完成了系统验证.该部署方案为本研究所提算法及框架在真实场景中的部署提供了参考.
摘要:多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)作为处理复杂动态环境中智能体协作与竞争问题的重要框架,近年来在理论与应用上取得快速发展,并在自动驾驶、群体机器人、智能调度与对抗博弈等领域展现出广阔前景.然而,多智能体系统中普遍存在环境非平稳、策略强耦合、信用分配困难和安全约束复杂等问题,使得MARL相较于单智能体强化学习面临更大挑战.本文首先梳理了MARL的基础建模与理论框架,从马尔可夫博弈、部分可观测马尔可夫博弈等形式化描述出发,结合集中式训练、分布式执行和基于通信的协同决策等典型范式,对现有方法在信息利用、计算复杂度与收敛性质等方面进行对比分析,并围绕价值分解、策略梯度、多智能体信用分配和通信建模等核心技术进行归纳.在此基础上,本文重点总结了若干前沿研究方向:一是基于大语言模型(Large Language Model,LLM)的MARL,通过引入LLM的知识推理和高层规划能力,用于任务分解、策略引导及自然语言通信,以提升智能体在开放环境中的泛化与协作能力;二是基于元学习的MARL,面向多任务与分布迁移场景,关注策略对新任务、新队友或新对手的快速适应,通过学习“会学习的初始化”或适应规则提高样本效率;三是基于可解释性的MARL,利用注意力可视化、因果分析和规则抽取等方法增强决策过程透明度,为策略审计、人机协同与安全监管提供支持;四是大规模MARL的应用与部署,聚焦智能体数量和状态维度急剧增长带来的训练效率、通信开销与可扩展性问题,探索分层结构、群体建模和并行训练等机制;五是多智能体安全强化学习,从约束满足、风险控制和稳健性出发,研究在对抗扰动、不确定性和策略博弈下的安全决策.最后,本文结合协作与竞争两类典型应用场景,讨论了MARL在真实系统落地中面临的样本效率不足、仿真到现实迁移困难、公平性与稳态博弈分析不足等挑战,旨在为后续MARL的理论研究与工程应用提供系统参考.
摘要:行人重识别(Person Re-identification,ReID)作为智能视频监控系统的核心技术,其核心任务是在非重叠视域的摄像头网络中实现对特定目标行人的高效检索与匹配.然而,传统仅依赖可见光图像的方法在夜间或低照度等复杂光照条件下性能显著下降.为应对这一挑战,可见光-红外行人重识别(Visible-Infrared Person Re-identification,VI-ReID)应运而生,旨在实现可见光图像与红外图像之间的交叉检索.该任务不仅继承了单模态行人重识别中姿态变化、视角差异和遮挡等固有难题,更需克服由成像机理不同所导致的巨大跨模态鸿沟.本文对近年来基于深度学习的可见光-红外跨模态行人重识别方法进行了系统性梳理、归纳与评述,将现有主流方法划分为三大核心类别:(1)基于跨模态网络结构设计的方法,通过精心构造网络架构以提取模态不变的身份特征,具体包括双流特征提取网络、身份信息解耦模块、细粒度特征对齐,以及利用网络结构搜索等设计方法;(2)生成式学习方法,旨在通过模态转换或数据增强弥合模态间差距,涵盖单向或双向图像生成、构建统一中间模态,以及在特征层面进行生成与补偿等策略;(3)基于跨模态相似度学习的方法,聚焦于损失函数与度量学习的设计,通过拉近跨模态正样本对的距离并推开负样本对,主要包括基于样本或中心(代理)的对比学习,以及针对测试阶段优化的跨模态重排序算法.此外,考虑到实际应用中标注成本高昂且标签可能存在噪声或缺失,本文进一步深入探讨了非完全有监督学习范式下的研究进展,系统总结了噪声标签学习、半监督学习及无监督学习等方向所面临的独特挑战与代表性解决方案.为全面评估各类算法的性能,本文在SYSU-MM01、RegDB和LLCM公开数据集上,对不同监督范式下的代表性算法进行了统一的性能对比与分析.最后,本文立足于当前研究的技术瓶颈,对未来发展趋势进行了展望,指出构建更贴近真实场景的多样化数据集、缓解模态数据不平衡问题、推动模型轻量化部署、探索可持续或终身学习机制,以及拓展至视频级或多源异构信息融合的行人重识别等方向将是该领域极具潜力的研究热点,旨在为后续学者提供有价值的理论参考与技术指引.