最新刊期

    2026年第54卷第1期

      学术论文

    • 攻击技战术双层关联建模的个性化风险评估方法

      仇晶, 农李晨, 孙一飞, 操晓春, 陈玺名, 张睿智
      2026, 54(1): 1-18. DOI: 10.12263/DZXB.20250681
      摘要:以MITRE ATT&CK框架为指导,通过刻画攻击者的战术目标与技术手段,利用攻击图进行网络安全风险建模与评估,已成为当前应对复杂多步攻击威胁的重要手段之一。然而,随着攻击场景和攻击链条日益复杂,现有基于ATT&CK的攻击路径建模与风险评估方法仍存在一定局限性。一方面,现有攻击路径建模过程仅考虑ATT&CK框架中攻击技术间的直接转移关系,忽略了战术层面的攻击语义,削弱了对复杂多阶段攻击路径的高层次语义约束能力。另一方面,依赖通用漏洞特征的攻击图风险量化评估方法,忽略了不同组织对关键资产的关注差异,导致评估结果缺乏资产个性化适配。针对上述挑战,本文提出攻击技战术双层关联建模的个性化风险评估方法。首先,通过构建技战术双层关联模型对技战术间潜在关系建模,结合维特比算法求解攻击战术阶段演变路径,在路径推理过程中引入战术层面的阶段约束。随后,构建融合攻击行为属性与资产个性化的定制化威胁量化模型,通过前向算法将状态转移概率与威胁量化指标耦合,实现对网络整体安全风险评估。实验结果表明,所提出的方法在实际网络环境中,路径建模与风险评估能力均优于其他现有主流评估模型,其综合风险评估准确率相较对比方法平均提升48.95%,验证了该方法在复杂攻击场景下的有效性与实用价值。  
      关键词:网络安全;逻辑攻击图;风险评估;隐马尔可夫模型;ATT&CK框架;风险路径识别   
      19
      |
      7
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 155511272 false
      更新时间:2026-06-04
    • 面向机器视觉的文本提示引导的图像编码

      黄志勐, 高峰, 杨帆, 马思伟
      2026, 54(1): 19-31. DOI: 10.12263/DZXB.20250778
      摘要:近年来,随着物联网(Internet of Things,IoT)、语义通信以及智慧城市等经典机器间通信(Machine to Machine,M2M)场景的快速发展,海量视觉数据在设备间的实时传输与高效处理成为了一项关键挑战。在此背景下,传统以人眼感知质量为核心的图像编码方法,因其优化目标与机器视觉任务需求存在本质差异,往往在面向机器视觉分析时出现分析精度不足的问题。为此,面向机器视觉的图像编码(Image Coding for Machine,ICM)应运而生,其核心目标是在保证下游机器视觉任务(如分类、检测、分割等)分析精度的同时,实现尽可能低的编码码率,从而更好地适配M2M场景中的带宽与存储约束。然而,现有ICM方法仍面临两大瓶颈:其一,在极低码率条件下性能急剧下降。这是由于现有方法多依赖于端到端的非线性变换提取视觉特征,未能充分挖掘和利用图像中高层语义信息的紧凑表示,导致特征编码效率不足;其二,在开放场景下的泛化能力弱。多数方法针对单一任务、单一数据集进行优化,缺乏对未知类别、跨域数据的适应能力,难以在实际动态环境中保持稳定的分析性能。为突破上述限制,本文提出一种文本提示引导的面向机器视觉图像编码框架(Text-prompted Image Coding for Machine,T-ICM)。该框架的核心思想是将图像信息解耦为语义信息与纹理信息两个互补的组成部分,其中,语义信息以结构化文本提示(如对象类别、位置描述)的形式进行表示与编码,纹理信息则通过一种任务无关的通用视觉特征进行提取与压缩。在编码端,文本提示因其高度抽象和语义紧凑的特性,可以显著降低整体码率;通用特征则通过我们提出的分组特征编码模块进行高效压缩。在解码端,文本提示不仅用于直接解析完成分类、检测等任务,更重要的是作为引导信号,通过提示编码器与掩膜解码器,动态调整重建通用特征的语义感知区域,实现特征层面的域自适应与任务适配,从而显著提升模型在开放场景下的鲁棒性。本文在多个标准数据集与任务上对T-ICM进行了全面评估。实验表明,在语义分割和实例分割等密集预测任务上,T-ICM在极低码率下仍能保持接近原始图像输入的分析精度,其性能显著优于H.266/VVC、基于深度学习的图像编码器以及现有的其他ICM方法。本研究通过将语义信息迁移至高度压缩的文本模态进行传输,并利用其引导特征重建,T-ICM在编码效率与任务性能之间实现了更优的权衡,为未来语义通信、边缘智能协同,以及自适应机器视觉系统的发展提供了新的思路与技术支撑。  
      关键词:视频编码;智能编码;特征编码;面向机器视觉的特征编码;深度学习;信号处理   
      13
      |
      9
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153936701 false
      更新时间:2026-06-04
    • 转置投影包络线性判别分析

      李勇明, 赵文强, 李帆, 张小恒, 王品
      2026, 54(1): 32-49. DOI: 10.12263/DZXB.20250938
      摘要:线性判别分析(Linear Discriminant Analysis,LDA)是一种运用广泛的特征提取方法,其以Fisher判别准则为指导,增强子空间中异类样本区分性和同类样本紧凑性,提高了降维结果质量,具有成熟、易解释、简单高效等优点,迄今为止仍是学术界和产业界的研究热点之一。诸多学者对LDA进行了改进以进一步提高其性能,然而这些LDA变体方法直接建模在原样本粒度上,只利用了样本自身存在的信息。由DIK(Data-Information-Knowledge)模型表明,人类获取知识有三个层次,即数据层、信息层,以及知识层,数据首先应当被转换为信息,然后再从信息中学习知识。由人类认知机制表明,信息层不仅包含了原始输入自身信息,还包含了与其相似输入间的关联信息。将其类比于LDA降维过程,提取到的特征即为信息,该信息也应当包含相似样本间的关联信息,以提高下游任务性能。且已有相关研究表明,相似样本间存在的关联信息对机器学习模型构建、知识获取至关重要。即现有LDA存在缺陷,其对样本信息的利用不够完备。针对上述问题,本文提出了转置投影包络线性判别分析(Transposed Projection Envelope Linear Discriminant Analysis,TPELDA)。首先,通过转置投影将原始样本转换为包含相似样本间关联信息的包络样本,转置投影的核心思想为在样本维度上对一批最近邻样本进行降维,使得降维所得包络样本尽量包含该批样本所含信息;随后基于包络样本利用Fisher判别准则学习降维子空间;同时引入分布差异惩罚项确保降维子空间对原始样本的适配性;最后通过联合优化,该方法在考虑相似样本间关联信息的基础上使得投影到子空间中的样本具有更好的判别特征,即该特征同时代表了样本自身信息以及相似样本间存在的关联信息。实验结果表明,TPELDA在给定的多个数据集上相比相关对比方法性能更优,提升范围在2.25%至13.19%之间。此外,结合其他实验结果,表明了本文方法的有效性。  
      关键词:线性判别分析;降维;关联信息;分布差异;包络学习;特征提取   
      9
      |
      7
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153340369 false
      更新时间:2026-06-04
    • 面向在线生成式人工智能服务的隐私保护方法

      齐涛, 王慧丽, 杨珮茹, 王文丹, 谭支鹏, 黄永峰, 王尚广, 徐红艳, 罗传文
      2026, 54(1): 50-67. DOI: 10.12263/DZXB.20250793
      摘要:近年来,在线人工智能系统在众多领域展现出强大的推理能力,对社会产生了广泛的影响。在使用此类模型服务时,用户通常需将相关查询数据上传至云端平台以提供明确的任务指令。然而,这些查询数据可能包含隐私敏感或者机密信息,直接与云端平台共享会存在隐私泄露风险。此外,人工智能平台通常也会收集并利用用户数据进一步训练模型,可能导致用户的私有信息被生成式大模型记忆,并在后续公共服务中被生成并传播,从而加剧隐私泄露的可能性。现有生成式人工智能应用的隐私保护机制普遍依赖于针对提示词的脱敏技术,其安全性高度依赖敏感信息识别的准确性,通常需依赖大量标注数据进行隐私识别模型训练,不仅在实施成本上存在挑战,在训练过程中还极有可能引入新的隐私漏洞。为应对这一问题,本文提出一种新型隐私保护协同学习框架PrivateAI,该框架的核心思想是在严格保障隐私安全的前提下,充分利用分散在不同终端设备中的敏感数据,以训练本地隐私识别模型。同时,PrivateAI通过提取云端大模型推理过程中隐含的知识,并将其压缩为轻量级知识蒸馏数据集,实现对本地模型的高效性能增强。此外,针对标注数据和大模型蒸馏数据的异构性挑战,本框架引入了异构知识融合机制,用于对齐并整合来自基础模型与分布式标注数据的多源知识,从而显著提升隐私识别模型的泛化能力与隐私风险预警性能。为验证PrivateAI的实际效果,本文在两个真实医疗数据集上进行了系统评估。该框架能够在满足隐私约束的前提下,有效训练隐私识别模型,并对潜在隐私风险进行预警。在两个公开医疗数据集上的实验结果表明,PrivateAI训练得到的模型可最高提升53.7个百分点的隐私保护成功率。上述验证展现出PrivateAI在缓解隐私泄露风险方面的潜力,可作为在线智能应用中预防隐私泄露的有效工具。  
      关键词:隐私保护;协同学习;在线人工智能服务;差分隐私;联邦学习   
      8
      |
      10
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 154003940 false
      更新时间:2026-06-04
    • 面向工业无线确定性传输的多路径路由与调度联合优化

      陈荣均, 王洪超, 王钦定, 乔凯, 田伟康, 杨冬
      2026, 54(1): 68-85. DOI: 10.12263/DZXB.20250734
      摘要:随着工业无线网络和无线通信技术的快速发展,无线网络的确定性传输已成为一个重要的研究方向。然而,无线信道中的不确定因素,如多径衰落和同频干扰,给无线网络的确定性传输带来了诸多挑战。为了解决这些问题,Internet工程任务组(Internet Engineering Task Force,IETF)提出了可靠可用无线(Reliable and Available Wireless,RAW)架构,并在工业无线网络场景中使用时隙跳频(Time-Slotted Channel Hopping,TSCH)作为底层实现技术。为了确保可靠性和严格的时延要求,RAW设计了多种保障机制,包括通过数据包复制、消除与排序功能(Packet Replication, Elimination and Ordering Functions,PREOF)技术利用路径冗余提升传输的可靠性和确定性。然而,现有的调度方案未充分考虑PREOF以及路由和调度的联合优化,导致时频资源分配时存在冗余和资源浪费,从而影响了网络对关键流的调度能力。本文面向确定性流量传输的多路径路由与调度联合优化问题进行建模,并提出了一种基于分层强化学习的资源分配算法(Herarchical Reinforcement Resource Allocation,HRRA)。其中,高层策略负责多路径路由的选择,低层策略则基于高层策略的路由决策进行时频资源的分配,同时考虑PREOF在聚合节点对冗余包的删除。针对拓扑规模的变化和流量的异构性,在高层策略引入图神经网络(Graph Neural Network,GNN)增强对输入特征的表征能力。HRRA算法能够根据流的截止时间、可靠性等需求选择合适的动作,从而最大化调度流数量和资源利用效率。通过这种跨层优化架构和对PREOF的支持,HRRA不仅有效解决了资源冗余和调度能力不足的问题,还增强了对流的确定性通信需求的支持。实验表明,相比于DGRL+MWIS和EDF-MO等基准算法,HRRA分别提升了10.6%和36.6%的调度能力,同时实现了更高的资源利用效率。  
      关键词:可靠可用无线网络;数据包复制-消除-有序转发;分层强化学习;图神经网络;网络资源调度   
      5
      |
      8
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153742687 false
      更新时间:2026-06-04
    • 基于文本语义引导的红外与可见光图像融合方法

      朱明瑞, 陈希茹, 卫鑫, 王楠楠, 高新波
      2026, 54(1): 86-101. DOI: 10.12263/DZXB.20250906
      摘要:红外与可见光图像融合(Infrared and Visible image Fusion,IVF)旨在结合两种图像模态中的互补信息,将红外图像中的显著目标与可见光图像的丰富纹理细节进行有效整合,从而生成在信息量与视觉质量方面均优于单一模态的融合图像。现有研究证实,基于深度学习的融合方法已在提升融合图像质量方面取得了显著进展,但这类方法大多仍局限于低层视觉特征层面的建模,对于高层语义信息与视觉特征之间的深层语义关联挖掘仍不充分。近年来,随着大规模视觉-语言模型(Vision-Language Models,VLMs)的快速发展,文本引导的图像融合方法因其灵活性与多样性而展现出巨大潜力。然而,文本语义信息的有效整合与利用仍有待深入研究。针对上述问题,本文提出了一种用于红外与可见光图像融合的文本语义引导方法(Textual Semantic Guidance,TeSG),该方法以下游目标检测与语义分割等视觉任务为目标,通过在融合过程中显式引入由VLMs生成的高层语义信息,实现对融合过程的精准调控。TeSG从两个层级引入文本语义信息:一是由VLMs自动生成文本描述,作为全局文本语义级引导,为融合过程提供高层语义约束;二是基于文本描述生成关键目标区域的掩码语义,实现对前背景区域的定位与差异化建模。基于此,本文设计了三个核心模块:语义信息生成(Semantic Information Generator,SIG)模块基于自动生成的文本描述生成掩码语义与文本语义;掩码引导交叉注意力(Mask-Guided Cross-Attention,MGCA)模块在掩码语义的指导下,对红外与可见光图像的视觉特征进行基于注意力的初步融合,实现掩码级别跨模态特征的交互;文本驱动注意力融合(Text-Driven Attentional Fusion,TDAF)模块通过文本引导注意力和门控机制实现语义级的融合与动态加权。实验结果表明,所提TeSG方法通过双层语义引导的融合范式,在保持多模态图像纹理和对比度方面均优于现有先进方法(State Of The Art,SOTA),并在下游目标检测与语义分割任务中也取得了更优的性能,相较于当前最优的图像融合方法平均提升了1.4%,验证了其竞争力与有效性。本文方法有效解决了现有图像融合算法文本与视觉特征的深层关联探索不充分的问题,实现了融合质量与下游任务性能的双重提升。  
      关键词:图像融合;红外与可见光图像;文本语义引导;深度学习;视觉-语言模型;注意力   
      5
      |
      8
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 154117652 false
      更新时间:2026-06-04
    • CIMOT3D:基于中文引导的单目视角下三维多目标跟踪研究

      王荣, 胡海祥, 魏弘凯, 梁浩翔, 钱晓伟, 李凯飞, 郭柯宇, 宋翔宇, 孙士杰
      2026, 54(1): 102-114. DOI: 10.12263/DZXB.20250826
      摘要:自然语言描述驱动的目标跟踪通过解析符合人类表达习惯的语言描述,并将其与视觉信息融合,从而实现复杂环境中特定目标的精准识别与持续跟踪.然而,现有方法主要集中于二维场景或三维单目标跟踪,尚未扩展至三维多目标跟踪,缺乏将文本与三维视觉空间中多个候选目标进行特征对齐与关联建立的能力;此外,现有自然语言描述驱动三维目标跟踪任务在语言层面存在冗余问题,难以模拟人类基于灵活简练的指令对多个特定目标进行跟踪的能力.针对这些挑战,本文提出基于中文引导的单目视角下三维多目标跟踪新任务(Chinese-Instruction-based monocular 3D Multi-Object Tracking,CIMOT3D),并构建了含有5 562个视频序列的数据集CIMOT3D-5k,且所有序列均标注有符合人类表达习惯的中文描述.同时,本文设计了一种专用于该任务的神经网络模型CIMOT3D-SyncTracker(Chinese-Instruction-based monocular 3D Multi-Object tracking Synchronization Tracker),其框架由多模态特征提取器、视觉语言编解码器与检测跟踪模块三部分组成.相比于基线方法,本文方法在CIMOT3D-5k数据集上的跟踪准确率和身份一致性指标上分别提高了4.1和5.0个百分点,验证了其性能优势.本文拓展了视觉语言融合在三维多目标跟踪方向的研究深度,并为相关领域的后续探索提供了新的思路.  
      关键词:场景理解;三维目标跟踪;多目标跟踪;视觉语言模型;多模态学习;机器视觉   
      5
      |
      19
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153340882 false
      更新时间:2026-06-04
    • 汪子尧, 田瑜, 黄俊杰, 谭捷, 杨文婧
      2026, 54(1): 115-124. DOI: 10.12263/DZXB.20250975
      摘要:随着云计算、大数据及人工智能应用的快速演进,数据中心规模持续扩张,存储系统的可靠性已成为影响其稳定运行与服务可用性的关键因素。固态硬盘(Solid-State Drive, SSD)作为数据中心存储系统的关键组成部分,因其高吞吐、低时延、低功耗等特性被广泛部署于数据中心核心存储层,但在大规模、长周期运行条件下,SSD故障呈现出突发性强、演化模式复杂等特征,对业务连续性与数据安全构成严峻挑战。为提高SSD故障预测的准确性与实用性,本文提出基于分类模型与特征工程的机器学习预测方法,以及基于显式规则引擎和动态特征补偿的规则推理预测方法。机器学习预测方法通过多阶段特征工程与集成学习,在数据完备场景下实现了0.968的宏平均F1分数,但其“黑盒”特性在某种程度上限制了工业应用。规则推理预测方法通过构建多算法融合的显式规则引擎,并引入基于SHAP(SHapley Additive exPlanations)值的动态特征补偿机制,在数据完整情况下达到0.988的准确率;在8个特征缺失的极端场景下仍保持0.941的准确率,展现出强鲁棒性。实验结果对比分析表明,机器学习预测方法在数据完备时预测精度高,规则推理预测方法则在可解释性、实时性与缺失数据适应能力方面更具优势。本文进一步探讨了两类方法的融合路径,为构建兼具感知能力与推理透明性的下一代智能运维系统提供了理论支撑与实践参考。  
      关键词:SSD故障预测;规则推理;机器学习;特征工程;实时预测   
      12
      |
      14
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 154117521 false
      更新时间:2026-06-04
    • 基于空频双域特征融合的高迁移性对抗样本生成方法

      张世辉, 赵鹏宇, 张尧, 韩少杰
      2026, 54(1): 125-140. DOI: 10.12263/DZXB.20250521
      摘要:尽管深度神经网络在许多领域中均表现出卓越的性能,但对抗样本的存在暴露出其在安全方面的显著缺陷。现有黑盒攻击方法通常仅在单一域中进行对抗攻击,忽视了多域特征协同扰动在提升对抗样本迁移性中的重要作用,且多存在损失函数功能单一问题,难以兼顾目标类别导向与梯度稳定。鉴于此,本文提出了一种基于空频双域特征融合的高迁移性对抗样本生成方法(Spatial-Frequency Dual-domain Feature Fusion,SFDFF)。首先,使用离散余弦变换将输入样本从空间域转换至频率域,区域级融合输入样本与原始样本的频率域特征;其次,利用逆离散余弦变换将输入样本还原至空间域,并向其注入基于原始样本统计特征的噪声;然后,通道级融合输入样本与原始样本的空间域特征;最后,设计了一种兼具目标引导与稳定梯度的双导向损失以进一步提高攻击性能。在ImageNet-Compatible与CIFAR-10数据集上的大量实验验证了所提方法的性能。例如,在ImageNet-Compatible数据集上,当从adv-RN-50模型迁移至LeViT模型时,所提SFDFF方法的攻击成功率较当前最优方法提升了2.5%。本文代码见https://github.com/ipkpkpk/SFDFF。  
      关键词:对抗样本;特征融合;频率域;空间域;黑盒攻击;迁移性   
      7
      |
      9
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153340843 false
      更新时间:2026-06-04
    • 高精度高速度低算力的AUV水下导引光学定位方法

      谢正斌, 孙哲, 战绪丰, 李学龙
      2026, 54(1): 141-152. DOI: 10.12263/DZXB.20250753
      摘要:自主水下航行器(Autonomous Underwater Vehicles,AUV)在长时间执行海洋探测及其他作业任务后,必须回到回收站进行能源补充和数据传输。在AUV的末端回收阶段,其定位系统的定位精度与定位速度直接影响AUV的导引成功率。目前的导引技术中,声学导引方法虽然作用距离较远,但其定位精度难以满足近距离对接要求;基于视觉的导引方法虽然精度较高,但其易受水体浑浊、光照散射等外部环境因素干扰,且该方法涉及复杂的图像特征提取与矩阵运算,对AUV所承载的计算平台算力和功耗提出了更高的要求。针对AUV算力受限以及传统视觉方法实时性差、计算量大的问题,本文提出了一种软硬件一体化的轻量高速光学定位方案。本研究构建了基于多象限光电探测器的AUV导引模型。在硬件方面,本方案是用搭载于AUV前端的8 × 8阵列式多象限面阵探测器作为信号接收端,回收站前方部有正三角形排布的LED(Light-Emitting Diode)三导引灯组作为信号发射端。该探测器通过测量入射光斑的形心位置计算三组光信号的入射偏角,避免了传统视觉系统中大量的图像矩阵计算。在数学模型上,本文建立了从偏角信息到相对空间坐标的映射关系。考虑到AUV的翻滚角在结构设计阶段已得到约束,本模型去掉了翻滚角的信息,有效减少了因姿态测量误差导致的定位精度下降问题,提升了系统的鲁棒性。针对空间中的非线性求解问题,本文引入了改进粒子群优化算法(Particle Swarm Optimization,PSO),以最小化预测偏角与实际测量偏角的误差和作为损失函数,实现了AUV相对位姿的快速估计。为了验证本算法性能,本文开展了物理仿真与海试验证。首先,基于物理模型生成了包含10万组不同数据的仿真数据集,其中涵盖0~20 m内的不同距离与姿态信息。随后,将算法部署于低功耗边缘计算平台Jetson Orin NX进行实测。实验结果表明,在速度方面,本系统可以在192 Hz的频率下稳定解算AUV的位姿信息;在精度方面,在0.6~2 m的末端导引距离内,本算法的平均定位误差仅为7.81 mm;在2~20 m的中远导引距离内,平均定位误差为159.90 mm。此外,基于ROV(Remotely Operated Vehicle)的海试实验中,本文以GPS(Global Positioning System)数据作为基准真值,扣除硬件基准误差后,与仿真实验的精度水平基本一致,进一步说明了算法在真实水下环境中的鲁棒性和高效性。相比于已有的视觉导引方法,本方法在保证毫米级导引定位精度的同时,展现出了一定的计算量和功耗优势。本算法的单次解算浮点运算量降低至1 MFLOPs(Million FLoating-point Operations Per second),相比文中所列其他方法减少了2~3个数量级,在Jetson Orin NX上的运行功耗仅约为10 W。本研究进一步缓解了AUV水下末端导引中高精度、高速度与低算力要求之间的矛盾,为边缘型水下机器人的高效自主回收提供了新的思路。  
      关键词:光学导引;AUV水下回收;多象限光电探测;粒子群算法;轻量化;边缘计算   
      3
      |
      16
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153749969 false
      更新时间:2026-06-04
    • 一石二鸟:图数据无监督学习中的检测与分类协同

      李思聪, 王飞, 魏子令, 陈曙晖
      2026, 54(1): 153-166. DOI: 10.12263/DZXB.20250761
      摘要:现实世界中的图机器学习系统通常运行于开放环境,测试阶段不可避免地接触到与训练分布不一致的样本,这违背了传统监督学习中训练与测试同分布的假设。模型不仅需要在分布内(In-Distribution,ID)样本上保持稳定的分类性能,还需具备识别并拒绝分布外(Out-Of-Distribution,OOD)数据的能力,以避免过度自信的错误预测。由于图数据中节点属性与拓扑结构高度耦合,分布偏移往往以隐式形式发生,使得图OOD检测较欧氏数据更加复杂。现有图OOD检测方法通常依赖强监督假设,如引入预标注的异常样本,或假设辅助OOD数据与ID数据在特征空间中显著可分。然而在实际应用中,OOD数据多以无标注、与ID数据天然混杂的形式出现,例如社交网络中的跨平台用户或推荐系统中的冷启动节点。这类野生数据难以通过先验规则进行显式区分,限制了现有方法在开放环境下的适用性。针对这一问题,本文提出一种全开放训练范式,在无需任何OOD标注或分布先验的条件下,利用无标注ID/OOD混合数据联合优化图节点分类与OOD检测任务。该方法通过构建带约束的优化目标,在严格约束ID分类误差与误检率的同时,引导模型提升对潜在OOD样本的识别能力,从而刻画真实开放环境中ID与OOD分布的隐式耦合关系。在方法层面,引入基于能量函数的检测机制,将图神经网络输出映射为能量值以度量样本与训练分布的一致性。能量约束引导模型在表示空间中形成可分离的分布结构,使ID样本集中于低能量区域,而潜在OOD样本对应较高能量,从而实现有效区分。该机制避免了基于Softmax置信度方法在分布外场景下的过度自信问题,并使检测目标能够直接作用于图表示学习过程。为求解上述带约束优化问题,本文采用增广拉格朗日方法,在训练过程中动态平衡约束满足与目标优化,增强模型在混合分布下的稳定性。实验结果显示,该方法在多个真实世界图数据集上均取得显著性能提升。在Twitch数据集上,AUROC和AUPR分别达到95.97%和92.84%,较当前最优基线GNNsafe++提升超过21个百分点,同时将误报率控制在12.30%,验证了其在无强监督条件下的有效性与鲁棒性。  
      关键词:分布外检测;图神经网络;节点分类;机器学习;野生数据;能量函数   
      7
      |
      9
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153914963 false
      更新时间:2026-06-04
    • 罗海桐, 张蔚瑶, 林纯钢, 孟绪颖, 张玉军
      2026, 54(1): 167-182. DOI: 10.12263/DZXB.20250576
      摘要:随着网络技术的演进,流量规模呈指数级增长,攻击手段(如协议混淆、跳跃连接等)日益隐蔽复杂,传统检测方法已难以应对。尽管图神经网络(Graph Neural Networks,GNNs)在建模流量拓扑依赖方面展现出潜力,但在现实网络安全场景中,普遍存在两大瓶颈:一是网络流量图显著的结构异配性,即异常流量倾向于与特征迥异的正常节点建立非典型连接,导致基于同配性假设的图神经网络失效;二是高质量异常标签极度稀缺,全参数微调易引发过拟合或知识负迁移。为此,本文提出一种面向网络流量异常检测的频谱感知图预训练与提示微调框架。该框架摒弃了传统图学习对同配结构与大量标签的依赖,其核心创新在于:(1)引入互补的频谱滤波器组,首次将捕捉稳定通信模式的低通信号与识别异常连接扰动的高通信号进行联合建模,从频域视角精准刻画流量的异配结构;(2)设计频谱感知的对比学习机制,通过最大化跨频域视图的表示一致性,在预训练阶段提取鲁棒的频率不变特征;(3)提出参数高效的提示微调策略,在冻结主干参数的前提下,利用可学习的提示向量自适应调节高低频通道的融合权重,实现向少样本下游任务的精准迁移。在CICIDS2017、CICIDS2018及HIKARI2021三个真实数据集上的实验表明,该方法在少样本场景下的检测性能全面优于现有基准模型,最高提升幅度超20%,验证了其在复杂异配网络环境中的鲁棒性与实用性。  
      关键词:网络异常检测;图神经网络;预训练;频谱图滤波器;提示微调;流量检测   
      8
      |
      25
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153340935 false
      更新时间:2026-06-04
    • 基于多分辨率并行特征提取的多声源分离方法

      高尚, 贾懋珅
      2026, 54(1): 183-194. DOI: 10.12263/DZXB.20250937
      摘要:随着万物互联、智能感知及人机交互等技术的快速发展,复杂声场环境下的多声源分离已成为语音信号处理领域的重要的前端问题。然而,非平稳语音信号在不同时间和频率尺度呈现出不同的能量分布特性,其中既包括快速变化的共振峰结构,也包含相对平稳的谐波与周期信息。传统的单一时频分辨率分析方法在该场景下面临根本性约束:当分析窗较短时,频率分辨率不足,难以区分多个声源的谐波结构;而当窗长较长时,时间分辨率下降,又难以捕获语音快速变化的瞬态特征。因此,当前多声源分离方法在复杂声环境下往往表现出时频结构解析不足、语音细节丢失与分离失衡等问题。现有基于固定分辨率的分离方法在真实复杂声学环境中,常出现时频结构模糊、语音细节损失及分离后信号失真等问题,限制了系统在实际场景中的鲁棒性与可用性。为解决上述问题,所提方法实现了一种多分支并行的深度神经网络,每个分支独立处理由不同窗长生成的时频谱,并采用嵌套的层次化递归单元进行特征建模。具体而言,每个分支内部设计了两级递归模块:频率-空间建模单元(Frequency Long Short-Term Memory,F-LSTM)沿频带方向递归,提取跨通道的空间相关性与频域结构;时间-空间建模单元(Time Long Short-Term Memory,T-LSTM)沿时间轴递归,捕捉语音信号的长期动态演化与时序依赖性。此外,所提方法将不同分析窗生成的多组不同分辨率的时频谱并行输入网络,实现网络对于时间与频率分辨率的互补。在训练过程中,各分支通过共享的时域重建损失进行联合优化,推动网络学习跨分辨率的一致性表示与互补特征。每一个分支均设置嵌套结构以增强跨分辨率特征的交互与融合能力。在网络输出端,各分支估计的复数谱掩蔽经融合层集成,通过逆短时傅里叶变换重建时域信号,最终在时域和频域双重约束下进行端到端训练。所提多分辨率融合方案在高混响、多说话人环境下均能显著提升语音分离的客观指标与主观听感,且具备良好的结构灵活性,可迁移至其他基于时频分析的网络框架中,为未来面向复杂声场的多源分离模型设计提供了可扩展的思路与方法基础。  
      关键词:多分辨率时频分析;稀疏成分分析;声源分离;深度神经网络   
      5
      |
      8
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 154600920 false
      更新时间:2026-06-04
    • 基于几何先验知识约束的双目视觉深度估计方法

      张泽辉, 王阳, 陈博洋, 张浩轩, 徐晓滨, 吴富龙, 程胜龙, 邵海滨, 李昊
      2026, 54(1): 195-205. DOI: 10.12263/DZXB.20250504
      摘要:近年来,随着自动驾驶、机器人导航及三维重建等领域的迅速发展,深度估计技术作为感知环境三维结构的关键手段,受到广泛关注。然而,现有基于监督学习的深度估计方法虽然在特定数据集上表现优异,但其泛化能力较弱,且依赖大规模、高质量的标注数据,这严重限制了其在真实工业场景中的应用。因此,本研究提出一种基于几何先验知识约束的双目视觉深度估计方法。首先,组合残差卷积与上下文编码器,从图像数据中提取多尺度特征。接下来,利用特征金字塔结构捕捉不同尺度匹配信息,并保留图像边缘结构细节。然后,设计多级门控制循环(Gated Recurrent Unit,GRU)单元结合不同尺度特征信息对特征匹配参数进行更新,优化视差匹配结果,实现双目视觉深度估计。特别地,本文构建了一种结合监督信号与物理先验的混合损失函数。该函数在传统监督损失的基础上,引入了源自自监督学习范式的几何约束作为正则化项,具体包括左右视差一致性约束和视差结构一致性约束。其中,左右一致性约束通过强制左右视图预测视差满足几何对应关系,以增强模型的几何理解并缓解遮挡区域的误匹配,而结构一致性约束则通过引导视差图在纹理平坦区域保持平滑、在物体边缘处保持清晰,进而提升深度图的结构完整性与视觉质量,以实现增强双目视觉深度估计模型的泛化能力。为验证所提方法的有效性,本文在KITTI 2015和Middlebury等公开数据集上进行训练与评估,并利用SceneFlow数据集进行跨数据集泛化性能测试。实验结果表明,引入几何先验约束后,基线模型的性能得到稳定提升,在KITTI数据集上,端点误差(End-Point Error,EPE)降低了3%~5%,综合误匹配率(D1-all)降低了5%~8%。同时,在Middlebury数据集上的结果进一步证实了该方法在不同场景下的良好泛化性与鲁棒性。消融实验验证了各模块的贡献,超参数敏感性实验确定了损失函数权重的最优配置。此外,迁移实验表明,本文提出的几何先验约束机制具有良好的可移植性,能够适配于多种主流深度估计网络架构,并普遍带来性能增益。  
      关键词:深度估计;立体匹配;先验知识;深度学习;几何约束;混合监督学习   
      10
      |
      14
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153338144 false
      更新时间:2026-06-04
    • 计及台区电能质量的分布式电源电压调控策略

      管永明, 史玉良, 王继虎, 吕梁, 陈志勇, 李晖
      2026, 54(1): 206-218. DOI: 10.12263/DZXB.20250980
      摘要:针对高渗透率分布式光伏接入配电台区引发的电压波动问题,提出一种计及台区电能质量的分布式电源电压调控策略。首先,基于台区拓扑结构构建分布式光伏-负荷节点连接关系图,以此为依据进行动态调控区域划分、关键电压节点筛选及多目标优化函数设计。在此基础上,构建了一种基于时频分类与混合专家网络(Mixture of Experts,MoE)的光伏出力预测模型,通过融合时域变化特征与频域周期规律,增强出力波动的分类表征能力,并借助MoE结构实现数据分类下的专业定向预测,从而显著提升预测精度与稳定性。进一步,以预测结果为输入,采用模型预测控制方法,将电压约束、有功功率输出及调控频率等多重限制条件直接嵌入滚动优化目标,生成前瞻式协同调控策略,以解决传统逆变器调控滞后、动作频繁及出力降额等问题。为提升台区级调控效率并降低计算负担,设计了具备自趋优更新机制的经验回放区,结合调控边界自感知规则,在预测完成后可触发精简调控模式,直接选取相似历史策略执行,并通过奖励机制持续优化策略库,从而在保证调控稳定性的同时大幅提升响应速度。仿真结果表明,所提方法在预测准确性上显著优于多种对比方案,其测试准确率达99.29%,标准差仅0.71%,波动范围控制在3.27%。在电压调控效果方面,该方法在负荷突增导致电压越下限、光伏出力波动引起电压越上限等多类场景中,均能实现快速且平稳的电压恢复:在电压越下限2%~10%场景下,调控完成速度较现有方法提升2.4倍以上;在越上限2%~7%场景中,调控速度快1.5倍以上,且全过程电压偏差始终维持在±2%以内,有效避免了频繁调控与发电损失;在电压越上限7%~10%场景中,通过降低有功功率输出实现压降,所提方法在2 s内即可完成调控,且有功功率输出较传统方式提升约3%,显著缓解了因过压保护导致的停机风险。综上所述,文章所提出的融合精准预测、滚动优化与经验回放机制的电压调控策略,不仅具有较高的预测精度与响应速度,而且能有效保障台区电压稳定并提升光伏出力,为分布式新能源从“规模扩张”向“质量提升”转型提供了可行的技术支撑。  
      关键词:分布式光伏;台区电压调控;时频分类;混合专家网络;模型预测控制;调控边界感知   
      5
      |
      12
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153978334 false
      更新时间:2026-06-04
    • 大语言模型驱动下基于零样本语境联想的意图分类

      陶汉卿, 程玉虎, 王雪松, 王军
      2026, 54(1): 219-233. DOI: 10.12263/DZXB.20250863
      摘要:意图分类是自然语言处理领域中的一项基础而关键的任务,其目标在于准确识别用户输入语句所表达的潜在意图,是对话系统、智能客服与人机交互等应用的重要技术支撑。近年来,基于深度学习的意图分类方法取得了显著进展,但其性能高度依赖大规模标注语料与稳定的领域分布,在实际应用中仍面临诸多挑战。尤其在短文本信息稀疏、标签语义抽象以及领域先验不足等低资源情境下,用户表达往往具有信息密度低、语义依赖隐含、表述方式多样等特点;同时,意图标签本身通常具有高度抽象性,不同标签之间语义边界模糊,现有模型难以仅凭文本内部的字面特征充分刻画深层语义与语境关联,进而制约了意图分类模型在低资源与跨场景条件下的泛化能力与鲁棒性。针对上述问题,本文从语义扩展与语境建模的角度出发,尝试突破传统监督学习对显式标注样本与表层字面特征的依赖。不同于将任务直接设定为零样本意图分类,本文在有监督学习框架下引入大语言模型的零样本语境联想能力,利用其蕴含的丰富世界知识与语义推理能力,扩展可学习的语义空间,从而弥补文本信息稀疏与标签语义不足所带来的建模缺陷。基于这一思路,本文提出一种基于大语言模型的零样本语境联想模型(LLM-based Zero-shot Context Association Model,L-ZCAM)。该模型通过构造结构化提示词,引导大语言模型从联想意图与标签定义两个互补视角生成与输入语句相关的补充性语境语义信息,实现文本内部特征与文本外部知识的联合挖掘,并对意图标签的语义内涵进行显式增强。在模型结构设计上,L-ZCAM采用多路特征编码与交叉注意力机制,对原始文本特征、联想语义特征及标签语义特征进行深度交互建模;同时,引入约束引导的联合损失函数,对联想语义与标签语义之间的一致性进行约束,以缓解语义噪声带来的干扰,实现文本内外信息的有效对齐。通过上述设计,L-ZCAM能够更好地感知多义模糊、标签抽象以及表达多样等复杂语境下的语义关联关系,从而提升意图判别的准确性与稳定性。实验结果表明,在CLINC150、Banking77和HWU64三个公开数据集上,L-ZCAM的宏平均F1分数分别较当前最新方法提升2.25%、1.28%和1.29%,在不同任务场景下具有更强的泛化能力与鲁棒性。  
      关键词:大语言模型;意图分类;零样本语境联想;语义扩展;特征生成;交叉注意力   
      7
      |
      9
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153582318 false
      更新时间:2026-06-04
    • Ru、Hf原子掺杂硅烯吸附气体分子的第一性原理研究

      渠子轩, 石家乐, 许巍, 任青颖, 李金泽, 李卫
      2026, 54(1): 234-247. DOI: 10.12263/DZXB.20250781
      摘要:本文基于第一性原理计算,系统研究了本征硅烯以及过渡金属元素钌(Ruthenium, Ru)和铪(Hafnium, Hf)掺杂后硅烯的几何结构与电子性质。计算结果表明,在两种掺杂体系中,Ru掺杂后的硅烯具有更高的结构稳定性,Hf掺杂后的硅烯则表现出了优异的气体吸附性能。在确定气体分子的最佳吸附点位后,本文重点对比研究了一氧化碳(CO)、二氧化碳(CO2)、硫化氢(H2S)、氨气(NH3)、二氧化硫(SO2)、甲醛(H2CO)六种气体分子分别在本征硅烯、Ru掺杂硅烯和Hf掺杂硅烯三种体系表面的吸附性能,通过对比分析吸附距离、吸附能、转移电荷、恢复时间、态密度的变化,分析吸附机理与掺杂对吸附能力和气敏性能的影响。理论研究发现,除NH3外,其余所选气体分子与本征硅烯均未表现出明显相互作用,说明本征硅烯对所选气体的检测灵敏度有限。然而,在Ru和Hf掺杂的体系中,所选气体分子均呈现出了显著的吸附作用。相较于本征体系,掺杂体系在吸附气体分子后表现出较强的结合强度和更明显的电荷转移。此外,部分气体分子在掺杂体系表面具有适中的吸附能与可接受的恢复时间,表明材料具备良好的可逆吸附潜力。综上所述,本研究表明Ru、Hf原子掺杂能够有效调控硅烯的电子性质,显著增强其对CO、CO2、H2S、NH3、SO2、H2CO气体的吸附能力与气敏性能,并为其在气体吸附及其他相关应用领域的潜在应用提供了理论支持,对于开发新型高效吸附材料以解决环境和能源领域的问题具有重要意义。  
      关键词:硅烯;第一性原理;掺杂;气体传感器;气敏性能;二维材料   
      3
      |
      21
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153583073 false
      更新时间:2026-06-04
    • 基于扩散伪影对比学习的生成式图像检测方法

      袁程胜, 陈金瑞, 曹燚, 刘庆程, 周志立, 付章杰
      2026, 54(1): 248-261. DOI: 10.12263/DZXB.20250663
      摘要:随着以扩散模型为代表的生成式人工智能在视觉内容合成领域持续取得突破,其生成的图像在视觉真实感与内容多样性方面已逼近甚至部分超越真实摄影水平。然而,技术的快速发展也使生成式图像,特别是可能用于恶意目的的深度伪造内容的检测与鉴别任务变得日益复杂与严峻。现有大多数检测算法在受控的实验室环境下能够表现出较好的性能,但在开放的真实场景中,一旦面临训练数据与测试数据之间存在显著分布差异的情况,例如遇到未知的生成模型、未见过的图像风格或经过复杂后处理的伪造样本,这些方法的泛化能力与鲁棒性往往明显不足。为应对上述挑战,本文从困难样本分类的角度出发,提出一种基于扩散伪影对比学习(Contrastive Learning of Diffusion Artifacts,CLDA)的生成式图像检测方法,通过多模块协同优化,以提升模型对生成图像的检测精度与鲁棒性。首先,基于高质量扩散模型构造具有挑战性的生成样本,为模型训练提供更丰富的数据基础。随后,设计伪影增强模块,引入潜在空间跨域增强策略,通过基于余弦相似度加权的特征插值方法扩展伪造特征空间;同时结合域损失机制,引导编码器学习不同伪造域的鉴别性特征,避免模型对特定伪造模式过度依赖。进一步地,提出一种基于潜在空间边界的对比损失函数,通过动态权重聚焦于决策边界附近的困难样本对,以增强模型对真实图像、生成图像及反演图像间细微差异的辨识能力,并将该损失与二分类交叉熵损失相结合,构建统一的多目标优化函数。为验证本文所提方法的有效性,本文在GenImage与DRCT-2M两个公开数据集上进行了对比实验。实验结果表明,经过本文框架优化后的检测器,在GenImage数据集上的平均准确率提升1.1个百分点,在DRCT-2M数据集上的平均准确率提升4.8个百分点。此外,在图像缩放、JPEG压缩、高斯噪声等干扰场景下,本文方法仍保持较高的平均检测精度,其鲁棒性显著优于现有对比方法。  
      关键词:生成式图像检测;扩散模型;伪造检测;图像取证;跨域增强;对比学习   
      6
      |
      12
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153112728 false
      更新时间:2026-06-04
    • 可靠性感知的分层联邦学习机制

      刘晓燕, 余振, 梁晶语, 林伯韬, 黄霁崴
      2026, 54(1): 262-275. DOI: 10.12263/DZXB.20250852
      摘要:分层联邦学习(Hierarchical Federated Learning,HFL)通过“终端-边缘-云”的层次化组织,在边缘侧执行组内聚合、云侧进行全局聚合,以实现跨区域的高效协同训练。然而,客户端数据普遍呈非独立同分布(Non-Independent and Identically Distributed,Non-IID)特性,易导致组内更新方向不一致、梯度偏移乃至收敛震荡,进而削弱全局模型性能。同时,边缘服务器受资源约束、负载波动与链路不稳定影响,存在性能退化甚至失效风险,可能引发组内聚合中断,降低系统稳定性与任务完成效率。对此,本文提出一种可靠性感知的分层联邦学习框架(Reliability-aware Hierarchical Federated Learning,R-HFL),将训练过程划分为可靠性感知分组阶段和全局聚合阶段。在分组阶段,综合客户端模型语义特征与地理邻近性进行联合聚类,以提升组内统计一致性并缓解Non-IID诱发的梯度偏移,同时引入边缘节点可靠性指标作为约束进行协同选择,优先选取高可靠性边缘服务器作为组内中间聚合器,从而降低聚合服务中断风险。进一步地,考虑边缘服务器可靠性的时变性与联邦训练的长期性,本文设计了失效触发的可靠性感知服务迁移机制。当组内聚合器发生故障时,将聚合任务动态迁移至可用边缘服务器,以保障训练连续性。为实现迁移过程的自适应决策,本文将多客户端迁移建模为马尔可夫决策过程(Markov Decision Process,MDP),采用多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)于集中式训练、分布式执行(Centralized Training with Decentralized Execution,CTDE)框架中学习迁移策略;通过统一的奖励与约束机制动态权衡迁移成本、迁移后通信开销与语义分布相似度,从而实现迁移目标的自适应选择、迁移后快速适配与收敛稳定性维持。最后,在两个真实数据集及多种Non-IID划分场景下进行实验验证。结果表明,所提R-HFL在全局模型精度与收敛速度上优于基线方法,并能在边缘服务器失效情况下显著降低训练中断风险与迁移开销,提升系统整体鲁棒性和故障容忍能力。  
      关键词:分层联邦学习;非独立同分布;边缘服务器失效;服务迁移;多智能体近端策略优化   
      5
      |
      8
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 154254153 false
      更新时间:2026-06-04
    • 基于大语言模型的Web文本输入组件测试方法

      张亚东, 崔展齐, 兰文尉, 徐伟利, 曹鹤玲
      2026, 54(1): 276-290. DOI: 10.12263/DZXB.20250880
      摘要:文本输入组件是Web应用实现交互功能的重要组成部分,广泛应用于搜索查询、内容创作等操作场景,其输入内容通常受到语法和复杂业务规则的约束。若文本输入组件未能正确处理恶意或非预期的文本输入,可能导致应用崩溃。现有的Web图形用户界面(Graphical User Interface,GUI)测试工具未能充分考虑文本输入组件的约束关系,无法生成具有针对性的文本输入来检测应用中文本输入组件的错误。此外,现有方法通常忽略了多个文本输入组件之间还可能存在复杂的约束关系,难以生成多样化的文本输入组合。为此,本文提出了一种基于大语言模型(Large Language Models,LLMs)的Web应用文本输入组件测试方法LTICT(LLM-based Text Input Component Testing)。首先,LTICT从被测应用的HTML文件中提取文本输入组件的信息,以供LLM推断文本输入组件的约束关系,并据此引导LLM合成程序;然后,LTICT执行该程序来批量生成文本输入,以对文本输入组件进行测试;最后,LTICT将收集所测试文本输入组件的上下文信息和所生成测试数据的执行结果,反馈给LLM以帮助其分析多个文本输入组件间的约束关系,从而生成更多样化的文本输入组合。在4个开源Web应用上进行的实验结果表明,相比于广泛使用的自动化测试工具WebExplor、DBInputs、QTypist,LTICT检测文本输入组件错误的数量分别提升了34.21%、37.84%和8.51%。在检测文本输入组件错误的平均用时方面,LTICT比WebExplor、DBInputs、QTypist分别减少了10.69%、11.87%和6.99%。  
      关键词:Web GUI测试;文本输入生成;Web应用;提示构建;大语言模型;自动化测试工具   
      4
      |
      7
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153611942 false
      更新时间:2026-06-04
    • 全局依赖引导的特征重构图像分类网络

      袁姮, 武景瑞, 张晟翀
      2026, 54(1): 291-307. DOI: 10.12263/DZXB.20250619
      摘要:针对卷积神经网络在图像分类任务中存在的长距离依赖关系建模不足的问题,本文提出全局依赖引导的特征重构图像分类网络(Global Dependency guided Feature Reconstruction for image classification,GDFRNet)。GDFRNet通过设计新颖的特征重构模块(Feature Reconstruction Module,FRM)和特征优化分支,构建了一个协同工作的双路径架构,实现了长距离依赖建模和细节特征增强。FRM通过引入并行的水平与垂直方向全局平均池化,分别在两个空间维度上压缩特征并获取具有全局视野的上下文向量,将其重新映射到二维特征空间,从而建立起跨越图像全域的长距离特征依赖关系,同时结合转置卷积等操作实现对特征空间的重构,抑制无关背景噪声,强化目标主体的连贯语义表达。特征优化分支通过设计细粒度特征捕捉模块(Fine-Grained feature Capture Module,FGCM)和特征优化模块(Feature Optimization Module,FOM)提炼并融合细节信息,减少网络抽象过程中细节信息的损失。FGCM通过引入高斯-拉普拉斯卷积,捕获图像中易于丢失的细节信息;FOM负责在高分辨率特征池中对FRM处理后的全局语义特征图与FGCM提取的丰富细节特征进行自适应融合与优化。两条路径形成了“全局轮廓-局部细节”互补的工作机制,FRM提供的全局语义特征图为细节增强提供指导,确保细节强化不偏离整体语义。同时,特征优化分支所提炼的丰富底层细节又为FRM的特征重构过程提供了必要的细微信息反馈,形成了良性的优化循环。这种互补机制使网络最终融合了经过重构的语义信息与经过增强的局部细节信息,生成判别性更强的图像表征,整体上强化了模型对图像整体结构的理解能力,并提升了特征空间的判别性。论文所提模型在CIFAR-10、CIFAR-100、SVHN、Imagenette和Imagewoof五个数据集上与当前最先进模型(State-Of-The-Art,SOTA)进行了对比实验,GDFRNet均表现出了卓越的性能,与其他先进方法相比,GDFRNet在以上五个数据集上的分类精度依次平均提升了2.39%、3.73%、2.35%、3.33%和2.92%,证明了GDFRNet的有效性和先进性。  
      关键词:图像分类;全局依赖;特征重构;细节增强;特征优化;卷积神经网络   
      6
      |
      60
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153582981 false
      更新时间:2026-06-04
    • 基于RSMA的LEO卫星通信系统宽点波束调度及预编码算法

      柴蓉, 刘瑾, 梁承超, 陈前斌
      2026, 54(1): 308-317. DOI: 10.12263/DZXB.20250114
      摘要:多波束低地球轨道(Low Earth Orbit,LEO)卫星通信系统因具有广覆盖、高吞吐量、低时延及部署成本低等特性而受到广泛关注。本文研究基于速率分割多址接入(Rate Splitting Multiple Access,RSMA)机制的多波束LEO卫星通信系统的用户分簇、混合宽点波束调度及预编码问题。综合考虑簇内及簇间相似度,提出一种基于改进均值漂移算法的用户分簇策略。首先根据用户地理位置分布及卫星点波束覆盖范围确定初始分簇结果,进而引入簇内分散度及簇间距离等指标构建成簇评估函数,并设计基于高斯核函数的调参机制,根据成簇评估结果动态调整参数,以实现簇内用户聚合性与簇间区分度的协同优化。基于所确定的用户分簇策略,进而设计一种双空间尺度资源分配策略。具体地,在较大空间尺度,研究面向多个用户簇的宽波束覆盖问题。综合考虑星间传输性能差异及用户接入性能,建模系统成本函数,将宽波束覆盖问题建模为满足约束条件的系统成本函数最小化问题。采用分支定界法求解所建模问题,通过系统性地分解搜索空间,并结合上下界剪枝策略,逐步缩小可行解范围,从而确定宽波束覆盖的用户簇集合。基于给定的宽波束覆盖策略,在较小空间尺度,设计面向单用户簇的点波束调度及预编码方案,将点波束调度及预编码问题建模为长期卫星缓存队列长度最小化问题,并将所建模问题拆分为预编码子问题及点波束调度子问题依次进行求解。针对预编码子问题,首先引入松弛变量将目标函数转换为凸函数,进而针对非凸约束条件,采用一阶泰勒展开方法对其进行转换,并将包含非线性乘积项的凸约束转换为二阶锥约束,从而得到凸优化问题,可采用工具包进行高效求解。针对点波束调度子问题,将其建模为马尔可夫决策过程,并基于近端策略优化(Proximal Policy Optimization,PPO)算法确定点波束调度策略。仿真结果验证了所提算法的有效性。  
      关键词:多波束低地球轨道卫星;速率分割多址接入;用户分簇;混合宽点波束;波束调度;预编码   
      4
      |
      12
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153978448 false
      更新时间:2026-06-04
    • 基于AoI的低轨卫星网络动态用户调度与资源分配算法

      戴叶玲, 郭焱, 刘笑宇, 韩略, 林敏
      2026, 54(1): 318-328. DOI: 10.12263/DZXB.20250996
      摘要:针对低轨(Low Earth Orbit,LEO)卫星网络上行接入场景中用户规模庞大、业务产生随机、信息时效需求差异显著以及卫星载荷受限等问题,本文提出一种基于信息年龄(Age of Information,AoI)的动态用户调度与资源分配算法。具体来说,在考虑用户数据包随机产生的情况下,以最小化系统长时平均发射功率为优化目标,在满足用户最大长时平均AoI、每时隙受调用户数和服务质量(Quality of Service,QoS)需求的多重约束下,构建包含用户调度、波束成形与功率分配的长时联合优化问题,旨在保障用户信息时效性的同时有效降低系统长时平均功耗。鉴于该问题同时包含长时目标与约束,且优化变量相互耦合,难以直接求解,首先基于用户数据包产生的伯努利分布特性,引入李雅普诺夫优化理论,将原长时优化问题转化为逐时隙可解的漂移加惩罚上界最小化问题,从而实现在线动态决策并保证AoI约束的长期可满足性。接着,针对大规模用户接入场景下调度复杂度随用户数指数增长的问题,进一步基于用户角度信息设计谱聚类分组方法,将空间相关性低的用户划分至同组,从而降低组内干扰并提高传输可靠性。在此基础上,构造融合用户AoI状态、数据包产生特性及预估功耗的调度代价函数,实现兼顾信息时效性与功耗的低复杂度动态用户调度策略。在资源分配阶段,针对受调用户集相关波束成形与发射功率非凸耦合的问题,结合S-procedure与泰勒展开方法,将原非凸约束逐步转化为凸约束,从而设计满足QoS与功率约束的最优资源分配算法。最后,通过计算机对所提算法进行仿真验证。结果表明,相比于固定数量调度算法、贪婪AoI调度算法以及最小均方误差算法,所提算法在不同用户规模和AoI约束条件下均能有效保证用户信息时效性需求,并显著降低系统长时平均功耗,验证了所提算法在LEO卫星网络多用户接入场景中的有效性与优越性。  
      关键词:LEO卫星网络;上行接入;AoI;动态用户调度;资源分配;李雅普诺夫优化   
      5
      |
      8
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153978477 false
      更新时间:2026-06-04
    • 李国军, 陈世奥, 王杰, 张哲铭, 郑建忠
      2026, 54(1): 329-339. DOI: 10.12263/DZXB.20250566
      摘要:调制识别是通信对抗的关键技术,现有的基于深度学习的调制识别研究大多在仿真数据集或开源数据集上进行,导致训练所得的模型在实际应用时面临着不能适应具体场景的巨大挑战。本文首先提出了一种针对调制信号的镜像数据增强方法,以矢量信号源发射且用接收机接收得到的信号作为原始数据,通过滤波、不同的速率抽取、相移、频移、加噪操作,实现信号增强。这样增强生成的数据集能够适应实际场景中不同的符号速率、多普勒频移、接收机载波偏移、信噪比(Signal-to-Noise Ratios,SNRs)、接收机特征等各种要素的影响,与实际信号相近。接着设计一个信号模态变换模块,对采集的同向正交信号样本进行模态变换,为后续的多模态处理提供数据基础。随后设计了多模态多尺度卷积融合加压缩激励去噪机制的Transformer调制识别模型。之后,用RadioML2018.10a的数据对提出设计模型进行训练,信噪比12 dB以上时测试集准确率达到98.3%,但此时训练的模型用于实际场景测试时的结果仅10.4%。最后使用增强的数据集对提出的模型进行训练,信噪比16 dB以上平均准确率为90.1%;使用训练所得的模型进行在线落地测试,信噪比12 dB时识别率为91.9%。  
      关键词:深度学习;调制识别;数据增强;特征融合;模态变换;多头自注意力   
      3
      |
      4
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153978514 false
      更新时间:2026-06-04
    • 融合大语言模型与跨域图结构的多模态对话情感识别方法

      黄辰, 马浩博, 张龑, 杨超, 宋建华
      2026, 54(1): 340-351. DOI: 10.12263/DZXB.20250772
      摘要:多模态对话情感识别(Multimodal Emotion Recognition in Conversation, MERC)通过融合文本、语音、视觉等多模态信息来识别对话中的情感状态。随着对话式人工智能和情感计算的快速发展,MERC成为情感计算和人机交互领域的研究热点。相比传统单一模态情感识别,多模态方法能够更全面、精确地捕捉情感的多维特征,如文本传递显性情感内容,语音提供音调、语速等隐性情感线索,视觉信息(如面部表情)则反映情感的非语言表现。这些模态信息相互补充,有助于提高情感识别的准确性和鲁棒性。然而,多模态情感识别面临诸多挑战:首先,不同模态的数据在信息表示上存在显著差异,传统的特征拼接或加权平均方法无法充分捕捉模态间复杂的交互关系,容易导致信息丢失;其次,情感识别任务常常遭遇局部噪声和离群样本干扰,影响模型稳定性;最后,情感识别的准确性与对话上下文的综合利用密切相关,情感往往受到前后文的影响,因此,如何有效提取和利用上下文信息是提高准确性的一大挑战。为应对这些问题,本文结合大语言模型(Large Language Model,LLM)与全局-局部跨域图结构,提出了LLM-EmoGraph方法,旨在实现多模态数据的精确融合与高效建模。该方法引入多模态掩码机制来处理不同模态之间的缺失和不一致信息,确保模型在信息不完整时依然保持较好性能。通过大规模跨域多图预训练,LLM-EmoGraph提升了多模态间及图结构间的迁移能力,增强了模型的鲁棒性。其创新的自适应双尺度特征融合策略实现了文本、语音和视觉信息的高效对齐,提升了情感识别精度,尤其在多模态高度交互的情境下表现优异。此外,结合大语言模型的弱监督层次化情感分类方案,通过逐层引导情感信息提取,有效避免了全局情感模式的干扰,使得即使在有限标注数据下,模型也能准确学习情感特征。实验结果表明,LLM-EmoGraph在多个基准数据集上显著超越现有主流方法,验证了其在多模态情感识别中的有效性和先进性。总体而言,LLM-EmoGraph通过创新的多模态融合策略、大规模预训练和弱监督学习方法,解决了多模态情感识别中的一系列问题,为提升情感识别系统的准确性和稳定性提供了有力支持。  
      关键词:多模态情感识别;对话系统;大语言模型;图神经网络;特征融合   
      8
      |
      20
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153978381 false
      更新时间:2026-06-04
    • 面向多目标车辆路径规划问题的进化多任务算法

      鲁宇明, 曹龙昊, 郭鑫, 艾亿豪, 陈昊, 揭丽琳
      2026, 54(1): 352-367. DOI: 10.12263/DZXB.20250777
      摘要:多目标车辆路径规划问题(Multi-Objective Vehicle Routing Problem,MOVRP)是物流配送与运输领域的一个关键优化问题,直接关联物流运营效率、成本控制与客户服务质量,该问题广泛应用于城市配送、电商物流及应急物资运输等实际场景。随着物流系统规模的不断扩大及运行环境的动态化发展,MOVRP所涉及的约束条件和优化目标数量持续增加,问题结构日趋复杂,在求解效率、解集质量以及鲁棒性等方面对优化算法提出了更高要求。现有多目标优化算法在求解MOVRP时普遍采用单任务独立求解范式,即针对每个新的MOVRP问题均从零开始构建求解模型,这种求解方式忽略了不同问题实例或问题子结构之间潜在的相似性,未能有效利用历史搜索过程中积累的有用信息,从而造成重复搜索、收敛速度较慢,且在复杂场景下容易陷入局部最优,从而导致算法求解效果不佳。为应对这一挑战,本文提出一种多目标车辆路径进化多任务算法(Multi-Objective vehicle routing MultiTasking Evolutionary Algorithm,MO-MTEA)。首先,将原问题通过降维的方式拆分成若干个简单且相似的子任务,通过子任务的分层求解简化原问题的复杂度,该策略在保持原问题关键约束关系的前提下,有效降低了单个子任务的搜索空间规模,从而减轻算法的搜索负担,提高求解效率。其次,基于进化多任务(Evolutionary MultiTasking,EMT)技术,通过引入知识迁移机制,将各子任务在搜索过程中获得的有效信息在不同任务之间进行共享与传递,实现子任务之间的协同进化。该多任务协同机制能够充分挖掘不同子任务之间的潜在关联性,有效增强算法的全局搜索能力和收敛性能。最后,在主种群进化的同时,引入独立的存档种群,通过精英保留策略将主种群中的精英个体保存到存档种群中,在保证优秀解不丢失的同时,维持种群多样性和分布均匀性,防止主种群陷入局部最优。为验证该算法的性能,将所提出算法在经典Solomon测试数据集上进行测试,并与蚁群禁忌算法(Ant Colony Optimization-Tabu search,ACO-Tabu)、基于分解的多目标模因算法(Decomposition based Memetic Algorithm for Multi-Objective Evolutionary Algorithm,M-MOEA/D)、混合多目标模因算法(Hybrid MultiObjective Memetic Algorithm,HMOMA)和共同进化的约束优化(Coevolutionary framework for Constrained Multiobjective Optimization,CCMO)四种代表性的多目标进化算法进行比较。实验结果表明,MO-MTEA性能优于其他进化算法,能够更好地求解MOVRP。  
      关键词:多目标优化;多任务;车辆路径规划问题;时间窗;进化算法   
      5
      |
      10
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153914901 false
      更新时间:2026-06-04
    • DGD-SAM:一种用于水下图像实例分割的动态引导SAM

      尚毅涵, 董兴辉
      2026, 54(1): 368-380. DOI: 10.12263/DZXB.20251002
      摘要:随着深海探测与海洋资源开发需求的日益增长,水下视觉技术已成为机器人作业、海洋生物监测等领域的关键支撑。在众多的视觉任务中,水下图像实例分割因需同时实现目标的精确定位与像素级掩码预测而具有极高的挑战性。近年来,视觉基础模型,特别是Segment Anything Model (SAM),在通用场景下展现出卓越的零样本泛化能力,但在复杂的水下环境中,其表现仍不尽如人意。水下环境光线吸收、散射严重,导致图像伴随明显的色彩失真、对比度极低以及边缘模糊等退化现象,严重干扰了模型的特征提取。此外,SAM的分割性能高度依赖人工提供的显式提示信息(例如点、框和掩码),这种依赖不仅增加了人工成本,更限制了其在无人值守或复杂水下环境中的适用性。为了解决上述问题,本文提出了一种动态引导SAM(Dynamically Guided SAM,DGD-SAM)。DGD-SAM通过引入动态引导机制,结合特征聚合与多尺度增强模块,构建了完整的自动提示生成与精细化分割流程。首先,针对检测与分割任务特征分布不一致的问题,本文设计了自适应特征聚合模块。该模块通过引入通道注意力机制对特征依赖关系进行重新建模,在空间与通道维度上实现任务对齐,有效增强了模型对水下弱目标区域的感知灵敏度。其次,考虑到水下目标尺寸多变且背景干扰复杂的特性,构建了多尺度特征增强模块。该模块通过构建跨空间分辨率的特征金字塔,显著提升了模型在复杂场景下对各种尺度目标的捕捉能力。最后,在解码阶段,本文提出了动态引导解码器,先融合初始分割掩码与图像特征以生成动态引导信息,再通过提示与图像特征间的双向注意力交互实现精细掩码预测。实验结果显示,DGD-SAM在四个公开水下数据集LIACI、USIS10K、UIIS和UIIS10K以及两个陆地场景数据集COME15K-E和COME15K-H上均优于当前的先进方法,这表明本文方法不仅在水下场景中表现出色,在陆地场景中同样能够获得稳定且具有竞争力的分割性能,说明模型未过度依赖特定场景特征,具备良好的泛化能力和可扩展性。  
      关键词:SAM;视觉基础模型;图像分割;水下图像实例分割;动态引导解码器;提示生成   
      4
      |
      14
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153915020 false
      更新时间:2026-06-04
    • 压缩感知磁共振成像双域三边复数GAN模型

      王玉露, 吴敏, 詹天明, 孙玉宝
      2026, 54(1): 381-394. DOI: 10.12263/DZXB.20250371
      摘要:压缩感知磁共振成像(Compressed Sensing Magnetic Resonance Imaging,CS-MRI)通过减少频域k-空间采样数据量来加速成像过程,其核心科学问题在于如何从欠采样的、不完备的k-空间数据中高效地重建出原高质量的核磁共振成像(Magnetic Resonance Imaging,MRI)图像。近年来,基于深度神经网络的重建方法取得了重要进展,有效推动了重建图像质量的持续提升。然而,现有的深度重建网络大多采用实数网络模型,而原始k-空间采样数据为复数信息,实数网络模型不利于充分捕获复数采样所蕴含的图像细节和结构特征,这直接影响了重建质量的进一步提升。同时,现有重建网络通常缺乏频域k-空间与图像域之间的交互约束机制,双域特征学习存在不足。针对这些问题,本文创新性地提出了一种双域三边复数生成对抗网络(Dual-domain Tri-edge Complex Generative Adversarial Network,DualTri-CGAN)重建模型。该模型主要包含空间生成器和图像域生成器两个生成器,它们共同构成了双域生成器框架,并采用实数判别器对生成结果进行评估。双域生成器均采用多尺度编解码架构,能够有效捕捉不同尺度的图像特征。此外,双域生成器通过残差连接实现多尺度特征的有效融合,增强了特征表示能力。为进一步提升双域生成器的协同生成能力,本文采用了三边对抗博弈学习模式。该模式不仅包含双域生成器与判别器间的常规对抗训练,还引入了双域子生成器间的对抗机制。在损失函数设计方面,除常规对抗损失外,本文专门设计了一种新颖的相似性对抗损失函数。该损失函数通过约束两个生成器输出间的一致性,促使它们在对抗训练中相互促进、协同优化,提升MRI重建图像质量。在实验验证方面,本文使用公开的IXI Brain(Information eXtraction from Images Brain)数据集对模型性能进行系统测试。实验结果表明,相较于现有的生成对抗网络(Generative Adversarial Network,GAN)重建模型,DualTri-CGAN能够更好地处理k-空间复采样数据,避免因实部与虚部分离处理而引入重建误差。同时,得益于所提出的双域生成器框架和三边对抗博弈学习模式,该模型有效提升了重建图像的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和结构相似性指数(Structural Similarity Index Measure,SSIM),在10%低采样率条件下,DualTri-CGAN仍然能够有效恢复MRI图像的边缘结构和纹理细节,展现出良好的重建性能和鲁棒性。  
      关键词:核磁共振成像(MRI)压缩感知重建;复数生成对抗网络(GAN);双域生成器;三边对抗学习   
      4
      |
      4
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153978270 false
      更新时间:2026-06-04
    • 融合混合社区与簇级特征的KAN-CTR预测模型

      钱忠胜, 饶雨贤, 吴敏璇, 彭劭强, 王蓉蓉, 许克文
      2026, 54(1): 395-416. DOI: 10.12263/DZXB.20250993
      摘要:点击率(Click-Through Rate, CTR)预测是推荐系统的核心任务,其目标是通过用户历史行为与项目特征建模,预测用户对候选项目产生点击行为的概率。然而,现有CTR方法在建模全局交互结构、提取多跳邻居信息及提升高维特征交互学习效率等方面仍存在问题。用户与项目之间的交互通常呈现多层次、强结构化的关联特征,若直接建模则计算量过大且难以捕捉不同层级邻域之间的语义关系,从而限制对潜在语义关联与用户偏好的深入挖掘,而且现有CTR模型多依赖传统神经网络的固定激活函数,在建模高阶非线性特征交互时灵活性不足,易出现特征冗余、泛化能力弱等问题,导致预测精度难以进一步提升。针对这些问题,提出一种融合混合社区划分与簇级特征提取的Kolmogorov-Arnold Networks(KAN)架构CTR预测模型(A KAN-CTR prediction model integrating Hybrid Community and Cluster-level Feature, HCCF-KCTR)。首先,设计一种层次化的混合社区聚类策略,结合粗粒度的全局社区划分与细粒度的簇内优化,将复杂的全局交互关系解构为结构清晰、语义连贯的簇级单元,在保留关键结构信息的同时显著降低建模复杂度。其次,基于全局社区划分结果对多跳邻居进行簇级映射,并引入簇感知注意力池化机制(Attention Pooling),动态评估每跳邻居在簇内及簇间的语义重要性,自适应分配注意力权重,生成高质量的多跳邻居簇级嵌入表示,以充分捕捉用户与项目间的多层次交互特征。最后,利用KAN网络可学习函数替代固定激活函数,构建多个跨跳跨簇特征组合,将复杂的多跳交互特征转化为可解释的低阶函数组合表达,实现结构信息与语义特征的深度融合,进一步提升模型的预测精度与表达能力。在MovieLens、Electronics、Book及Taobao四个真实数据集上与13种主流CTR模型进行对比,实验结果表明,在AUC、GAUC和LogLoss这3个指标上,所提模型HCCF-KCTR相对已有最优基线模型分别平均最少提升2.74%、2.19%、3.68%,验证了其在特征交互建模与预测方面的优越性。此外,本文还通过消融实验、参数敏感性实验以及模型效率实验,验证了各模块的必要性、协同有效性,以及模型在整体效率上的均衡性,进一步阐明了模型具有良好的泛化能力。  
      关键词:点击率预测;社区聚类;KAN网络;推荐系统;注意力池化;簇级特征   
      5
      |
      6
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 154609701 false
      更新时间:2026-06-04
    • 基于GAN-Data数据增强与FD-DETR的织物疵点检测方法

      陈孟元, 张坦坦, 唐哲
      2026, 54(1): 417-432. DOI: 10.12263/DZXB.20250899
      摘要:针对纺织工业实际生产中织物疵点样本获取困难且数量稀缺导致深度学习模型应用受限的问题,本文提出了一种将上游数据增强与下游检测模型深度优化相结合的织物疵点检测方法。本文在上游数据增强阶段基于循环生成对抗网络(Cycle-consistent Generative Adversarial Network,Cycle-GAN)提出GAN-Data生成网络,该网络利用掩码(Mask)引导机制实现了疵点特征与背景纹理的解耦处理,在精准控制生成位置的同时解决了基准模型中疵点分布随机性过大的问题。为了应对织物疵点尺度差异显著的挑战,GAN-Data设计了增强疵点生成模块(Enhanced Defect Generation Module,EDGM),通过四个并行的多尺度膨胀卷积分支使感受野能够灵活覆盖从1~17像素的范围,实现了对点状、线状、块状及大面积疵点的自适应特征提取。同时,本文针对背景纹理失真问题引入了基于VGG19网络的纹理保持损失函数,确保了非疵点区域周期性纹理的完整性。在下游优化阶段,本文在RT-DETR的基础上构建了FD-DETR检测网络,在主干网络嵌入了基于Prewitt算子的四方向边缘增强模块以强化弱疵点轮廓捕获能力,并设计了稀疏注意力机制(Sparse Attention-based Intra-scale Feature Interaction,SparseAIFI),通过融合局部窗口、跨步采样及块级模式降低模型复杂度。此外,FD-DETR引入了长宽比感知IoU损失函数(Aspect Ratio Aware-Intersection over Union,ARA-IoU),通过中心距离归一化与自适应权重机制优化了不规则疵点的定位精度。实验部分结合了MVTec AD公开数据集、Industrial Textile Dataset(ITD)数据集及真实生产线自建数据集进行了多维度验证。本文首先在MVTec AD公开数据集上通过结构相似性指标(Structural Similarity Index Measure,SSIM)、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)及弗雷歇初始距离(Fréchet Inception Distance,FID)等指标验证了GAN-Data生成的图像质量优于主流方法,并通过工业织物数据集(Industrial Textile Dataset,ITD)验证了模型在多材质背景下的跨域泛化能力。随后,通过在多个数据集上的对比实验证明,以GAN-Data增强数据训练的FD-DETR模型在织物疵点识别上显著领先。最后,通过协同优化实验的F1分数曲线分析证实,相较于单一改进,GAN-Data与FD-DETR的结合在小样本场景下具有更快的收敛速度与更高的性能上限,验证了上下游协同路线的可行性。  
      关键词:织物疵点检测;数据集增强;生成对抗网络;深度学习   
      6
      |
      24
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 154117614 false
      更新时间:2026-06-04
    • SDDA:无监督的风格和分布域适应夜间语义分割方法

      雷晓春, 吴炜林, 江泽涛, 朱文才, 刘颖健, 陈冬梅, 吴思琦
      2026, 54(1): 433-450. DOI: 10.12263/DZXB.20251221
      摘要:语义分割在自动驾驶、医工交叉和安防监控等多种实际应用中发挥着重要作用,但夜间语义分割仍然是未解决的一道难题。由于夜间光照不足,获取的图像细节模糊不清,导致数据集标注困难,因而人们首选探索无监督域适应夜间语义分割方法。虽然取得了一些进展,但仍然存在数据集跨域幅度太大难以直接进行域适应的问题,导致夜间场景的语义分割效果不理想。针对这个问题,本文提出了一种风格和分布域适应(Style and Distribution Domain Adaptation,SDDA)的无监督夜间语义分割方法,将夜间语义分割任务的域适应分为风格域适应和分布域适应,以此降低夜间分割任务的难度。将性能更优秀的Mamba架构模型引入无监督域适应夜间语义分割任务中,探索该架构模型在夜间语义分割任务的优势,以提升夜间分割任务的精度。提出了一个语义对齐图像翻译(Semantic Pairing GAN,SPG)模块,通过语义信息将非配对翻译和粗配对翻译相结合,以此将分割任务与SPG翻译模块进行语义关联,促进翻译内容更加适合分割任务,且不独立于分割任务。SPG模块先将源域白天图像翻译成夜间图像,然后分割模型用翻译后的图像进行训练,这样分割模型就能学习到风格域信息以减少风格域差异。提出了一种语义域混合(Semantic Domain Mixing,SDM)策略,利用语义信息将SPG翻译的动态物体提取并移动到目标域夜间静态物体图像的合理位置,重新组合成新的图像。分割模型利用这种风格域差异小的图像进行训练,可以更容易从分布域角度进行域适应,从而缩小分布域差距。通过风格域适应和分布域适应相结合,使模型从两种不同角度分别缩小域差异,整体上实现夜间分割任务的域适应,从而缓解现有数据集跨域幅度太大,难以直接域适应的问题。实验结果表明,本文的方法在Dark Zurich、ACDC Night和Nighttime Driving三个数据集上的mIoU指标分别取得60.0%、59.8%、59.1%,比现有最好的方法分别提高0.9%,0.4%和1.6%,对夜间复杂实际场景图像目标能进行精准的分割预测。  
      关键词:无监督域适应;夜间语义分割;图像到图像翻译;深度学习;图像分割   
      4
      |
      6
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 154117554 false
      更新时间:2026-06-04
    • 层次化文本语义驱动的多粒度人体行为生成

      舒祥波, 李成建, 尹政, 李朋鹏, 李泽超, 唐金辉
      2026, 54(1): 451-465. DOI: 10.12263/DZXB.20251089
      摘要:当前的人体行为生成方法在生成文本描述与行为一致的高质量运动方面仍面临挑战。尽管近年来基于扩散模型、自回归模型以及多模态预训练模型的方法在运动自然性和多样性上取得了一定进展,但在复杂文本语义理解和精细动作建模方面仍存在明显不足。其主要原因包括:(1) 缺乏句子成分间层次依赖关系建模会导致模型文本语义理解困难;(2) 现有方法仅在全局级或单词级进行文本-行为之间跨模态对齐,忽视了全局与局部信息之间的互补性导致粗细粒度协同建模困难。为此,本文提出了一种层次化文本语义驱动的多粒度人体行为生成框架(Hierarchical Textual-semantic-driven Multi-Granularity human motion generation framework,HTMG),该框架在全面理解文本语义的同时实现了粗细粒度的跨模态交互,从而实现文本-行为的一致性。具体而言,为了解决文本语义理解难题,本文提出了一种层次化语义捕捉策略(Hierarchical Semantic Capture Strategy,HSCS),该策略通过句法分析构建文本结构树显式建模单词间依存关系并引入双曲图注意力机制(Hyperbolic Graph ATtention mechanism,HGAT)在双曲空间动态捕捉层次语义依赖,从而显著提升模型的语义理解能力。此外,为了实现粗细粒度的跨模态对齐,本文设计一种多粒度跨模态注意力机制(Multi-Granularity Cross-modal Attention mechanism,MGCA),通过将全局级语义表示与单词级局部语义表示分别与人体行为特征进行自适应交叉融合,使模型在生成过程中能够同时关注整体动作意图与局部动作变化,从而实现语义一致的多粒度动作建模。大量实验结果表明,本文提出的HTMG在HumanML3D和KIT-ML数据集上均取得了最优性能,充分验证了该框架在文本语义理解与文本-行为一致性建模方面的有效性。  
      关键词:人体行为生成;层次化语义捕捉策略;双曲空间;双曲图注意力机制;文本结构树;多粒度跨模态注意力机制   
      2
      |
      5
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 154191974 false
      更新时间:2026-06-04

      综述评论

    • 王千帆, 郭延庚, 毕胜, 王义文, 宋林琦, 马啸
      2026, 54(1): 466-478. DOI: 10.12263/DZXB.20251062
      摘要:高可靠低时延通信(Ultra-Reliable Low-Latency Communication,URLLC)是5G的三大核心场景之一,其增强版本极高可靠极低时延通信(Hyper-Reliable Low-Latency Communication,HRLLC)场景也已成为6G六大场景之一。高可靠低时延类通信场景对传输时延与可靠性提出了极致要求,这为短码编译码技术带来了新的机遇与挑战。顺序统计译码(Ordered Statistics Decoding,OSD)是一种近似最大似然(Near-Maximum-Likelihood,Near-ML)译码性能的通用短码译码算法,其在该类场景中具有重要潜力,但过高的计算复杂度严重制约了OSD算法的实际应用。本文系统综述了OSD算法中测试错误模式(Test Error Pattern,TEP)在测试顺序、跳过机制与提前终止策略等方面的代表性成果和最新研究进展,并对未来潜在研究方向进行了总结展望。具体地,首先讨论了汉明重量顺序、软重量顺序及基于有序可靠位的逻辑重量顺序对译码性能与复杂度的影响,指出逻辑权重顺序可以获得可靠性和实现复杂度间的有效折中。其次,分类总结了几种跳过与终止机制,阐明其基本思想是通过动态软信息判断或概率决策来降低冗余重编码次数。进一步,重点探讨了基于软度量和基于额外校验的TEP生成、跳过、终止机制及其联合设计,表明此类方法通过结构性约束与混合判断策略,在几乎不损失误帧率的前提下,将平均重编码次数降低1~2个数量级。数值结果显示,对于BCH(Bose-Chaudhuri-Hocquenghem)码[127,64],联合跳过机制在信噪比为4 dB处仅需十余次重编码,较原始OSD可减少超过90%的计算开销。最后,本文指出OSD在非二进制编码、时变信道适应性及硬件实现等方面仍面临挑战,尤其是对于码长更长的中码率区域,并展望了针对OSD算法的未来研究方向。  
      关键词:纠错码;顺序统计译码;测试顺序;跳过机制;终止机制   
      3
      |
      6
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 154258192 false
      更新时间:2026-06-04

      科研通信

    • Y波段基于脊波导多模网络的多波束喇叭天线的研究

      赵芸, 穆云希
      2026, 54(1): 479-486. DOI: 10.12263/DZXB.20250632
      摘要:为了使高频无线通信系统实现高效的信号覆盖与系统容量提升,多波束天线技术发挥着不可替代的作用。然而,现有主流方案存在显著瓶颈:传统巴特勒矩阵在高频下插入损耗大且结构复杂;透镜与反射面天线体积庞大,难以满足紧凑化需求;而传统基片集成波导(Substrate Integrated Waveguide,SIW)多模波束形成网络则受限于窄带宽与高介质损耗。针对上述挑战,本文提出一种工作于Y波段(170~260 GHz)的紧凑型宽带多波束喇叭天线,旨在克服现有技术局限,为亚毫米波通信提供一种低损耗、易加工且性能优异的解决方案。本文设计的天线结构主要由脊波导传输线、脊波导多模网络、周期槽移相器及喇叭天线4部分构成。为了突破传统多模波束形成网络带宽窄和旁瓣高的限制,引入单侧脊波导结构改变了波导内部的电磁场分布,电场高度集中于脊缝区域,这在等效电路中相当于增加了并联电容,降低了截止频率,从而显著拓宽了多模波束形成网络的工作频带。同时,采用周期槽移相器作为相位优化的关键组件。移相器加载于与多模波束形成网络输出端口6和7相连的波导中,结构上由多个从波导宽边向外凸出的矩形槽周期性排列组成。基于波导不连续点产生的相位延迟理论,通过调整特定端口的相位延迟,补偿了脊波导多模网络固有的相位偏差,使整体输出相位分布趋于平缓。仿真分析证实,该结构能有效抑制副瓣辐射并增强波束增益。对设计的天线进行制造与测试验证,天线整体采用铝合金材质,并通过高精度计算机数控(Computer Numerical Control,CNC)铣削工艺进行制备。为了减小装配误差,结构采用了H面分裂式加工,并预留适量定位销孔以确保腔体精确对准。测试结果表明,设计的天线在175~225 GHz频率范围内实现了25%的相对阻抗带宽,4个馈电端口的反射系数均低于-10 dB,且端口隔离度良好。在辐射性能方面,测得的4个波束最大覆盖±30°的波束扫描范围。在工作频段内,天线实现了最大增益超过15.6 dBi且增益波动小于3 dB的宽带辐射特性,且口径效率保持在48%以上。  
      关键词:亚毫米波;Y波段;多波束天线;脊波导多模网络;宽带天线;波导移相器   
      3
      |
      8
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 153340806 false
      更新时间:2026-06-04
    0