最新刊期

    2025年第53卷第11期

      大模型与互联网

    • 模型互联中多模型串并联协作推理

      刘忠仁, 李哲涛, 王建辉, 肖勇, 曾曦玉, 李俊, 莫光峰
      2025, 53(11): 3817-3835. DOI: 10.12263/DZXB.20250503
      摘要:大语言模型(Large Language Models,LLMs)凭借其庞大的参数规模和强大的语义表达能力,在自然语言处理、计算机视觉等领域取得突破性进展,并逐渐成为智能系统的关键基础.然而,随着模型轻量化、本地化定制及场景专用化需求持续增强,面向特定任务开发的专有化模型快速涌现.这类模型通常在局部领域具备能力优势,但难以独立覆盖多任务、多领域的复杂推理需求,从而推动了多模型协作推理的研究.现有研究多侧重于模型融合或单一协作范式,难以充分挖掘各模型间的优势互补潜力,且在协作结构和路径机制方面缺乏系统性的探索.为此,本文提出一种面向模型互联场景的多模型协作结构推理方法,构建了由线性链式结构向多路径组合结构演进的协作推理体系.在基础协作层面,设计了串联推理(Serial Inference,SI)与并联推理(Parallel Inference,PI)两种核心范式,分别通过阶段式信息传递与多模型并行处理增强推理过程中的语义收敛性与信息覆盖度.在此基础上,进一步从协作范式层面提出了“先串后并”(Serial-to-Parallel,S2P)与“先并后串”(Parallel-to-Serial,P2S)两种组合策略,实现协作路径在深度与广度之间的动态调度,拓展了多模型协作的结构表达能力与推理能力边界.本文在数学推理、知识理解和符号推理三类典型任务上搭建了系统实验框架,对四类协作策略进行了全面评估.实验结果表明,四类协作策略相较于单模型推理在平均准确率上分别提升了24.33、16.66、26.66和25.33个百分点.进一步分析发现,组合协作策略在融合串联与并联结构优势的同时,能够有效压缩整体推理时延,并在相较于最优单模型可接受的时延增量条件下,实现了更高的推理准确率,展现出在多任务场景下更优的性能-效率的权衡.此外,本文还系统分析了不同模型路径配置在协作过程中的表现差异,为多模型组网结构设计、协作机制优化及大规模模型互联体系的构建提供了理论依据与实证支撑.  
      关键词:大模型;模型互联;多模型协作;串联协作;并联协作;组合推理   
      6
      |
      3
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 149459823 false
      更新时间:2026-02-10
    • 张虎, 孙明辉, 刘杨, 戴鸿君, 王继彬, 张有利
      2025, 53(11): 3836-3851. DOI: 10.12263/DZXB.20250468
      摘要:人工智能(Artificial Intelligence,AI)技术的快速演进推动了开源大模型在多元化场景中的规模化应用.然而,随着图形处理器(Graphics Processing Unit,GPU)单卡性能的提升,在支持中小规模大模型推理负载时,GPU资源易出现闲置现象,导致整体算力利用率不足.为提升数据中心GPU资源使用效率,业界普遍采用时空共享或虚拟GPU(Virtual GPU,vGPU)技术实现算力复用,其中vGPU凭借细粒度资源划分与安全隔离特性,已成为数据中心向多租户、多任务提供GPU资源服务的主流方案.然而,GPU资源共享技术不可避免地引入任务负载之间的性能干扰,尤其是大模型推理负载所需资源具有动态性和突发性.在不考虑性能干扰的情况下,会导致推理负载延迟显著增加,甚至引发服务质量目标(Service Level Objective,SLO)违约,影响大模型服务的稳定性与用户体验.针对这一关键挑战,本文提出了一种基于vGPU性能干扰感知的大模型推理负载资源高效配置方法.该方法首先通过大规模并发推理实验,构建了涵盖不同参数规模大模型、不同负载组合、不同负载强度下的多维性能表征数据集;在此基础上,建立了综合考虑推理模型特征、硬件支撑信息及系统监控指标的轻量化性能干扰预测模型,既保证了对关键性能指标的精准估计,也满足了资源配置决策的实时性需求.基于该预测模型,本文进一步设计了基于约束优化的经济型资源配置算法,以最小化GPU资源分配量为目标函数,以推理延迟不超过SLO阈值、吞吐量满足业务需求为约束条件,通过动态调整各负载的vGPU资源分配比例,实现了在满足推理负载质量约束的前提下GPU资源分配优化.实验部分构建了包含两类六种典型大模型的混合负载测试环境,并在NVIDIA A100和RTX6000硬件平台与HAMi vGPU方案上,与传统GPU配置策略进行了对比验证.实验结果表明,所提方法在严格满足SLO约束的前提下,相较主流方案可降低超过20%的GPU资源成本开销,验证了其在大模型推理场景下的有效性与经济性,为数据中心提升GPU资源利用效率、降低人工智能服务部署成本、促进开源大模型的规模化普及应用提供了重要技术支撑.  
      关键词:大模型;推理负载;vGPU;性能干扰;资源配置   
      104
      |
      14
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 141054265 false
      更新时间:2026-02-10
    • 面向大规模地下空间的多智能体端边协作全局SLAM方法

      张奎元, 张启亮, 陈朋朋, 高守婉
      2025, 53(11): 3852-3864. DOI: 10.12263/DZXB.20250472
      摘要:随着地下空间开发不断朝着深部化、大型化与无人化方向发展,移动机器人在地下探测及救援等方面发挥着重要作用.即时定位与建图(Simultaneous Localization And Mapping,SLAM)作为移动机器人的基础,为其自主导航与安全避障提供了可靠支撑.针对大规模地下空间传感器退化、计算瓶颈以及移动机器人感知范围受限且累积漂移严重等挑战,提出了超宽带(Ultra-WideBand,UWB)紧耦合的多智能体端边协作SLAM方法(Robots-edge Collaborative SLAM,Re-CoSLAM).本文在边缘辅助的多模态SLAM框架基础上,结合误差状态卡尔曼滤波,设计了UWB紧耦合绝对位姿估计方法,有效提升了全局定位性能.进一步,基于UWB全局定位,建立了可扩展的多智能体协同SLAM框架与自适应传输机制.为了保障全局一致性,根据多智能体之间的UWB距离测量,提出了相对距离约束的联合位姿图优化方法.此外,考虑到边缘节点的计算瓶颈问题,设计基于请求优先级的任务调度策略,以减少排队延迟并提高跟踪精度.本文在3台搭载英伟达板载计算机的移动机器人和1台边缘计算节点上部署Re-CoSLAM,并在室内走廊、地下车库与地下巷道场景下开展了广泛的实验与评估.结果表明,Re-CoSLAM可实现7.3 cm的绝对定位精度与13 帧/秒的运行速度,定位误差比现有方法降低了50%以上.  
      关键词:多模态融合;即时定位与建图;超宽带定位;端边协作;多智能体协同   
      65
      |
      8
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 139566398 false
      更新时间:2026-02-10
    • 沈航, 王旭, 王天荆, 戴远飞, 白光伟
      2025, 53(11): 3865-3879. DOI: 10.12263/DZXB.20250470
      摘要:在跨平台、跨语言的社交网络环境中,虚假信息的传播具有高隐蔽性和跨文化性,给舆情治理与社会信任体系带来了严峻挑战.由于不同语言和文化背景下文本的表达方式存在显著差异,传统基于深度学习的检测方法在跨域泛化与语义建模方面普遍存在性能退化问题,表现为跨域特征对齐不足、语义表示缺失以及对隐喻、情感和文化语境的理解能力受限.针对这些问题,本文提出一种大语言模型(Large Language Model,LLM)增强的自监督域自适应(Domain Adaptation,DA)检测框架,通过融合LLM的深层语义建模能力与对比学习(Contrastive Learning,CL)的判别特征学习机制,实现高鲁棒性与高泛化性的跨语言虚假信息检测.该方案构建一个从语义增强到特征对齐再到反馈优化的闭环体系.首先,通过基于Prompt的跨语言文本增强机制,引导LLM在生成数据时保持语义完整性与文化适配性,从而在保留原始语义核心的同时,生成符合目标语言风格的高质量文本样本,有效缓解跨语言场景中的语义鸿沟.随后,设计双维度对比策略,在词元层面对齐局部词汇特征,在语句层面对齐全局语义逻辑,从不同层面统一源域与目标域的数据表示,以提升特征分布一致性与跨语言检测的稳定性.最后,构建LLM辅助的跨语言联合训练机制,利用对比损失作为动态反馈信号,引导LLM在迭代微调过程中不断优化生成策略,促使增强样本的分布逐步靠近CL检测器的判别边界,从而实现跨语言数据增强与特征学习的协同演化.在中文社交平台数据集Weibo与英文突发事件数据集PHEME上的实验结果表明,所提方法在精确率和F1指标上显著优于商业LLM直接检测(如ChatGPT-4o)、主流深度学习模型(包括LSTM、TextCNN、RCNN、HAN)及LLM增强检测方法(如LACL).在跨语言检测中,所提方法的平均检测精度相比基准方法提升幅度超过10个百分点.特征可视化分析进一步表明,所提方法能压缩类内特征差异、扩大类间判别间隔,从而获得更清晰的特征边界与更高的判别置信度.  
      关键词:社交网络虚假信息;大语言模型;对比学习;跨语言文本增强;域自适应   
      64
      |
      5
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 135713008 false
      更新时间:2026-02-10
    • 廖玲玲, 陶铭, 谢仁平, 张引, 袁华强
      2025, 53(11): 3880-3893. DOI: 10.12263/DZXB.20250411
      摘要:大语言模型(Large Language Model,LLM)在任务推理等领域展现出卓越性能.然而,面向复杂工业场景的实时高效推理仍是亟待解决的关键问题.传统中心化云推理架构受限于长思维链(Chain of Thought,CoT)推理延迟与数据传输拥堵,难以满足复杂工业推理任务对低时延的严苛需求;边缘侧部署的轻量化LLM能实现快速响应,但是推理能力受限,难以保障推理质量.为此,边-云协同推理成为必然选择.然而,单一模态的LLM难以兼顾模态特性和任务需求,多模态LLM高昂的算力成本限制了其普适性;直接利用LLM推理复杂任务容易陷入固有的幻觉困境,影响推理质量.因此,本文提出了一种基于边-云协同的LLM细粒度推理任务卸载框架,在边缘端部署轻量化专属模态LLM,充分适配特定数据模态,低时延高效处理简单任务;在云端部署具备强大推理能力的多模态深度LLM,执行复杂逻辑推理任务,保障推理质量.将复杂LLM推理任务细粒度地划分为三个阶段,并构建有向无环图(Directed Acyclic Graph,DAG).在此基础上,进一步提出通信与推理任务执行模型,并将LLM推理任务建模为总体推理时延与成本加权和的最小化问题.通过证明该问题是离散马尔可夫决策过程(Markov Decision Process,MDP),针对动态环境中子任务特征与系统资源状态的复杂交互,设计了融合置信上界(Upper Confidence Bound,UCB)的动作选择机制和反事实多智能体策略梯度(COunterfactual Multi-Agent policy gradient,COMA)的问题求解方案UCB-COMA,实现子任务调度顺序与推理子任务执行位置的联合最优决策.实验结果表明,本文方案的性能优于对比方案.  
      关键词:大语言模型;边-云协同;任务卸载;深度强化学习;工业物联网   
      40
      |
      8
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 136273738 false
      更新时间:2026-02-10

      学术论文

    • P-Slicer:面向路径表示学习的程序切片方法

      刘天阳, 石剑君, 叶嘉威, 计卫星
      2025, 53(11): 3894-3909. DOI: 10.12263/DZXB.20250824
      摘要:程序切片技术作为软件分析中的基础性手段,在程序理解、缺陷定位、代码重构等任务中具有重要作用.其核心挑战在于如何在复杂控制流和数据流结构中准确识别与切片准则相关的代码片段.近年来,基于预训练大语言模型的切片方法因其对程序语义建模能力较强而展现出良好性能,然而受限于模型输入长度限制,难以有效处理长方法体及跨过程依赖等实际场景.针对以上问题,本文提出一种面向路径表示学习的程序切片方法P-Slicer.该方法首先通过构建基于语法结构的控制流图,从中提取多条可能的执行路径,以实现高代码覆盖率并保留上下文信息;随后,采用基于学习的分类模型对方法内部语句进行切片相关性判断;最后,结合变量的定义-使用传播机制,实现跨过程切片的递归分析.该方法在保持可扩展性的同时,融合了语义理解能力,提升了切片结果的准确性与实用性.实验结果表明,P-Slicer在切片任务中取得了95.95%的准确率、86.89%精确度和88.95%的召回率,且在处理长方法和跨过程切片时仍能保持良好性能,表明其在软件工程领域中的良好应用前景.  
      关键词:程序切片;路径提取;跨过程分析   
      29
      |
      4
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 138394741 false
      更新时间:2026-02-10
    • 从博弈论视角解构去噪扩散概率模型的视觉概念生成机制

      刘超一, 耿浩棒, 葛亚维, 林晗, 侯娜, 赵二虎, 黄礼泊, 徐勇军
      2025, 53(11): 3910-3919. DOI: 10.12263/DZXB.20250716
      摘要:去噪扩散概率模型(Denoising Diffusion Probabilistic Models,DDPMs)作为当前生成式AI领域的核心技术,在高质量图像合成任务中实现了革命性突破,但其内在工作机制长期被视为“黑箱”,严重制约了其在医疗影像、自动驾驶等高可信度要求场景中的规模化应用.现有研究多聚焦于对逆向去噪过程的宏观行为分析,缺乏对潜空间中不同语义区域间动态交互机制的细粒度解构,导致模型可解释性与精准操控能力之间存在显著鸿沟.本研究从视觉概念生成解耦的新视角,探索了去噪扩散概率模型的可解释性.该发现不仅从理论角度解释了局部性在DDPMs上的表现,还在下游应用中实现了细粒度的图像操控.受博弈论启发,本文提出采用沙普利值来评估区域间的交互作用.然而,单纯按传统定义计算沙普利值将面临时间复杂度上的可行性问题.为此,本文进一步提出一个定理及配套采样策略,将时间复杂度降至OKC,其中K代表区域数,C为采样数.定性定量实验表明,采用本方法进行真实图像处理时,对比现有方法本文提出的方法在局部操控方面性能提升30%~55%.实际应用中,用户可针对性修改特定视觉概念而不会干扰其他区域.通过博弈论与DDPM的深度融合,不仅在理论上首次阐明了局部性在扩散模型中的数学本质与实现路径,更在实践中构建了首个具备语义解耦能力的可解释DDPM框架.  
      关键词:计算机科学;人工智能;大模型;可解释;去噪扩散概率模型   
      19
      |
      2
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 144030654 false
      更新时间:2026-02-10
    • 基于红外偏振成像的复杂干扰环境下无人机目标检测方法

      乔新博, 郭阳, 赵永强, 刘亮
      2025, 53(11): 3920-3931. DOI: 10.12263/DZXB.20250496
      摘要:现有雷达、射频、光学等探测手段在复杂干扰环境中检测无人机时存在误警率高、检测精度低等问题.针对这些问题,本文利用无人机与背景红外辐射偏振信息差异较大的特点,提出基于分焦平面红外偏振成像的复杂干扰环境无人机目标检测方法.该方法构建了一个基于注意力机制与去马赛克蒸馏的目标检测网络(Attention Network with Distillation Demosaic,ANDD),可直接以分焦平面偏振相机获取的偏振马赛克图像为输入,实现对无人机目标的高精度实时检测.首先设计预训练偏振解码蒸馏网络(Polarization DeMosaic Distillation Network,PDMDN)从偏振马赛克图像中快速获取噪声较少的多维偏振信息;其次,使用骨干网络从多维偏振信息中提取目标的纹理、形状等初步特征;最后,建立偏振注意力特征(Polarization ATtention,PAT),利用多维偏振信息实现复杂干扰环境无人机目标检测.为评估算法性能,基于分焦平面红外偏振成像系统建立了复杂干扰环境下无人机目标检测数据集,并在该数据集上与近年最先进的6种目标检测方法进行了比较,验证了本文算法的有效性.  
      关键词:红外偏振;分焦平面;深度学习;去马赛克;注意力网络;目标检测   
      49
      |
      8
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 142884286 false
      更新时间:2026-02-10
    • EL-RIS赋能的混合多播-单播隐蔽通信

      吕璐, 梁啟辉, 冯云鹏, 杨龙, 管新荣
      2025, 53(11): 3932-3942. DOI: 10.12263/DZXB.20250532
      摘要:为了克服智能超表面(Reconfigurable Intelligent Surface,RIS)辅助的隐蔽通信系统中信号的“双重衰落”和能量泄露问题,本文提出了超大规模RIS(Extremely Large-scale RIS,EL-RIS)赋能的混合多播-单播隐蔽通信系统.EL-RIS凭借其巨大的阵列规模,显著扩展了通信的近场区域,有效提升了用户的信道增益,并为隐蔽通信引入了距离自由度,显著减少了泄露在窃听者处的信号能量.多播信号用于向多个用户广播公共信息,其发射功率服从均匀分布,形成功率不确定性,单播信号承载着用户的隐蔽信息,多播信号可以为单播信号的隐蔽传输提供“掩体”,混淆窃听者的检测,有效提高隐蔽通信速率.通过EL-RIS在用户位置处实现能量聚焦,同时抑制在窃听者处的能量泄露.为了最大化该隐蔽通信系统的性能,构建了一个联合优化基站波束成形和EL-RIS反射系数的非凸优化问题,在确保隐蔽性和多播信号成功解码的前提下,最大化用户隐蔽和速率,提出一种高效的交替优化(Alternating Optimization,AO)算法框架,将原问题解耦为基站波束成形设计和EL-RIS反射系数设计两个子问题,采用加权最小均方误差算法(Weight Minimum Mean Square Error,WMMSE)对目标函数进行重构,将非凸约束转化为二阶锥(Second-Order Cone,SOC)的形式,并进一步表示为线性矩阵不等式(Linear Matrix Inequality,LMI),降低优化问题的复杂度.在EL-RIS反射系数设计中,其单元模值约束导致问题非凸且难以求解.为此,本文提出了基于交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)的低复杂度算法,通过引入辅助变量,将原问题解耦,进而构建增广拉格朗日函数,将问题分解为多个易于求解的子问题,提升算法效率.仿真结果表明,所提方案的隐蔽通信速率显著优于基准方案,单播信号能量可在用户位置处实现能量聚焦,在近场信道模型下,通过EL-RIS实现的波束聚焦可使隐蔽和速率比远场模型提高57%,增加EL-RIS单元数量可进一步扩展近场区域,增强波束聚焦效果,提升通信系统对于窃听者位置变化的稳健性,在极端窃听场景下,系统仍能维持较高的隐蔽通信速率.  
      关键词:隐蔽通信;超大规模智能超表面;混合多播-单播传输;近场通信;加权最小均方误差   
      44
      |
      2
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 143585735 false
      更新时间:2026-02-10
    • SM3RNet:一种基于空间Mamba的模态缺失鲁棒病灶分割网络

      贾熹滨, 杨川旭, 范超, 郑依鸣, 杨正汉, 杨大为, 徐辉
      2025, 53(11): 3943-3955. DOI: 10.12263/DZXB.20250677
      摘要:多模态医学图像分割能够充分利用MRI(Magnetic Resonance Imaging)不同序列(如T1、T1ce、T2、FLAIR)之间丰富的信息互补特性,在脑肿瘤等复杂病灶分割任务中获得远超单模态的精度与鲁棒性.然而,现有绝大多数方法均建立在“所有模态推理时完整可用”的强假设之上,而在真实临床场景中,由于患者运动、扫描协议差异、设备限制或历史数据缺失等原因,经常出现一个或多个模态不可用的情况,导致这些方法在模态缺失时性能大幅衰减,极大限制了其在实际诊疗中的可落地性.为此,本文提出了一种基于空间Mamba的全新模态缺失鲁棒病灶分割网络(Spatial Mamba based Missing Modality Robust lesion segmentation Network,SM3RNet),从编码、融合到解码阶段系统性地解决了任意模态组合下性能稳定的核心难题.SM3RNet设计了基于Mamba的多分支空间特征编码器(Mamba-based Multi-branch Spatial Feature Encoder,SME),实现了线性计算复杂度下对三维医学数据的全局上下文建模;进一步,为确保部分模态缺失时病灶分割性能的稳定性,提取并利用模态共有的可判别特征,SM3RNet提出了一种基于多视角注意力机制引导的跨模态特征融合方法(Multi-view Attention-guided Cross-modal feature Fusion,MACF),通过多视角的交互与注意力机制,动态增强模态间共有的语义特征贡献、自适应地协同不同模态组合,提升融合的鲁棒性,有效缓解模态缺失导致的性能衰减;此外,SM3RNet在跳跃连接中集成了并行的空间和通道双流注意力机制(Dual Stream attention Decoder,DSD)从两个维度协同优化融合特征表示,增加病灶辨识度,强化边缘细节恢复能力,从而在最终分割图上获得更高的准确率和完整性.在国际权威的BraTS2020和BraTS2018数据集上进行的大量对比与消融实验充分验证了所提方法的优越性:在所有模态完备时,SM3RNet的Dice等指标优于现有方法,在随机缺失模态的环境下,仍能超越当前专门处理模态缺失的先进方法,展现出较强的鲁棒性和临床部署潜力,为临床实用的多模态医学图像分割提供了高效、可靠的新范式.  
      关键词:多模态;医学图像;语义分割;模态缺失;Mamba;注意力机制   
      76
      |
      8
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 142914876 false
      更新时间:2026-02-10
    • 刘雨欣, 王一航, 王思洋, 夏文超, 赵海涛, 卜宪德
      2025, 53(11): 3956-3969. DOI: 10.12263/DZXB.20250658
      摘要:随着物联网快速发展,大规模泛在分布终端产生的数据规模激增.为提升网络智慧服务能力,采用半分布式联邦边缘学习(Semi-Decentralized FEderated Edge Learning,SD-FEEL)方式,通过多个边缘服务器各自协调一个终端簇执行本地更新,边缘服务器之间周期性共享模型更新,可以在保障学习性能的同时有效缓解网络拥塞.然而,在实际部署中,缺乏有效激励会导致终端参与学习的积极性不高,且训练过程中可能发生无线通信中断,这些因素都会降低模型训练效率.因此,本文提出一种面向SD-FEEL场景的基于演化博弈与中断概率优化的激励机制.具体来说,首先,设计同时考虑数据大小与质量的终端贡献评估指标,并据此构建奖励函数激励高质量终端参与训练,提升全局模型性能并确保激励公平性.其次,引入演化博弈框架,捕捉终端的有限理性和动态决策行为,均衡边缘服务器负载,确定种群中关联各边缘服务器的最优比例,实现种群总效益最大化.在此基础上,以最小化无线通信中断概率为目标,优化终端与边缘服务器的具体关联策略.仿真结果表明,所提方法能够有效均衡边缘服务负载,与随机接入方案和声誉激励机制(Reputation-Aware Incentive Mechanism,RAIM)方案相比,通信中断概率分别降低32.04%和35.55%,模型准确性分别提升3.58%和4.34%.  
      关键词:半分布式联邦学习;激励机制;演化博弈;中断概率;终端贡献评估;智能物联网   
      0
      |
      1
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 149459819 false
      更新时间:2026-02-10
    • 面向在线连续学习的特征融合引导的梯度重加权算法

      邱奔流, 王岚晓, 邱荷茜, 高翔宇, 问海涛, 李宏亮
      2025, 53(11): 3970-3982. DOI: 10.12263/DZXB.20250413
      摘要:在线连续学习(Online Continual Learning,OCL)旨在从非平稳的数据流中以仅仅读取一次数据样本的方式学习知识,因此面临着学习不充分的问题.为缓解这一问题,本文提出了一种特征融合的方法.该方法提取每张图片的一系列增强后样本的特征作为锚点特征,并通过加权求和的操作来融合这些特征以获得融合特征.融合权值由锚点特征和选定的作为枢纽特征的图片特征之间的相似性来决定.优化这一融合特征的交叉熵损失能够促进学习进程,进而在当前新任务上取得更好的表现.另外,我们提出了一致性损失来限制融合特征和枢纽特征之间的均方误差,以进一步提高模型在新任务上的表现.最后,我们理论分析了交叉熵损失关于模型参数的梯度.这一分析揭示了特征融合和梯度重加权之间的关系.我们选择了在线连续学习的三个常用基准进行了大量的实验,包括CIFAR-10、CIFAR-100和Tiny-ImageNet.相比基准方法,本文方法的平均最终准确率在CIFAR-10上提高了至多7.00%,在CIFAR-100上提高了至多8.04%,在Tiny-ImageNet上提高了至多6.33%.实验结果表明了本文方法的有效性,并且其在线连续学习能力相比已有方法取得了实质性的提升.  
      关键词:图像识别;连续学习;在线学习;类别增量学习;特征融合;梯度重加权   
      22
      |
      2
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 144030808 false
      更新时间:2026-02-10
    • 混合量子与图神经网络的多模态情感分析方法

      李兴广, 蔡禹健, 崔炜, 李劲松, 张莹瑀
      2025, 53(11): 3983-3995. DOI: 10.12263/DZXB.20250554
      摘要:多模态情感分析(Multimodal Sentiment Analysis,MSA)是人工智能情感计算领域最具应用潜力的技术之一.视觉、语音与文本中包含了人类多数真实情感特征,融合三种模态获得更精细的情感多维度主观表达以保障情感分析结果准确依然面临诸多挑战.三种模态各自提取的情感特征子集中元素数量和时序不一致时,各模态选取代表性情感特征的良好策略是避免特殊情感特征被忽略或过度提取,以及保证后续融合分析时情感计算结果可信的关键.三种模态代表性情感特征直接融合分析时模态间情感信息的传递机制与互补机制未被充分利用,导致情感分析结果仅关联于某一模态代表语义特征,造成模型过拟合,分类输出结果错误.此外,人类的情感表达具有模态异构性与不一致性,常导致情感特征分布不均及模态极性歧义问题.算法模型不仅要捕获不同模态间的互补信息与细粒度关联,还要抑制冗余特征对情感判别的干扰,避免数据融合过程存在“语义鸿沟”,使结果稳定性受限.本文基于多尺度时序表征与量子比特多态表征思想,提出了混合量子与图神经网络的多模态情感分析方法.首先,构建代表性序列的拓扑表征图网络捕捉各特征节点之间的图结构动态关系,并在图网络中添加多头图注意力机制自适应调整节点与边权重,保证特殊情感特征可信选取.然后,设计情感特征量子计算网络,将多模态特征按量子编码映射至高维希尔伯特空间,基于量子叠加与纠缠机制进一步促进模态间特征的深层次耦合与相互依赖建模,通过量子测量过程将叠加态坍缩至特定的本征态,实现量子态与情感特征的对应映射,获得更具判别性的多模态融合情感表征.最终,将单模态与多模态预测作为多个子任务形成多任务协同优化机制,生成伪标签与共享表征提高每个任务的性能,结合多任务损失函数缓解模态表征不一致性,增强了模型的泛化性.在CMU-MOSI、CH-SIMS和CMU-MOSEI基准数据集上的系列实验结果表明,相较常用基线模型,方法情感二分类准确率提高了1.5%~8.7%、五分类准确率提高了3.3%~10.7%、七分类准确率提高了1.5%~14.5%、F1分数最高提升8.5、皮尔逊相关系数最高提升0.146和平均绝对误差最高下降0.304.  
      关键词:多模态情感分析;图神经网络;量子机器学习;跨模态信息融合;多任务优化   
      46
      |
      7
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 136767307 false
      更新时间:2026-02-10
    • 多模态网络分布式控制平面负载均衡研究

      凃化清, 刘硕, 方徐鑫, 马博, 李传煌, 朱俊, 邹涛
      2025, 53(11): 3996-4009. DOI: 10.12263/DZXB.20250421
      摘要:随着工业互联网、车联网、远程医疗等新型服务的快速发展,多模态网络应运而生.该架构基于“技术体制与网络环境分离”的设计思想,使多种网络模态能够在同一基础平台上共生共存.然而,现有研究多集中于多模态网络的环境构建、编译优化与网元设计,缺乏对分布式控制平面负载均衡的系统研究.部分借鉴SDN(Software-Defined Networking)的交换机迁移与动态重分配机制虽可缓解控制器过载,但需在控制器间频繁同步状态信息,迁移开销大、响应延迟高,难以满足多模态网络的实时性与可扩展性要求.针对上述问题,本文通过对数据平面流量路由的合理规划,优化多模态网络中控制平面的负载分布,提出一种对多种网络模态的流量路由与多模态网元-控制器分配进行联合优化(Joint optimization of Routing and polymorphic network Element Controller Allocation,JRECA)方法.该方法将不同模态的控制信息规模差异显式纳入优化框架,综合考虑网元分配、路由选择、控制器处理能力与链路带宽等约束.对于多模态网络的异构特性,本文提出将不同模态控制信息规模差异纳入控制器负载约束的负载均衡机制,构建了同时实现控制平面负载均衡与数据平面吞吐量最大化的统一模型,实现控制平面负载与数据平面吞吐的协同优化,弥补既有研究中两平面割裂求解的不足,并进一步设计具有严格理论保证的“两步走”算法框架.首先,设计基于最大负载优先的多模态网元-控制器分配算法,确定多模态网元与控制器之间的匹配关系,并通过近似比证明严格界定了算法性能边界;然后,在动态流量环境下,设计基于原始-对偶方法的在线路由算法,并通过竞争比分析给出在线优化的理论性能下界.在Fat-Tree和ARPANet两种典型拓扑上的仿真实验表明,本文提出的算法在IPv4、IPv6、工控标识、命名数据标识和身份标识5种网络模态下均取得显著性能提升.与对比算法相比,本文提出的算法可降低17.56%~20.97%的控制器负载,并提高13.86%~29.82%的系统吞吐量.  
      关键词:多模态网络;分布式;控制平面;负载均衡;路由;近似算法   
      38
      |
      4
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 138538781 false
      更新时间:2026-02-10
    • 基于向量拟合技术的广义色散媒质模型与高效DGTD算法

      祝强强, 胡志明, 王思凡, 吴扬, 申子昂, 贾浩文, 徐若锋, 郭卿超, 赵雷
      2025, 53(11): 4010-4021. DOI: 10.12263/DZXB.20250241
      摘要:色散媒质的电磁特性在雷达隐身、天线设计等众多工程领域具有关键影响,如何精确高效地建立色散媒质模型一直是计算电磁学研究难点.经典色散模型虽能描述特定色散效应,但在拟合宽频复杂色散响应方面存在局限,难以适用于多频段、多机制耦合的复杂场景.为了实现对色散媒质电磁特性的准确、高效时域分析,本文基于向量拟合技术构建了广义色散媒质(Generalized Dispersive Media,GDM)数学模型,以实现对媒质色散特性精确表征,并结合辅助微分方程法与局部时间步技术(Local Time-Stepping,LTS),发展了一种基于时域间断伽辽金(Discontinuous Galerkin Time-Domain,DGTD)方法的色散媒质高效求解算法.针对给定的色散媒质频域响应数据,本文引入向量拟合技术,在施加物理约束与数学变换的基础上,建立了包含实极点与复共轭极点对的广义色散媒质模型,从而统一描述弛豫型和谐振型色散行为.为克服色散本构关系引入的时域卷积计算复杂度,采用辅助微分方程法构建了适用于该广义色散媒质模型的DGTD求解格式,将卷积运算转化为一组耦合常微分方程组,实现了高效时域步进求解.为进一步提升计算效率,设计了基于低存储龙格-库塔积分方法的局部时间步策略,显著提高了色散媒质问题的求解速度.本文对色散球体、色散材料涂覆弹头的雷达散射截面(Radar Cross Section,RCS)以及频率选择表面(Frequency Selective Surface,FSS)周期单元的反射系数进行了数值求解,结果表明基于向量拟合构建的广义色散媒质模型能够准确描述媒质的频域色散特性,拟合误差始终保持在较低水平;所获得的RCS、反射系数结果与CST商业软件及传统有限差分法的计算结果高度吻合,绝对误差控制在3 dB以内.在保证计算精度的同时,局部时间步技术的引入使整体计算效率提升了超过40.42%.本文所提出的方法为复杂色散媒质的电磁仿真提供了一种兼具通用性、高效性和可靠性的数值分析工具.  
      关键词:向量拟合;广义色散媒质;时域间断伽辽金;辅助微分方程法;龙格-库塔积分;局部时间步   
      90
      |
      7
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 141036778 false
      更新时间:2026-02-10
    • 基于序列与跨模态对齐的蛋白质功能预测模型

      徐敏, 胡春玲, 胡婷, 张芳芳, 代相龙
      2025, 53(11): 4022-4034. DOI: 10.12263/DZXB.20250851
      摘要:蛋白质功能预测是生物信息学核心任务之一.现有方法虽能实现蛋白质多模态特征的融合,但仍存在预测准确率不足、依赖有限的实验数据导致适用范围受限等问题.为解决此类问题,本研究提出基于序列与跨模态对齐的蛋白质功能预测模型(Sequence-based and Cross-Modal Alignment Model for Protein Function Prediction,SCMAGO),以蛋白质序列作为唯一输入,通过主流工具AlphaFold2、InterProScan分别预测三级结构和家族结构域信息;使用蛋白质大语言模型(Evolutionary Scale Model Cambrian,ESMC)实现序列嵌入,并采用几何向量感知机图神经网络(Geometric Vector Perceptron Graph Neural Network,GVP-GNN)提取三级结构特征,再通过广播嵌入方法获取家族结构域表示;模型SCMAGO设计两步跨模态对齐方法:基于双向交叉注意力,在残基层面对序列和结构特征进行对齐;结合图注意力池化方法,进一步融合家族结构域特征.实验结果表明,SCMAGO在Swiss-Prot数据集上的性能优于现有的基准方法,在生物过程(Biological Process,BP)、分子功能(Molecular Function,MF)和细胞组分(Cellular Component,CC)三方面的Fmax分别为0.487、0.739和0.736,AUPR则分别达到0.507、0.760、0.800.此外,对序列一致性低于40%的蛋白质,仍能保持稳定的预测性能.  
      关键词:蛋白质功能预测;多模态融合;注意力机制;Gene Ontology   
      0
      |
      1
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 149459821 false
      更新时间:2026-02-10
    • 基于延迟时空依赖的非平稳时间序列交通流量预测模型

      李小龙, 李曦, 刘洋, 李柄廷, 易畅言, 曾宁俊
      2025, 53(11): 4035-4050. DOI: 10.12263/DZXB.20250591
      摘要:建立精准的交通流量预测模型,对于优化交通系统管理、缓解城市交通拥堵、提升路网运行效率具有至关重要的作用.然而,实际交通流呈现出显著的非平稳特性与复杂的时空依赖关系,尤其是由突发事件、早晚高峰、节假日等引起的流量分布偏移,以及交通拥堵在路网中传播的延迟效应,给传统预测方法带来了严峻挑战.现有模型大多基于平稳性假设或采用静态时空建模方式,难以有效捕捉交通数据中的动态演化规律与异质性延迟依赖,导致预测精度受限、工程适用性不足.针对上述问题,本文提出一种基于延迟时空依赖的非平稳时间序列交通流量预测模型(Non-Stationary time series Forecasting Model,NSFM),旨在从频域和空域双重角度深入刻画交通流的动态演变机制.该模型首先利用傅里叶变换将非平稳时间序列分解为时变组分与时不变组分,分别刻画局部动态波动与全局稳态趋势,并通过正交性证明确保两类成分的独立性,为后续差异化建模奠定理论基础.在此基础上,模型进一步构建带有时延特征提取机制的特征融合模块,结合逐点卷积与位置编码,将交通流量、空间邻接关系、时间周期信息与延迟传播特征进行深度融合,从而精准捕捉站点间交通状态的时空演化与滞后响应规律.为建模离散站点间的空间自相关结构,本文引入Moran算子构建函数对函数回归预测框架,通过基函数展开与正交化处理,实现连续函数空间与离散观测站点之间的一致性映射,有效量化区域间的空间依赖强度,提升模型在复杂路网中的预测鲁棒性.为验证NSFM模型的有效性与泛化能力,我们在四个真实世界交通流量数据集(PEMS03、PEMS04、PEMS07、PEMS08)上进行了系统实验,实验表明,NSFM在多个评估指标上均显著优于现有主流模型,其中平均绝对百分比误差(MAPE)相较于SOTA模型,分别降低了7.48%、9.86%、3.20%、1.73%,展现出在非平稳场景下更优的预测精度与稳定性.  
      关键词:延迟时空依赖;非平稳;交通流量预测;时空演变特征   
      0
      |
      1
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 149459773 false
      更新时间:2026-02-10
    • TFS-GENM:一种基于EEG多模态特征融合的驾驶行为分类方法

      黄亚宁, 闫光辉, 常文文, 程文鑫, 吴佰靖
      2025, 53(11): 4051-4064. DOI: 10.12263/DZXB.20250482
      摘要:在传统基于脑电信号(ElectroEncephaloGraphy,EEG)的驾驶行为检测技术中,不同维度特征的提取及融合方法对分类效果有很大的影响,现有方法多基于时域、频域等单一模态特征提取,没有充分利用非线性动力学分析和空间域分析方法,从而难以全面捕捉大脑不同区域和频段的有效特征,限制了识别效果.因此,本文针对性地提出一种结合时域、频域、空间域等多尺度特征,及图卷积神经网络(Graph Convolution neural Networks,GCN)和EEGNet双分支的多维特征融合模型,以提升分类效果.首先提取EEG原始信号的几何性质、频段分布情况,构建时域频域维度的特征;然后计算相位锁定值(Phase Locking Value,PLV)、相位滞后指数(Phase Lag Index,PLI)和互信息(Mutual Information,MI),度量不同状态下的脑网络连接,再使用GCN动态优化邻接矩阵、聚合节点信息,以构建空间域层面的特征;利用EEGNet提取局部的时空特征,增加了模型可解释性;得到多维特征数据后进行拼接融合和分类.本文模型基于公开数据集进行了各个维度的性能验证,达到95.87%以上的分类平均准确率,最高准确率达98.65%,相较当前最优分类结果提升了2.95%.该方法解决了因单一模态特征造成的分类效果不佳、鲁棒性不高等问题,为后续开发可穿戴设备智能驾驶系统提供了理论基础,特别是为驾驶过程中存在肢体操作困难的残障人士提供新型辅助技术路径.  
      关键词:脑电信号(EEG);紧急制动;驾驶行为;图卷积神经网络(GCN);相位锁定值(PLV);相位滞后指数(PLI);互信息(MI)   
      44
      |
      6
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 142698044 false
      更新时间:2026-02-10
    • 用于脑电情绪识别的三子空间解耦聚类图神经网络研究

      黄辰, 马浩博, 张龑, 杨超, 宋建华
      2025, 53(11): 4065-4076. DOI: 10.12263/DZXB.20250555
      摘要:图神经网络(Graph Neural Networks,GNNs)因其能够建模大脑区域间的时空依赖关系并捕捉上下文感知的神经模式,在基于脑电图(ElectroEncephaloGraphy,EEG)的情感识别中得到了广泛关注.然而,大多数基于GNN的EEG情感识别方法面临两个主要挑战:(1)许多现有模型未能考虑局部大脑区域间情感的共性和多样性,导致空间或功能相邻区域的节点嵌入过于同质化;(2)当前的方法通常依赖于简单的拼接或基于相关性的先验知识,这对于捕捉多个EEG通道和频带间复杂且分布的情感模式是不充分的.本文提出了一种三子空间解耦聚类图神经网络(Tri-Subspace-Decoupled Clustering Graph Neural Network,TS-DCGNN)来解决上述挑战.具体来说,TS-DCGNN将EEG信号解耦为三个子空间:显性情感子空间、隐性情感子空间和显性-隐性共振子空间,旨在捕捉可观察的情感体验(如“快乐”)、自动反应(如“惊吓”)及其耦合.此外,本文引入了一种双分支传播架构,其中图注意力网络(Graph Attention Networks,GATs)和图卷积网络(Graph Convolutional Networks,GCNs)并行操作,通过注意力驱动的交互和分层学习提取显性和隐性特征,从而增强区域情感表示.进一步地,本文提出了一个统一的表示学习模块,整合这些特征,并运用信息论方法来获得最小、充分和具有辨识度的情感表示.三个基准数据集上的实验表明,所提方法在性能上达到了最先进的水平,并提升了可解释性.  
      关键词:基于脑电图的情感识别;图神经网络;特征解耦;局部-全局建模;信息论表示学习   
      51
      |
      6
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 134272402 false
      更新时间:2026-02-10
    • 融合光影敏感特征及K-A表示定理的AI生成图像鉴别方法

      邓巧, 姜林, 刘乐新, 唐吕鑫, 杨英丽
      2025, 53(11): 4077-4090. DOI: 10.12263/DZXB.20250250
      摘要:人工智能(Artificial Intelligence,AI)生成图像技术发展迅猛,高逼真内容对网络安全与社会信任构成重大威胁,而人类自主鉴别准确率仅约59%,接近随机猜测水平.现有检测方法普遍存在性能有限、跨模型泛化能力不足等问题,尤其无法有效捕捉生成图像中物理光照的不一致性.为此,本文提出融合光影敏感特征及Kolmogorov-Arnold(K-A)表示定理的特征融合鉴别方法(Light-enhanced Kolmogorov-Arnold Networks,L-KAN).在红绿蓝三原色(Red、Green、Blue,RGB)语义特征、频域特征和边缘特征的基础上,构建光影敏感特征.该特征通过整体光照分布、阴影面积及方向和多尺度光照梯度特性,捕捉生成图像中的光照异常.引入K-A表示定理进行特征融合,通过内外层函数协同作用,在保证特征互补性的同时有效抑制特征冗余.在3组公开数据集上,与9种先进方法进行对比,所提方法平均分类准确率均有显著提升.  
      关键词:AI生成图像检测;光影敏感特征;特征融合;Kolmogorov-Arnold表示定理   
      71
      |
      12
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 125448356 false
      更新时间:2026-02-10
    • 微电网并离网切换系统混合樽海鞘优化控制策略

      王后能, 殷劲骁, 廖小兵, 叶石丰
      2025, 53(11): 4091-4103. DOI: 10.12263/DZXB.20250514
      摘要:在能源转型与“双碳”目标驱动下,孤岛微电网作为灵活可靠的分布式能源载体,其多模式切换控制如并网/孤岛运行模式切换控制及孤岛运行时内部多能源协调切换控制对保障供电质量、系统稳定性和经济性至关重要.但随着孤岛微电网不断扩建与复杂度提升,其运行存在多重挑战:内部存在的强非线性耦合、外部不确定随机干扰、参数不确定和控制成本与复杂度高等问题日益突出,会导致切换失稳和暂态性能较差等问题.微电网切换系统可以进行内部能源间相互切换,还可以和大电网相连,实现并网和孤岛运行模式相切换,且动态特性和运行工况更加复杂.本文以存在计划孤岛的微电网并离网非线性切换系统为对象,微电网并网和孤岛运行之间的非线性特性加剧变量间的耦合关系,扰动还会引起抖振甚至系统失稳.首先,通过一种改进交叉滑模反步控制(Improved Cross Backstepping Sliding Mode Variable Control,ICBSMVC)来解耦非严格反馈系统,利用κ类函数提高收敛速度;其次,融入误差补偿和滑模控制来增强系统鲁棒性,设计改进扩张状态观测器来补偿外部随机不确定干扰;此外采用动态面技术(Dynamic Surface Control,DSC)来改善“计算爆炸”问题.最后,将哈里斯鹰优化算法和樽海鞘群优化算法相结合,提出一种混合樽海鞘优化算法来实现并离网之间存在外部扰动的情况下平滑切换,实现微电网快速且稳定地并离网切换控制,保证电压和频率稳定.基于Matlab平台进行了仿真对比实验验证本文所提控制方法的有效性.首先通过数值实例验证了改进扩张状态观测器可以更快追踪到扰动信号,跟踪误差为0,且不会出现抖动.对fal函数进行改进,能够更精确地估计外部扰动,使得微电网在切换过程中能够快速稳定,并减少稳态误差.本文所提方法在由孤岛运行切换到并网运行时,0.16 s内频率能稳定到50 Hz,并网运行模式切换到孤岛运行模式时,也能在0.166 s内频率能恢复到50 Hz,在两种模式切换时,电压的波形几乎没有突变,验证了本文控制方法的有效性.  
      关键词:微电网;非线性切换系统;改进交叉反步法;改进扩张状态观测器;滑模控制;混合樽海鞘优化算法   
      26
      |
      2
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 143588699 false
      更新时间:2026-02-10
    • 王正强, 李淳, 任昕志, 徐勇军
      2025, 53(11): 4104-4115. DOI: 10.12263/DZXB.20240937
      摘要:无人机(Unmanned Aerial Vehicle,UAV)通信与智能反射表面(Intelligent Reflecting Surface,IRS)作为第六代移动通信系统中的两项关键技术,凭借其高机动性与智能波束重构能力,为构建高可靠、高安全的下一代无线网络提供了全新范式.然而,无线信道的广播特性使无人机的安全通信面临严峻挑战.特别是在多用户场景下,如何在进行安全传输的同时,保障多个合法用户的服务公平性,成为一个复杂且亟待解决的关键问题.该文研究了一个IRS辅助的多天线无人机隐蔽通信系统,旨在解决多用户间资源分配不均衡的难题.在考虑用户公平性的前提下,将最大化所有合法用户中最差用户的最小平均隐蔽速率作为优化目标,确保所有用户都能获得可接受的最低服务质量.该问题通过联合优化用户调度、无人机飞行轨迹、多天线发射波束赋形以及IRS的相移矩阵进行求解.由于该优化问题是一个高度非凸且变量紧密耦合,难以采用凸优化方法直接求解.为此,本文设计了一种基于块坐标下降的迭代算法,将原问题解耦为四个相对易于处理的子问题,并针对各子问题的特性,分别采用了连续凸近似、二次变换、放缩以及变量替换等方法,将其转化为凸优化问题,进而通过交替优化进行高效求解.仿真结果表明,所提算法具有快速收敛性.与无IRS辅助、无轨迹优化等基准方案相比,所提出的联合优化算法能显著提升系统用户的最小平均隐蔽速率.  
      关键词:无人机通信;智能反射面;隐蔽通信;资源分配;轨迹优化;凸优化   
      61
      |
      7
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 144995427 false
      更新时间:2026-02-10
    • 融合动作描述生成与跨模态语义对齐的骨架动作识别方法

      李雨桐, 马苗, 陈建芮
      2025, 53(11): 4116-4131. DOI: 10.12263/DZXB.20250652
      摘要:动作识别旨在通过对人体动作的建模与分析,实现对人类行为的自动识别与理解,广泛应用于智能监控、人机交互、智慧教育等领域.近年来,自监督骨架动作识别方法因其计算成本低、适应能力强和标注数据依赖性小,逐渐成为动作识别的重要研究方向之一.然而现有方法多依赖模板提示生成动作概念的解释语句,存在时空结构信息缺失及语义建模能力有限问题,为此本文提出一种跨模态先验辅助的自监督骨架动作识别方法,旨在充分融合骨架结构特征与语义先验知识,实现更具语义理解能力的动作表征.该方法一方面利用双分支解耦骨架编码器分别建模动作的空间结构与时间信息,结合跨域对比学习策略,从空间、时间及全局视角建立特征对齐与一致性约束,以获得具有丰富时空结构和全局信息的骨架模态特征;另一方面将时序拼接的动作图像和提示指令共同输入视觉语言模型(Vision-Language Model,VLM)生成动作描述,并利用对比语言-图像预训练(Contrastive Language-Image Pre-training,CLIP)模型的文本编码器提取包含动作语义的文本特征,从而弥补单一骨架模态在细粒度语义表示上的不足;在此基础上,通过骨架调制文本的跨模态对比学习策略,在骨架特征引导下利用特征线性调制(Feature-wise Linear Modulation,FiLM)机制动态调控文本语义,实现骨架、文本信息的跨模态语义对齐.实验结果表明,在NTU-RGB+D 60和NTU-RGB+D 120数据集上所提方法的识别准确率优于C2VL等10余种先进方法,在PKU-MMD-II数据集上识别准确率优于ACA2Net等8种先进方法.本文方法融合骨架结构信息与语义先验,实现了骨架特征与语言语义的有效互补,为低标注成本的骨架动作识别研究提供了新思路.未来工作将进一步探索基于领域自适应的微调策略,以提升视觉语言模型的开放集描述能力,并构建在线协同优化框架,实现动作描述生成与识别任务的联合优化,从而增强该方法在实时人机交互与智慧教育等复杂动态场景中的实用性、智能化与可解释性.  
      关键词:骨架动作识别;动作描述生成;跨模态语义对齐;视觉语言模型;对比学习;自监督学习   
      68
      |
      3
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 145787994 false
      更新时间:2026-02-10
    • 基于判决重构的非线性卫星信道盲均衡算法

      王华东, 杨健鹏, 张天骐
      2025, 53(11): 4132-4141. DOI: 10.12263/DZXB.20250653
      摘要:由于卫星通信系统中高功率放大器的非线性失真与多径信道的线性衰落效应相互耦合会引发传输性能恶化问题,而传统的盲均衡算法(如恒模算法)虽在应对多径引起的线性符号间干扰时具有一定效果,但无法有效补偿高阶调制信号中的非线性失真,尤其是在没有训练序列的盲均衡场景下,传统方法难以提供足够的监督信息.为了克服这一挑战,本文提出一种基于判决重构的非线性卫星信道盲均衡算法(blind Equalization Algorithm for Nonlinear satellite channels based on Decision-Reconstruction,DR-NEA),DR-NEA采用判决-插值-重构模式生成参考信号,从而实现无监督条件下的非线性与线性失真联合补偿.首先,算法通过恒模算法对接收到的信号进行线性均衡,消除多径效应引起的线性失真.随后,通过判决、插值和重构生成参考信号,该参考信号为非线性均衡器参数辨识提供监督信息.最后,DR-NEA使用拟牛顿法在最小均方误差准则下对Wiener型均衡器的参数进行辨识,进而实现对信道中的线性与非线性失真联合补偿.仿真结果表明,在高阶调制模式(32APSK、32QAM、64QAM)下,DR-NEA相较于传统线性均衡算法,显著提升了性能,在误码率为1×10-3时,较传统线性均衡算法性能增益超4 dB,体现了该算法在高阶调制下较强的非线性补偿能力.此外,当判决误码率低于9.44%时,DR-NEA依旧保持稳定且输出性能几乎不受影响,进一步验证了本文算法的鲁棒性.DR-NEA通过创新性地引入基于判决重构的参考信号生成方法,解决了传统盲均衡算法无法提供足够监督信息的问题.同时,采用拟牛顿法进行Wiener模型参数辨识,实现了高效的非线性均衡器优化.实验结果验证了该算法在非线性与线性失真补偿方面的优越性能,特别适用于高阶调制信号的传输.综上所述,DR-NEA算法有效解决了卫星通信中非线性失真与多径衰落的联合干扰问题,具有重要的理论意义和广泛的实际应用前景,特别是在高速率、高阶调制的卫星通信场景中,能够显著提升系统的传输性能.  
      关键词:卫星信道;判决重构;盲均衡;非线性失真;系数辨识;判决误码率   
      63
      |
      4
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 145787921 false
      更新时间:2026-02-10
    • NAHGNN:邻域感知异构图神经网络

      李强, 郑唯, 陈明, 谭兴义, 马华
      2025, 53(11): 4142-4156. DOI: 10.12263/DZXB.20250420
      摘要:异构图广泛存在于社交网络、推荐系统和生物网络等复杂场景中.基于元路径的异构图神经网络通过定义高阶语义路径对跨类型间接关系进行显式建模,以提升复杂关系建模能力.但现有研究或未加区分地使用指定长度内所有的元路径特征,随着元路径长度的增加,所生成特征的数量呈指数上升,造成语义信息的冗余;或受限于高阶聚合导致的过平滑现象,造成边缘信息的丢失.为解决这些问题,本文提出了一种异构图神经网络模型(Neighborhood Aware Heterogeneous Graph Neural Network,NAHGNN),从邻域感知的角度切入,通过任务解耦,将特征生成分为两个步骤:关联元路径生成和邻域感知特征聚合.首先,关联元路径生成模块利用起始节点与结束节点均是目标节点类型的关联元路径特征,学习目标节点间丰富的语义信息.其次,从目标节点的邻域感知方式出发,设计了一个简单高效的邻域感知特征聚合模块,对关联元路径中忽略的邻域信息进行提取.最后,为了拟合相应邻域感知方式的语义表示,避免邻域感知特征间相互影响,设计了一个带掩码的语义融合模块,融合不同特征间的语义信息.在DBLP、ACM、IMDB和Freebase四个公开异构图数据集上与六种主流异构图神经网络基线进行实验对比.结果表明,NAHGNN在节点分类任务中Micro-F1提升幅度为0.63~12.50个百分点,训练时间与GPU内存消耗显著下降,并展现出良好的可解释性.  
      关键词:异构图;注意力机制;异构图神经网络;元路径;图表示学习   
      35
      |
      2
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 147206682 false
      更新时间:2026-02-10

      综述评论

    • 零折射率人工电磁媒质理论及其应用

      闫雯荻, 李越
      2025, 53(11): 4157-4170. DOI: 10.12263/DZXB.20250732
      摘要:零折射率(Near-Zero-Index,NZI)媒质因其在电磁波调控中展现出的独特物理特性,近年来成为人工电磁媒质研究的重要方向.与传统材料不同,NZI 媒质能够在介电常数或磁导率趋近于零的条件下表现出波长无限拉伸、相速度趋于无穷、传播相位不变等特征,进而呈现“时域振荡、空域静止”的时空解耦特性.这些特性为突破常规器件在尺寸、带宽和形状受限等方面的瓶颈提供了新的物理途径.本文系统回顾了NZI媒质的物理基础、实现机制及典型人工结构形式.首先从物理机理出发,介绍其波长拉伸、超耦合效应与理想能流特征;随后综述了NZI媒质的实现方式,并进一步介绍了近年来发展迅速的“光学掺杂”理论,即通过在NZI媒质中引入异质掺杂体实现等效磁导率的精细调控,从而在亚波长尺度上构建 NZI 人工电磁媒质.该方法具有参数可调、几何无关和易集成等优势,已成为NZI媒质工程化的重要手段.在应用方面,本文从吸收、传输与辐射三个角度总结了NZI人工电磁媒质的典型功能与性能优势;在吸收方面,利用 NZI 媒质中的场增强效应、阻抗匹配机制及完美相干吸收,可实现超高灵敏度传感、高效热辐射调控、超薄吸收表面等;在传输方面,利用NZI媒质的超耦合效应、阻抗调控能力与色散工程,可实现任意形状的无反射能量传输、高效率可弯曲互连、多端口功率分配以及多通道频分复用等功能器件;在辐射方面,利用NZI媒质的几何无关性与零相移特性,可实现波前整形、定向辐射与方向图可重构等功能,构建形状无关、高集成度的可调控天线器件.目前,NZI人工电磁媒质仍面临带宽受限、损耗较大与工艺兼容性差等关键挑战.未来发展方向包括:发展宽带低损耗材料体系,实现结构与模式的协同优化;推动力学、热学、量子等多物理场交叉融合,实现与芯片及光学深度集成等.  
      关键词:零折射率媒质;零折射率等效媒质理论;光学掺杂;阻抗匹配;传输线;天线   
      27
      |
      2
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 144422970 false
      更新时间:2026-02-10
    • 王中天, 吴一全
      2025, 53(11): 4171-4198. DOI: 10.12263/DZXB.20250775
      摘要:随着无人机(Unmanned Aerial Vehicle,UAV)技术的蓬勃发展,其在军事国防、智能交通、设施巡检、灾害救援、农业管理等众多领域的应用日益广泛,成为低空经济发展的核心驱动力.自主着陆作为无人机关键核心技术之一,直接决定了无人机作业的安全性与可靠性,尤其在电池电量不足、气象条件恶化或通信中断等紧急场景下,能有效避免设备损坏与事故发生,是实现无人机完全自动化的关键环节.基于视觉与深度学习的场景感知技术,凭借强大的特征学习和模式识别能力,突破了传统依赖GPS(Global Positioning System)、激光雷达(Light Detection And Ranging,LiDAR)等技术在复杂环境中的局限性,为无人机自主着陆领域带来了全新的解决方案.本文系统综述了基于视觉与深度学习的无人机自主着陆场景感知方法.首先阐述了深度学习在无人机自主着陆中的应用背景和重要性,梳理了从传统传感器驱动到智能感知的技术演进历程.随后详细剖析了不同场景的特征与技术挑战:静态平台着陆聚焦降落标识、跑道检测、地基引导三类场景,核心需求是提升着陆精度与准确率;动态平台着陆涵盖车载陆地、舰艇海上及其他移动平台,需重点解决运动跟踪与干扰抑制问题;特殊场景着陆则面临山区、森林、城市峡谷等复杂环境中的障碍物遮挡、信号干扰、极端气象等多重挑战.本文深入探讨了核心技术体系,包括目标检测、语义分割、姿态估计、光流预测、三维重建等关键技术的原理与应用.同时分析了特征提取优化、语义理解增强及场景适配策略的应用效果与性能表现.最后总结了该领域面临的复杂环境适应性不足、计算资源约束、数据依赖与标注难题等挑战,并对未来研究方向进行了展望.指出通过多源传感器数据融合可提升复杂环境感知能力,开发轻量化模型能适配无人机资源限制,加强仿真与真实场景结合可提高模型泛化能力.本文通过系统地总结与分析,全面呈现了该领域的技术现状与发展脉络,为无人机自主着陆技术的进一步研究与工程应用提供了宝贵的参考和指导.  
      关键词:自主着陆;无人机;深度学习;计算机视觉;目标检测;语义分割   
      2
      |
      1
      |
      0
      <HTML>
      <网络PDF><Meta-XML>
      <引用本文> <批量引用> 149459948 false
      更新时间:2026-02-10
    0