摘要:近年来,随着物联网(Internet of Things,IoT)、语义通信以及智慧城市等经典机器间通信(Machine to Machine,M2M)场景的快速发展,海量视觉数据在设备间的实时传输与高效处理成为了一项关键挑战。在此背景下,传统以人眼感知质量为核心的图像编码方法,因其优化目标与机器视觉任务需求存在本质差异,往往在面向机器视觉分析时出现分析精度不足的问题。为此,面向机器视觉的图像编码(Image Coding for Machine,ICM)应运而生,其核心目标是在保证下游机器视觉任务(如分类、检测、分割等)分析精度的同时,实现尽可能低的编码码率,从而更好地适配M2M场景中的带宽与存储约束。然而,现有ICM方法仍面临两大瓶颈:其一,在极低码率条件下性能急剧下降。这是由于现有方法多依赖于端到端的非线性变换提取视觉特征,未能充分挖掘和利用图像中高层语义信息的紧凑表示,导致特征编码效率不足;其二,在开放场景下的泛化能力弱。多数方法针对单一任务、单一数据集进行优化,缺乏对未知类别、跨域数据的适应能力,难以在实际动态环境中保持稳定的分析性能。为突破上述限制,本文提出一种文本提示引导的面向机器视觉图像编码框架(Text-prompted Image Coding for Machine,T-ICM)。该框架的核心思想是将图像信息解耦为语义信息与纹理信息两个互补的组成部分,其中,语义信息以结构化文本提示(如对象类别、位置描述)的形式进行表示与编码,纹理信息则通过一种任务无关的通用视觉特征进行提取与压缩。在编码端,文本提示因其高度抽象和语义紧凑的特性,可以显著降低整体码率;通用特征则通过我们提出的分组特征编码模块进行高效压缩。在解码端,文本提示不仅用于直接解析完成分类、检测等任务,更重要的是作为引导信号,通过提示编码器与掩膜解码器,动态调整重建通用特征的语义感知区域,实现特征层面的域自适应与任务适配,从而显著提升模型在开放场景下的鲁棒性。本文在多个标准数据集与任务上对T-ICM进行了全面评估。实验表明,在语义分割和实例分割等密集预测任务上,T-ICM在极低码率下仍能保持接近原始图像输入的分析精度,其性能显著优于H.266/VVC、基于深度学习的图像编码器以及现有的其他ICM方法。本研究通过将语义信息迁移至高度压缩的文本模态进行传输,并利用其引导特征重建,T-ICM在编码效率与任务性能之间实现了更优的权衡,为未来语义通信、边缘智能协同,以及自适应机器视觉系统的发展提供了新的思路与技术支撑。
摘要:红外与可见光图像融合(Infrared and Visible image Fusion,IVF)旨在结合两种图像模态中的互补信息,将红外图像中的显著目标与可见光图像的丰富纹理细节进行有效整合,从而生成在信息量与视觉质量方面均优于单一模态的融合图像。现有研究证实,基于深度学习的融合方法已在提升融合图像质量方面取得了显著进展,但这类方法大多仍局限于低层视觉特征层面的建模,对于高层语义信息与视觉特征之间的深层语义关联挖掘仍不充分。近年来,随着大规模视觉-语言模型(Vision-Language Models,VLMs)的快速发展,文本引导的图像融合方法因其灵活性与多样性而展现出巨大潜力。然而,文本语义信息的有效整合与利用仍有待深入研究。针对上述问题,本文提出了一种用于红外与可见光图像融合的文本语义引导方法(Textual Semantic Guidance,TeSG),该方法以下游目标检测与语义分割等视觉任务为目标,通过在融合过程中显式引入由VLMs生成的高层语义信息,实现对融合过程的精准调控。TeSG从两个层级引入文本语义信息:一是由VLMs自动生成文本描述,作为全局文本语义级引导,为融合过程提供高层语义约束;二是基于文本描述生成关键目标区域的掩码语义,实现对前背景区域的定位与差异化建模。基于此,本文设计了三个核心模块:语义信息生成(Semantic Information Generator,SIG)模块基于自动生成的文本描述生成掩码语义与文本语义;掩码引导交叉注意力(Mask-Guided Cross-Attention,MGCA)模块在掩码语义的指导下,对红外与可见光图像的视觉特征进行基于注意力的初步融合,实现掩码级别跨模态特征的交互;文本驱动注意力融合(Text-Driven Attentional Fusion,TDAF)模块通过文本引导注意力和门控机制实现语义级的融合与动态加权。实验结果表明,所提TeSG方法通过双层语义引导的融合范式,在保持多模态图像纹理和对比度方面均优于现有先进方法(State Of The Art,SOTA),并在下游目标检测与语义分割任务中也取得了更优的性能,相较于当前最优的图像融合方法平均提升了1.4%,验证了其竞争力与有效性。本文方法有效解决了现有图像融合算法文本与视觉特征的深层关联探索不充分的问题,实现了融合质量与下游任务性能的双重提升。
摘要:随着万物互联、智能感知及人机交互等技术的快速发展,复杂声场环境下的多声源分离已成为语音信号处理领域的重要的前端问题。然而,非平稳语音信号在不同时间和频率尺度呈现出不同的能量分布特性,其中既包括快速变化的共振峰结构,也包含相对平稳的谐波与周期信息。传统的单一时频分辨率分析方法在该场景下面临根本性约束:当分析窗较短时,频率分辨率不足,难以区分多个声源的谐波结构;而当窗长较长时,时间分辨率下降,又难以捕获语音快速变化的瞬态特征。因此,当前多声源分离方法在复杂声环境下往往表现出时频结构解析不足、语音细节丢失与分离失衡等问题。现有基于固定分辨率的分离方法在真实复杂声学环境中,常出现时频结构模糊、语音细节损失及分离后信号失真等问题,限制了系统在实际场景中的鲁棒性与可用性。为解决上述问题,所提方法实现了一种多分支并行的深度神经网络,每个分支独立处理由不同窗长生成的时频谱,并采用嵌套的层次化递归单元进行特征建模。具体而言,每个分支内部设计了两级递归模块:频率-空间建模单元(Frequency Long Short-Term Memory,F-LSTM)沿频带方向递归,提取跨通道的空间相关性与频域结构;时间-空间建模单元(Time Long Short-Term Memory,T-LSTM)沿时间轴递归,捕捉语音信号的长期动态演化与时序依赖性。此外,所提方法将不同分析窗生成的多组不同分辨率的时频谱并行输入网络,实现网络对于时间与频率分辨率的互补。在训练过程中,各分支通过共享的时域重建损失进行联合优化,推动网络学习跨分辨率的一致性表示与互补特征。每一个分支均设置嵌套结构以增强跨分辨率特征的交互与融合能力。在网络输出端,各分支估计的复数谱掩蔽经融合层集成,通过逆短时傅里叶变换重建时域信号,最终在时域和频域双重约束下进行端到端训练。所提多分辨率融合方案在高混响、多说话人环境下均能显著提升语音分离的客观指标与主观听感,且具备良好的结构灵活性,可迁移至其他基于时频分析的网络框架中,为未来面向复杂声场的多源分离模型设计提供了可扩展的思路与方法基础。
摘要:针对高渗透率分布式光伏接入配电台区引发的电压波动问题,提出一种计及台区电能质量的分布式电源电压调控策略。首先,基于台区拓扑结构构建分布式光伏-负荷节点连接关系图,以此为依据进行动态调控区域划分、关键电压节点筛选及多目标优化函数设计。在此基础上,构建了一种基于时频分类与混合专家网络(Mixture of Experts,MoE)的光伏出力预测模型,通过融合时域变化特征与频域周期规律,增强出力波动的分类表征能力,并借助MoE结构实现数据分类下的专业定向预测,从而显著提升预测精度与稳定性。进一步,以预测结果为输入,采用模型预测控制方法,将电压约束、有功功率输出及调控频率等多重限制条件直接嵌入滚动优化目标,生成前瞻式协同调控策略,以解决传统逆变器调控滞后、动作频繁及出力降额等问题。为提升台区级调控效率并降低计算负担,设计了具备自趋优更新机制的经验回放区,结合调控边界自感知规则,在预测完成后可触发精简调控模式,直接选取相似历史策略执行,并通过奖励机制持续优化策略库,从而在保证调控稳定性的同时大幅提升响应速度。仿真结果表明,所提方法在预测准确性上显著优于多种对比方案,其测试准确率达99.29%,标准差仅0.71%,波动范围控制在3.27%。在电压调控效果方面,该方法在负荷突增导致电压越下限、光伏出力波动引起电压越上限等多类场景中,均能实现快速且平稳的电压恢复:在电压越下限2%~10%场景下,调控完成速度较现有方法提升2.4倍以上;在越上限2%~7%场景中,调控速度快1.5倍以上,且全过程电压偏差始终维持在±2%以内,有效避免了频繁调控与发电损失;在电压越上限7%~10%场景中,通过降低有功功率输出实现压降,所提方法在2 s内即可完成调控,且有功功率输出较传统方式提升约3%,显著缓解了因过压保护导致的停机风险。综上所述,文章所提出的融合精准预测、滚动优化与经验回放机制的电压调控策略,不仅具有较高的预测精度与响应速度,而且能有效保障台区电压稳定并提升光伏出力,为分布式新能源从“规模扩张”向“质量提升”转型提供了可行的技术支撑。
摘要:意图分类是自然语言处理领域中的一项基础而关键的任务,其目标在于准确识别用户输入语句所表达的潜在意图,是对话系统、智能客服与人机交互等应用的重要技术支撑。近年来,基于深度学习的意图分类方法取得了显著进展,但其性能高度依赖大规模标注语料与稳定的领域分布,在实际应用中仍面临诸多挑战。尤其在短文本信息稀疏、标签语义抽象以及领域先验不足等低资源情境下,用户表达往往具有信息密度低、语义依赖隐含、表述方式多样等特点;同时,意图标签本身通常具有高度抽象性,不同标签之间语义边界模糊,现有模型难以仅凭文本内部的字面特征充分刻画深层语义与语境关联,进而制约了意图分类模型在低资源与跨场景条件下的泛化能力与鲁棒性。针对上述问题,本文从语义扩展与语境建模的角度出发,尝试突破传统监督学习对显式标注样本与表层字面特征的依赖。不同于将任务直接设定为零样本意图分类,本文在有监督学习框架下引入大语言模型的零样本语境联想能力,利用其蕴含的丰富世界知识与语义推理能力,扩展可学习的语义空间,从而弥补文本信息稀疏与标签语义不足所带来的建模缺陷。基于这一思路,本文提出一种基于大语言模型的零样本语境联想模型(LLM-based Zero-shot Context Association Model,L-ZCAM)。该模型通过构造结构化提示词,引导大语言模型从联想意图与标签定义两个互补视角生成与输入语句相关的补充性语境语义信息,实现文本内部特征与文本外部知识的联合挖掘,并对意图标签的语义内涵进行显式增强。在模型结构设计上,L-ZCAM采用多路特征编码与交叉注意力机制,对原始文本特征、联想语义特征及标签语义特征进行深度交互建模;同时,引入约束引导的联合损失函数,对联想语义与标签语义之间的一致性进行约束,以缓解语义噪声带来的干扰,实现文本内外信息的有效对齐。通过上述设计,L-ZCAM能够更好地感知多义模糊、标签抽象以及表达多样等复杂语境下的语义关联关系,从而提升意图判别的准确性与稳定性。实验结果表明,在CLINC150、Banking77和HWU64三个公开数据集上,L-ZCAM的宏平均F1分数分别较当前最新方法提升2.25%、1.28%和1.29%,在不同任务场景下具有更强的泛化能力与鲁棒性。
摘要:随着以扩散模型为代表的生成式人工智能在视觉内容合成领域持续取得突破,其生成的图像在视觉真实感与内容多样性方面已逼近甚至部分超越真实摄影水平。然而,技术的快速发展也使生成式图像,特别是可能用于恶意目的的深度伪造内容的检测与鉴别任务变得日益复杂与严峻。现有大多数检测算法在受控的实验室环境下能够表现出较好的性能,但在开放的真实场景中,一旦面临训练数据与测试数据之间存在显著分布差异的情况,例如遇到未知的生成模型、未见过的图像风格或经过复杂后处理的伪造样本,这些方法的泛化能力与鲁棒性往往明显不足。为应对上述挑战,本文从困难样本分类的角度出发,提出一种基于扩散伪影对比学习(Contrastive Learning of Diffusion Artifacts,CLDA)的生成式图像检测方法,通过多模块协同优化,以提升模型对生成图像的检测精度与鲁棒性。首先,基于高质量扩散模型构造具有挑战性的生成样本,为模型训练提供更丰富的数据基础。随后,设计伪影增强模块,引入潜在空间跨域增强策略,通过基于余弦相似度加权的特征插值方法扩展伪造特征空间;同时结合域损失机制,引导编码器学习不同伪造域的鉴别性特征,避免模型对特定伪造模式过度依赖。进一步地,提出一种基于潜在空间边界的对比损失函数,通过动态权重聚焦于决策边界附近的困难样本对,以增强模型对真实图像、生成图像及反演图像间细微差异的辨识能力,并将该损失与二分类交叉熵损失相结合,构建统一的多目标优化函数。为验证本文所提方法的有效性,本文在GenImage与DRCT-2M两个公开数据集上进行了对比实验。实验结果表明,经过本文框架优化后的检测器,在GenImage数据集上的平均准确率提升1.1个百分点,在DRCT-2M数据集上的平均准确率提升4.8个百分点。此外,在图像缩放、JPEG压缩、高斯噪声等干扰场景下,本文方法仍保持较高的平均检测精度,其鲁棒性显著优于现有对比方法。
摘要:文本输入组件是Web应用实现交互功能的重要组成部分,广泛应用于搜索查询、内容创作等操作场景,其输入内容通常受到语法和复杂业务规则的约束。若文本输入组件未能正确处理恶意或非预期的文本输入,可能导致应用崩溃。现有的Web图形用户界面(Graphical User Interface,GUI)测试工具未能充分考虑文本输入组件的约束关系,无法生成具有针对性的文本输入来检测应用中文本输入组件的错误。此外,现有方法通常忽略了多个文本输入组件之间还可能存在复杂的约束关系,难以生成多样化的文本输入组合。为此,本文提出了一种基于大语言模型(Large Language Models,LLMs)的Web应用文本输入组件测试方法LTICT(LLM-based Text Input Component Testing)。首先,LTICT从被测应用的HTML文件中提取文本输入组件的信息,以供LLM推断文本输入组件的约束关系,并据此引导LLM合成程序;然后,LTICT执行该程序来批量生成文本输入,以对文本输入组件进行测试;最后,LTICT将收集所测试文本输入组件的上下文信息和所生成测试数据的执行结果,反馈给LLM以帮助其分析多个文本输入组件间的约束关系,从而生成更多样化的文本输入组合。在4个开源Web应用上进行的实验结果表明,相比于广泛使用的自动化测试工具WebExplor、DBInputs、QTypist,LTICT检测文本输入组件错误的数量分别提升了34.21%、37.84%和8.51%。在检测文本输入组件错误的平均用时方面,LTICT比WebExplor、DBInputs、QTypist分别减少了10.69%、11.87%和6.99%。
摘要:针对低轨(Low Earth Orbit,LEO)卫星网络上行接入场景中用户规模庞大、业务产生随机、信息时效需求差异显著以及卫星载荷受限等问题,本文提出一种基于信息年龄(Age of Information,AoI)的动态用户调度与资源分配算法。具体来说,在考虑用户数据包随机产生的情况下,以最小化系统长时平均发射功率为优化目标,在满足用户最大长时平均AoI、每时隙受调用户数和服务质量(Quality of Service,QoS)需求的多重约束下,构建包含用户调度、波束成形与功率分配的长时联合优化问题,旨在保障用户信息时效性的同时有效降低系统长时平均功耗。鉴于该问题同时包含长时目标与约束,且优化变量相互耦合,难以直接求解,首先基于用户数据包产生的伯努利分布特性,引入李雅普诺夫优化理论,将原长时优化问题转化为逐时隙可解的漂移加惩罚上界最小化问题,从而实现在线动态决策并保证AoI约束的长期可满足性。接着,针对大规模用户接入场景下调度复杂度随用户数指数增长的问题,进一步基于用户角度信息设计谱聚类分组方法,将空间相关性低的用户划分至同组,从而降低组内干扰并提高传输可靠性。在此基础上,构造融合用户AoI状态、数据包产生特性及预估功耗的调度代价函数,实现兼顾信息时效性与功耗的低复杂度动态用户调度策略。在资源分配阶段,针对受调用户集相关波束成形与发射功率非凸耦合的问题,结合S-procedure与泰勒展开方法,将原非凸约束逐步转化为凸约束,从而设计满足QoS与功率约束的最优资源分配算法。最后,通过计算机对所提算法进行仿真验证。结果表明,相比于固定数量调度算法、贪婪AoI调度算法以及最小均方误差算法,所提算法在不同用户规模和AoI约束条件下均能有效保证用户信息时效性需求,并显著降低系统长时平均功耗,验证了所提算法在LEO卫星网络多用户接入场景中的有效性与优越性。
摘要:多模态对话情感识别(Multimodal Emotion Recognition in Conversation, MERC)通过融合文本、语音、视觉等多模态信息来识别对话中的情感状态。随着对话式人工智能和情感计算的快速发展,MERC成为情感计算和人机交互领域的研究热点。相比传统单一模态情感识别,多模态方法能够更全面、精确地捕捉情感的多维特征,如文本传递显性情感内容,语音提供音调、语速等隐性情感线索,视觉信息(如面部表情)则反映情感的非语言表现。这些模态信息相互补充,有助于提高情感识别的准确性和鲁棒性。然而,多模态情感识别面临诸多挑战:首先,不同模态的数据在信息表示上存在显著差异,传统的特征拼接或加权平均方法无法充分捕捉模态间复杂的交互关系,容易导致信息丢失;其次,情感识别任务常常遭遇局部噪声和离群样本干扰,影响模型稳定性;最后,情感识别的准确性与对话上下文的综合利用密切相关,情感往往受到前后文的影响,因此,如何有效提取和利用上下文信息是提高准确性的一大挑战。为应对这些问题,本文结合大语言模型(Large Language Model,LLM)与全局-局部跨域图结构,提出了LLM-EmoGraph方法,旨在实现多模态数据的精确融合与高效建模。该方法引入多模态掩码机制来处理不同模态之间的缺失和不一致信息,确保模型在信息不完整时依然保持较好性能。通过大规模跨域多图预训练,LLM-EmoGraph提升了多模态间及图结构间的迁移能力,增强了模型的鲁棒性。其创新的自适应双尺度特征融合策略实现了文本、语音和视觉信息的高效对齐,提升了情感识别精度,尤其在多模态高度交互的情境下表现优异。此外,结合大语言模型的弱监督层次化情感分类方案,通过逐层引导情感信息提取,有效避免了全局情感模式的干扰,使得即使在有限标注数据下,模型也能准确学习情感特征。实验结果表明,LLM-EmoGraph在多个基准数据集上显著超越现有主流方法,验证了其在多模态情感识别中的有效性和先进性。总体而言,LLM-EmoGraph通过创新的多模态融合策略、大规模预训练和弱监督学习方法,解决了多模态情感识别中的一系列问题,为提升情感识别系统的准确性和稳定性提供了有力支持。
摘要:点击率(Click-Through Rate, CTR)预测是推荐系统的核心任务,其目标是通过用户历史行为与项目特征建模,预测用户对候选项目产生点击行为的概率。然而,现有CTR方法在建模全局交互结构、提取多跳邻居信息及提升高维特征交互学习效率等方面仍存在问题。用户与项目之间的交互通常呈现多层次、强结构化的关联特征,若直接建模则计算量过大且难以捕捉不同层级邻域之间的语义关系,从而限制对潜在语义关联与用户偏好的深入挖掘,而且现有CTR模型多依赖传统神经网络的固定激活函数,在建模高阶非线性特征交互时灵活性不足,易出现特征冗余、泛化能力弱等问题,导致预测精度难以进一步提升。针对这些问题,提出一种融合混合社区划分与簇级特征提取的Kolmogorov-Arnold Networks(KAN)架构CTR预测模型(A KAN-CTR prediction model integrating Hybrid Community and Cluster-level Feature, HCCF-KCTR)。首先,设计一种层次化的混合社区聚类策略,结合粗粒度的全局社区划分与细粒度的簇内优化,将复杂的全局交互关系解构为结构清晰、语义连贯的簇级单元,在保留关键结构信息的同时显著降低建模复杂度。其次,基于全局社区划分结果对多跳邻居进行簇级映射,并引入簇感知注意力池化机制(Attention Pooling),动态评估每跳邻居在簇内及簇间的语义重要性,自适应分配注意力权重,生成高质量的多跳邻居簇级嵌入表示,以充分捕捉用户与项目间的多层次交互特征。最后,利用KAN网络可学习函数替代固定激活函数,构建多个跨跳跨簇特征组合,将复杂的多跳交互特征转化为可解释的低阶函数组合表达,实现结构信息与语义特征的深度融合,进一步提升模型的预测精度与表达能力。在MovieLens、Electronics、Book及Taobao四个真实数据集上与13种主流CTR模型进行对比,实验结果表明,在AUC、GAUC和LogLoss这3个指标上,所提模型HCCF-KCTR相对已有最优基线模型分别平均最少提升2.74%、2.19%、3.68%,验证了其在特征交互建模与预测方面的优越性。此外,本文还通过消融实验、参数敏感性实验以及模型效率实验,验证了各模块的必要性、协同有效性,以及模型在整体效率上的均衡性,进一步阐明了模型具有良好的泛化能力。