+

网络首发


说明: 最新在线预出版文章已经经过评审,内容和格式未经编辑校对。但您仍可以通过 doi直接引用。

Please wait a minute...
  • 全选
    |
  • 邵志文, 陈必宽, 祝汉城, 周勇, 姚睿, 马利庄
    预出版日期: 2024-07-26
    摘要 (28) PDF全文 (20) HTML (28)   可视化   收藏

    面部动作单元(Action Unit,AU)识别是计算机视觉与情感计算领域的热点课题.AU识别属于多标签二分类任务,目前面临着标签不均衡等挑战.现有的主流算法利用AU之间的关联,通过调整采样率和AU的权重来进行标签重均衡化.然而,这些方法仅仅使模型预测时从偏向出现频率高的标签转为偏向出现频率低的标签,并未解决偏置问题.根据出现频率的高低可将AU划分为头类和尾类,公平对待每一类是实现AU无偏识别的关键.本文引入因果推理理论,提出基于因果干预的无偏化方法(Causal Intervention for Unbiased facial action unit recognition,CIU),以解决多AU间不均衡的问题.通过调整不平衡域和平衡但不可见域上的经验风险实现模型的无偏性.大量实验结果表明,本方法在基准数据集BP4D、DISFA上超越已有的方法,其中在DISFA上超越当前最先进方法1.1%,且可以学习到无偏的特征表示.

  • 孙中彬, 刁宇轩, 马苏洋
    预出版日期: 2024-07-23
    摘要 (95) PDF全文 (32) HTML (39)   可视化   收藏

    多标签分类任务广泛存在于现实生活中,然而其经常存在不均衡数据问题,严重影响了分类性能.目前解决该问题的主流技术为重采样方法,主要分为过采样和欠采样,过采样通过生成与少数类标签相关的样本,欠采样则是通过删除与多数类标签相关的样本.然而,这些方法都专注于解决一种不均衡问题,即标签内不均衡或标签间不均衡,导致在解决一种不均衡的同时可能引入另一种不均衡.针对该问题,本文提出一种基于安全欠采样的不均衡多标签数据集成学习方法ESUS(Ensemble learning method based on Safe Under-Sampling).首先通过标签划分将多标签不均衡数据集划分成单标签数据集和标签对数据集,针对单标签数据集,提出一种安全欠采样方法解决标签内不均衡问题,并利用采样后的均衡数据集构建二分类模型.对于标签对数据集,进行数据剪枝后利用集成学习解决标签间不均衡问题,在保持分类性能的同时降低时空复杂度.最后将单标签数据集模型和标签对数据集模型集成为最终的分类模型.在六个多标签不均衡数据集上的实验结果表明:和七种对比方法相比,ESUS方法在四个评价指标上更稳定有效.

  • 杨海林, 王珊, 彭迪, 张振荣, 向梦, 付松年, 李建平, 秦玉文
    预出版日期: 2024-07-12
    摘要 (79) PDF全文 (46) HTML (76)   可视化   收藏

    随着5G微基站建设密度急剧增加,因采用传统电缆供电方式,5G网络的建设成本和部署难度将大幅度提升.光纤信能共传技术作为一种新型供电方式,利用光纤作为传输介质,实现1 064 nm能量光和1 550 nm信号光的共同传输,同时满足高速信号的5G前传和5G微基站的集中化能量管理.本文提出一种基于空分复用技术的光纤信能共传方案,基于10 km弱耦合七芯光纤实验实现了10 W能量光和1.5 Gbit/s速率5G新空口(New Radio,NR)信号光的共同传输,远端通过光电转换效率为35%的光伏电池获得了0.42 W的电功率,可驱动一个远端天线单元(Remote Antenna Unit,RAU),7 h连续监测接收能量光功率的波动范围小于0.4%.与此同时,接收到的5G NR信号误差向量幅度值(Error Vector Magnitude,EVM)仅为0.38%,创纪录地实现了6.3 W·(Gbit/s)·km电功率-容量-距离积.

  • 黄河, 马瑞华
    预出版日期: 2024-07-12
    摘要 (61) PDF全文 (29) HTML (53)   可视化   收藏

    本文提出了一种低剖面的宽带双极化基站天线.该天线由两个相互交叉的扇形偶极子演变而来.首先,在扇形偶极子末端增加环形窄微带和金属化通孔,使天线端口输入阻抗增大,达到降低天线高度的目的.然后,增大扇形偶极子臂的张角,产生第二谐振点,提高天线带宽.该双极化天线工作在2.17~2.7 GHz频段,可提供22%的带宽.而且,由于两个偶极子围绕几何中心高度对称,该天线在工作频带内可以获得较高的隔离度和交叉极化鉴别度,其中隔离度仿真值可达51 dB, 0°交叉极化鉴别度仿真值可达48 dB.该天线的峰值增益仿真值高达9.6 dBi.综上所述,该天线具有高隔离、高交叉极化鉴别度和高增益等优点,在基站系统中具有良好的应用前景.

  • 席旭刚, 王成浩, 汪婷, 孔万增, 厉力华
    预出版日期: 2024-07-12
    摘要 (29) PDF全文 (22) HTML (24)   可视化   收藏

    基于表面肌电信号分解还原了肌电信号最原始的组成成分,通过分解后肌电信号段的特征研究神经肌肉系统中脑肌电信息传递规律,可以从生物电信息传递机理探索人体运动的本质.本文分别采集9名受试者最大抓握力量的15%和30%(15%MVC、30%MVC)所对应的EEG和sEMG信号.以形态学分解为基础对sEMG信号进行模板重构分解,获得运动单元动作电位MUAP,提取MUAP的幅值、数量和发射速率作为特征,基于该类特征与同步脑电信号的变化趋势以及传递熵值探索大脑皮层与肌肉的信息传递规律.不同抓握力量水平下,30%MVC提取的3个特征均比15% MVC的数值更显著,但两种力量水平提取的3个特征随同步脑电变化趋势相同:当EEG信号形成波峰或波谷信号时,MUAP数量、幅值和发射速率特征均呈现增加的变化趋势,其中MUAP幅值的增加趋势最为明显,且MUAP幅值特征与同步EEG信号的耦合(TE传递熵值)效果最好.虽然力量水平的不同会影响脑肌电信号强弱,但总体呈现的信息传递规律是一致的:当肢体肌肉收缩脑电信号增强而形成波峰或波谷时,MUAP数量、幅值和发射速率三个特征值均呈现上升的变化趋势,但MUAP幅值特征响应效果最好,该特征能较好体现人体运动控制过程中神经肌肉系统中的信息传递规律.

  • 曾裕钦, 蔡华洋, 周茹平, 刘耿耿, 黄兴, 徐宁
    预出版日期: 2024-07-12
    摘要 (51) PDF全文 (39) HTML (48)   可视化   收藏

    连续微流控生物芯片是生物化学实验自动化、微型化的革命性技术.多路复用器的控制模式分配作为连续微流控生物芯片自动化设计的关键环节之一,是NP(Non-deterministic Polynomial)难的优化问题.现有工作采用粒子群优化算法求解控制模式分配问题,存在过早陷入局部最优解、收敛速度慢以及算法稳定性差的缺点.为此,本文提出一种连续微流控生物芯片下基于混合离散粒子群优化的控制模式分配算法.首先,为了加快算法收敛速度以及避免过早陷入局部最优解,提出了离散的自适应区域搜索策略.其次,通过基于样例的社会学习机制提高了算法的稳定性.然后,采用等距抽值的方式筛选出自适应区域搜索策略中重要参数的最佳组合,以进一步提高分配方案的质量.最终实验结果表明,所提算法在多路复用器中阀门使用数量上平均优化了19.01%,在算法稳定性上改善了29.18%,且在现实的生化应用中有良好的性能表现.

  • 钟建奇, 林秋斌, 曹文明
    预出版日期: 2024-07-12
    摘要 (48) PDF全文 (37) HTML (4)   可视化   收藏

    随着社交网络的普及和多媒体数据的急剧增长,有效的跨模态检索引起了人们越来越多的关注.由于哈希有效的检索效率和低存储成本,其被广泛用于跨模态检索任务中.然而,这些基于深度学习的跨模态哈希检索方法大多数是利用图像网络和文本网络各自生成对应模态的哈希码,难以获得更加有效的哈希码,无法进一步减小不同模态数据之间的模态鸿沟.为了更好地提高跨模态哈希检索的性能,本文提出了一种基于迁移知识的跨模态双重哈希CDHTK(Cross-modal Dual Hashing based on Transfer Knowledge).CDHTK通过结合图像网络,知识迁移网络、以及文本网络进行跨模态哈希检索任务.对于图像模态,CDHTK融合图像网络和知识迁移网络各自生成的哈希码,进而生成具有判别性的图像哈希码;对于文本模态,CDHTK融合文本网络和知识迁移网络各自生成的哈希码,从而生成有效的文本哈希码.CDHTK通过采用预测标签的交叉熵损失、生成哈希码的联合三元组量化损失、以及迁移知识的差分损失来共同优化哈希码的生成过程,从而提高模型的检索效果在二个常用的数据集(IAPR TC-12,MIR-Flickr 25K)达上进行的实验验证了CDHTK的有效性,比当前最先进的跨模态哈希方法ALECH(Adaptive Label correlation based asymmEtric Cross-modal Hashing)分别高出6.82%和5.13%.

  • 郭向星, 周魏, 杨正益, 文俊浩, 杨佳佳, 刘蔓
    预出版日期: 2024-07-12
    摘要 (37) PDF全文 (61) HTML (1)   可视化   收藏

    基于图神经网络的社交推荐系统取得了较好的性能,然而,基于图神经网络的社交推荐模型存在以下挑战:基于图神经网络的模型的邻域聚集操作会放大用户的隐式行为中的噪声,使得用户和物品的向量表示存在偏差;用户物品图中的边和用户社交关系图中的边的异质性,导致基于图神经网络在两张图上学习到的用户向量表示存在于不同的语义空间,直接融合往往得到次优的向量表示. 针对上述问题,本文提出了基于自监督图卷积和注意力机制实现隐式反馈降噪的社交推荐模型.该模型从原始的用户物品图中捕捉用户的真实兴趣,生成降噪的用户物品交互图;提出一种新颖的用户向量融合方法,对异质的用户向量表示进行融合.在两个公开数据集上的实验结果表明,所提出的模型在不同数据集上的推荐性能均较基线模型有显著提升.在LastFM数据集上,推荐性能提升了1.18%至3.87%;在Ciao数据集上,推荐性能提升了3.56%至7.31%,通过消融实验验证了模型各个模块的有效性.

  • 李景聿, 陈拓潮, 李明哲, 徐栩海, 张铖, 徐子晨, 刘譞哲, 黄罡, 冯云, 许辰人
    预出版日期: 2024-07-09
    摘要 (51) PDF全文 (59) HTML (49)   可视化   收藏

    移动增强现实应用中,用户频繁地与环境中不同的智能物体交互完成任务,其完成效率和用户体验由所采用的定向交互技术决定.然而,从交互手段上来说,现阶段定向交互依赖于Wi-Fi、BLE等无线技术,其信号全向传播的特点使其不能利用用户的空间环境(即位置和方向)来缩短互动时间,带来了不必要的时间成本;从交互界面上来说,现阶段基于视觉的界面存在可靠性低、扩展性低等问题,进一步限制了系统的通用性.本文介绍了 RetroAR——基于可见光逆反射通信的定向交互系统.RetroAR利用了光的定向传播特性来保留用户的空间环境,并依靠逆反射通信实现用户与目标设备之间无连接的快速定向交互.系统实验表明,RetroAR最远可在4 m距离支持100°视角的交互,同时实现厘米级的六自由度(6-Degrees Of Freedom, 6-DoF)三维跟踪.用户研究表明,与基于Wi-Fi的解决方案相比,RetroAR将非接触式控制的交互时间减少了2倍,并且具有更好的用户体验.RetroAR借助可见光逆反射通信来利用用户空间环境,保持交互过程中的直观性.用户可以“所指即所控”的方式与多个目标进行互动,实现类似自然交互的快速定向交互.

  • 柴蓉, 刘磊, 梁承超, 陈前斌
    预出版日期: 2024-06-28
    摘要 (107) PDF全文 (106) HTML (104)   可视化   收藏

    多波束卫星通信系统由于其高吞吐量和高资源利用率而受到广泛关注.已有研究考虑多波束卫星通信系统的信道或功率分配问题,但较少考虑用户分组和动态资源分配策略的联合优化设计,导致系统性能受限.此外,现有研究往往假设固定的波束覆盖半径,忽略了波束覆盖半径可变性对波束覆盖性能提升的影响.本文研究了多波束卫星通信系统中的用户分组和资源分配问题,提出了一种两阶段资源管理方案.针对动态和多样化的用户服务需求,首先设计一种基于Voronoi图的迭代用户分组算法以实现分组之间的负载均衡,然后将子信道和功率分配问题建模为系统平均效用函数最大化问题.为解决该问题,将每个波束视为一个智能体,采用一种基于多智能体深度Q网络(Deep Q-Network,DQN)的算法来确定子信道和功率分配策略.仿真结果表明,与K-均值用户分组方案相比,本文所提出的基于Voronoi图的迭代用户分组算法对应的用户组负载差异值可降低49.2%,体现了本文所提算法在实现用户组间负载均衡方面的优势.此外,本文所提两阶段资源管理方案与现有文献中所提算法相比,系统所提供容量与用户需求差值可降低83.43%,体现了本文所提算法在实现系统资源高效利用及用户服务需求保障方面的性能优势.

  • 种一宁, 李珏, 乔明
    预出版日期: 2024-06-24
    摘要 (86) PDF全文 (68) HTML (77)   可视化   收藏

    本文利用半超结结构进行高压超结功率金属氧化物半导体(Metal Oxide Semiconductor,MOS)器件的设计,基于Sentaurus TCAD(Technology Computer Aided Design)仿真平台设计超结元胞结构并优化高压超结功率MOS器件的击穿电压与导通电阻,随后探究了寄生电容的特性.最后,基于多次外延工艺自主设计出一款器件结构仿真击穿电压1 658 V、工艺仿真击穿电压1 598 V、比导通电阻值303 mΩ·cm2的高压超结功率MOS器件,与相同耐压值器件相比,比导通电阻值下降约50%.同时探究了超结掺杂浓度与厚度以及电压支持层掺杂浓度与厚度4个主要结构参数对器件寄生电容特性的影响.

  • 彭自然, 许怀顺, 肖伸平
    预出版日期: 2024-06-18
    摘要 (158) PDF全文 (205) HTML (152)   可视化   收藏

    大部分光伏电站地处偏僻、地形复杂的区域,受到外界环境的影响,易发生各种故障.而传统的光伏阵列故障诊断方法存在精度不高以及光伏数据利用率低等问题.针对以上问题,本文先是通过引入Levy飞行策略和步长因子动态调整策略改进麻雀搜索算法(Sparrow Search Algorithm,SSA),降低SSA算法陷入局部最优的风险,提升SSA算法的寻优能力.然后采用改进的Levy步长调整麻雀搜索算法(Levy Adjustment Sparrow Search Algorithm,LASSA)对CatBoost模型关键超参数进行寻优,提出了一种基于CatBoost并以LASSA为优化策略的光伏阵列故障诊断模型LASSA-CatBoost,以实现光伏阵列的短路、开路、老化和阴影遮挡故障的精确诊断.实验结果表明,LASSA-CatBoost模型的故障诊断准确率为99.7%,相较于优化前的CatBoost模型,准确率提高了3.6%.与现有的光伏阵列故障诊断模型相比,LASSA-CatBoost模型的准确性和稳定性更高.

  • 王卫杰, 刘燕婻, 赵振国
    预出版日期: 2024-06-15
    摘要 (100) PDF全文 (92) HTML (88)   可视化   收藏

    场-路耦合仿真可以支持跨越芯片-封装-系统的多层级协同分析,多物理场仿真能够对多物理约束下芯片封装的信号完整性、电源完整性以及可靠性进行提前设计.因此,针对场-路结构的多物理场耦合仿真能够实现在初期对芯片封装的设计方案进行筛选和优化,是先进封装仿真技术最重要的发展方向之一.本文基于场-路耦合仿真和多物理场耦合仿真方法的最新研究进展,提出针对非线性场-路结构的频域仿真方法以及电磁-热耦合计算方法.本文提出的频域仿真方法能够解决基于时域仿真方法的场-路耦合仿真的长时间迭代问题,实现多物理约束下非线性场-路结构的电磁与热特性快速分析.计算结果验证了本文方法的准确性和高效性.

  • 陈喆, 王品清, 周培根, 陈继新, 洪伟
    预出版日期: 2024-06-15
    摘要 (123) PDF全文 (100) HTML (111)   可视化   收藏

    本文基于45 nm 互补金属氧化物半导体绝缘体上硅工艺(Complementary Metal Oxide Semiconductor,Silicon On Insulator,CMOS SOI)工艺设计了一款支持5G毫米波24.25~27.5 GHz和37~43.5 GHz双频段的低相位噪声压控振荡器(Voltage Controlled Oscillator,VCO).基于CMOS SOI工艺良好的晶体管开关特性,结合开关电容阵列及开关电感方案,提高宽带调谐电容、电感Q值,扩展VCO工作频段,降低相位噪声.同时,输出匹配网络也采用开关电容切换方式,实现了5G毫米波双频段良好阻抗匹配及稳定功率输出.流片测试结果表明该VCO可以完整覆盖5G毫米波双频段24.25~27.5 GHz和37~43.5 GHz,低频段输出功率-4.8~0 dBm,高频段输出功率-6.4~-2.3 dBm.在24.482 GHz载频,1 MHz频偏处的相位噪声为-105.1 dBc/Hz;在43.308 GHz载频,1 MHz频偏处的相位噪声为-95.3 dBc/Hz.VCO核心直流功耗15.3~18.5 mW,电路核心面积为0.198 mm2.低频段(高频段)的FoM(Figure of Merit)及FoMT优值分别达到-181.3 dBc/Hz(-175.4 dBc/Hz)、-194.3 dBc/Hz(-188.3 dBc/Hz).

  • 刘文犀, 张家榜, 李悦洲, 赖宇, 牛玉贞
    预出版日期: 2024-06-14
    摘要 (131) PDF全文 (171) HTML (126)   可视化   收藏

    伪装目标检测旨在检测隐藏在复杂环境中的高度隐蔽物体,在医学、农业等多个领域有重要应用价值.现有方法结合边界先验过分强调边界区域,对伪装目标内部信息的表征不足,导致模型对伪装目标的内部区域检测不准确.同时,已有方法缺乏对伪装目标前景特征的有效挖掘,使背景区域被误检为伪装目标.为解决上述问题,本文提出一种基于边界特征融合和前景引导的伪装目标检测方法,该方法由特征提取、边界特征融合、主干特征增强和预测等若干个阶段构成.在边界特征融合阶段,首先,通过边界特征提取模块获得边界特征并预测边界掩码;然后,边界特征融合模块将边界特征和边界掩码与最低层次的主干特征有效融合;同时,加强伪装目标边界位置及内部区域特征.此外,设计前景引导模块,利用预测的伪装目标掩码增强主干特征,即将前一层特征预测的伪装目标掩码作为当前层特征的前景注意力,并对特征执行空间交互,提升网络对空间关系的识别能力,使网络关注精细而完整的伪装目标区域.本文在4个广泛使用的基准数据集上的实验结果表明,提出的方法优于对比的19个主流方法,对伪装目标检测任务具有更强鲁棒性和泛化能力.

  • 贺超波, 成其伟, 程俊伟, 刘星雨, 余鹏, 陈启买
    预出版日期: 2024-06-12
    摘要 (77) PDF全文 (115) HTML (67)   可视化   收藏

    动态社区发现旨在检测动态复杂网络中蕴含的社区结构,对于揭示网络的功能及演化模式具有重要研究价值.由于相邻时刻网络的社区结构具有平滑性,前一时刻网络的社区划分信息可以用于监督当前时刻网络的社区划分过程,但已有方法均难以有效提取这些信息来提高动态社区发现性能.针对该问题,提出一种融合节点变化信息的动态社区发现方法(Semi-supervised Nonnegative Matrix Factorization combining Node Change Information, NCI-SeNMF). NCI-SeNMF首先采用k-core分析方法提取前一时刻社区网络的degeneracy-core,并选取degeneracy-core中的节点构造社区隶属先验信息,然后对相邻时刻网络的节点局部拓扑结构变化程度进行量化,并将其用于进一步修正社区隶属先验信息,最后通过半监督非负矩阵分解模型集成社区隶属先验信息进行动态社区发现.在多个人工合成动态网络和真实世界动态网络上进行大量对比实验,结果表明NCI-SeNMF比现有动态社区发现方法在主要评价指标上至少提升了4.8%.

  • 雷天亮, 吉立新, 王庚润, 刘树新, 巫岚
    预出版日期: 2024-06-12
    摘要 (97) PDF全文 (90) HTML (80)   可视化   收藏

    用户轨迹识别作为一项重要的时空数据挖掘任务,广泛应用于基于位置的个性化服务推荐、行程规划、犯罪行为检测和目标跟踪等领域,但依然面临预测精度不高的问题,主要原因是轨迹数据低采样且稀疏、轨迹类别数量巨大等.针对上述问题提出了基于可拓展自注意力时空图卷积神经网络的用户轨迹识别模型(Expandable Self-Attention Spatio-Temporal Graph Convolutional Neural Networks,ESAST-GCNN),该模型采用时空图卷积神经网络方式,深度挖掘时序特征与空间特征关系并进行预测与拓展,结合自注意力机制获取用户轨迹特征向量内部相关性,最终根据该特征向量进行用户轨迹身份识别.在两个真实数据集上进行测试后发现,ESAST-GCNN相较于TULER-GRU(TUL via Embedding and RNN)在Geolife与Gowalla中准确率分别提高了13.95%、10.63%,实验结果表明ESAST-GCNN优于其他模型,识别效果更好、适用范围更广.

  • 刘文杰, 吴青山, 查颖, 王海彬
    预出版日期: 2024-06-12
    摘要 (48) PDF全文 (45) HTML (43)   可视化   收藏

    在变分量子算法中,参数化量子线路拓扑结构的选择对算法性能具有重要意义.目前已有的拓扑结构存在着一些问题,如全连接拓扑结构所需量子门数量较多,环型拓扑结构的表达能力与纠缠能力略有欠缺.为了解决以上问题本文提出了一种新型的区块环(Block-Ring,BR)拓扑结构,在保障良好性能同时减少参数规模(即量子门数量),降低线路复杂度.在BR拓扑中,n个量子比特被等分为多个区块,每个区块包含m个量子比特,区块内部所有量子比特两两连接,区块之间采用环型结构进行连接.为了构造BR拓扑结构的参数化量子线路,我们设计了一种多层线路生成算法,可自动生成由单量子比特门Rx、Rz和双量子比特门CRx或CRz构成的量子线路.IBM Q模拟实验表明,相较于环型拓扑结构,无论单层、双层以及三层BR拓扑结构的表达能力和纠缠能力均有不同程度的提升;相较于拥有最高表达能力与纠缠能力的全连接拓扑结构,BR拓扑呈现接近的性能指标,且线路复杂度显著降低,即参数数量与双量子比特门数量均从On 2)降低为Omn),线路深度从On 2)降低为On/m+m 2).

  • 李鑫, 陆伟, 马召祎, 朱攀, 康彬
    预出版日期: 2024-06-12
    摘要 (123) PDF全文 (145) HTML (119)   可视化   收藏

    当前,图Transformer主要在传统Transformer框架中附加辅助模块达到对图数据进行建模的目的.然而,此类方法并未改进Transformer原有体系结构,数据建模精度还有待进一步提高.基于此,本文提出一种基于图注意力和改进Transformer的节点分类方法.该方法构建基于拓扑特征增强的节点嵌入进行图结构强化学习,并且设计基于二级掩码的多头注意力机制对节点特征进行聚合及更新,最后引入归一前置及跳跃连接改进Transformer层间结构,避免节点特征趋同引起的过平滑问题.实验结果表明,相较于6类基线模型,本文方法在不同性能指标上均可获得最优评估结果,且能同时兼顾小规模和中规模数据集的节点分类任务,实现分类性能的全面提升.

  • 姜文涛, 高原, 袁姮, 刘万军
    预出版日期: 2024-06-07
    摘要 (137) PDF全文 (130) HTML (129)   可视化   收藏

    为了提取更具表达能力和区分度的重点特征,减少网络传递时关键特征的流失,提高神经网络图像分类能力,提出一种新的门控机制图像分类网络(Image Classification Network of Gating Mechanism,GMNet).首先,使用门控卷积提取浅层特征,通过门控机制选择性地进行卷积操作,提高网络对原始图像关键特征的提取能力;其次,设计了一种插值门控卷积(Interpolation Gated Convolution,IGC)模块,利用Lanczos插值与门控卷积相结合,强化浅层特征的同时提取更具区分度的特征,提高特征的非线性表达能力;然后,设计了大核门控注意力机制(Large Kernel Gated Attention Mechanism,LGAM)模块,将大核注意力与门控卷积相融合,实现了特征的选择性增强和选择性融合,提高关键区域特征的贡献度;最后,将大核门控注意力机制模块嵌入到残差分支中,让模型更有效地学习输入数据的特征和上下文信息,减少关键特征在网络信息传递时流失,提高网络的分类能力.本文方法在图像数据集CIFAR-10、CIFAR100、SVHN、Imagenette、Imagewoof上分别达到了97.05%、83.68%、97.68%、90.60%、83.05%的分类准确率,与当前先进的方法相比分别平均提高了3.26%、7.08%、3.44%、2.65%、5.02%.与现有主流网络模型相较,本文门控机制图像分类网络能够增强特征的非线性表达能力,提取更具表达能力和区分度的重点特征,减少关键特征流失,提高关键区域特征的贡献度,有效地提高神经网络图像分类能力.

  • 师硕, 覃嘉俊, 于洋, 郝小可
    预出版日期: 2024-06-07
    摘要 (61) PDF全文 (41) HTML (58)   可视化   收藏

    视听双模态情感识别是情感计算领域的研究热点.目前情感识别方法存在无法同时提取视频局部和全局特征,多模态数据融合简单,损失函数在模型优化中无法关注错分样本等问题,导致情感识别结果精确度不高.本文提出一种基于改进的ConvMixer和动态权重焦点损失函数的视听情感识别方法.采用空间和时间邻接矩阵代替ConvMixer中的深度分离卷积,提取视频时域空域上的全局和局部特征.提出跨模态时间注意力模块,以对称结构捕捉模态间的时间相关性,提高特征融合效果.结合混淆矩阵计算具有动态权重的焦点损失函数,差异化地加大错分样本在损失中的占比,优化模型参数.在公开数据集上的实验结果表明,本文方法能提取到代表性特征,有效地优化网络结构,提高了情感识别的准确率.

  • 余毅丰, 钱江波, 严迪群, 王翀, 董理
    预出版日期: 2024-06-05
    摘要 (91) PDF全文 (160) HTML (76)   可视化   收藏

    对长序列的动画线稿帧进行着色是计算机视觉中一项具有挑战性的任务.一方面,线稿中包含的信息较为稀疏,需要着色算法对缺失的信息进行推断;另一方面,连续帧之间的色彩需要保持一致,以确保整个视频的视觉质量.现有的着色算法多数只针对单张图片进行着色,这类算法只给出一个开放性的符合合理范围的色彩结果,无法适用于帧序列着色.另一些基于参考帧的着色算法,并没有将2帧之间的关系有机地联系起来,导致着色效果不够出色.在同一镜头序列中,同一对象的特征往往不会发生太大变化,因此,可以设计一个根据给定参考帧,即可给线稿自动着色的模型.为此,本文提出了基于CNN(Convolutional Neural Networks)和Transformer相结合的模型Cross-CNN,该模型能够从参考帧中寻找并匹配颜色,从而保证时间维度上的特征一致性.Cross-CNN模型参考帧和线稿帧在通道维度叠加,输入预训练的Resnet50网络提取局部融合特征,将融合特征图传给Transformer结构进行编码以提取全局特征.在Transformer结构中设计了交叉注意力机制更好地匹配远距离特征.最后使用带有跳层连接的卷积解码器完成着色图片输出.本文在数据集方面从8部电影中截取画面并经过严格筛选,最终制作了一个包含20 000对二元组的数据集用于实验研究.Cross-CNN的SSIM(Structural SIMilarity)达到了0.932,高于SOTA算法0.014.本文算法代码链接:https://github.com/silenye/Cross-CNN.

  • 项秋艳, 訾玲玲, 丛鑫
    预出版日期: 2024-06-05
    摘要 (71) PDF全文 (86) HTML (60)   可视化   收藏

    精确的在线异常检测方法是物联网行业发展的核心,其中,以复杂和动态数据流为对象的在线异常识别是研究热点.现有在线异常检测方法存在处理复杂性负载过重问题,离线深度异常检测方法则存在因数据分布变化导致概念漂移问题.针对上述问题,本文提出了改进自适应模型池的在线异常检测框架,该框架可以与基于自动编码器的异常检测方法协作实现在线异常检测.首先,利用基于自动编码器的异常检测模型进行基本异常识别;其次,以自适应模型池为基础,融合概念漂移检测算法准确识别概念漂移,适应动态变化的数据流,解决概念漂移现象;最后,优化自适应模型池的模型合并方法,提升在线异常识别能力.实验结果表明,相比自动编码器模型的流变体和原自适应模型池算法,提出的算法在异常检测精度指标上分别提升了20.2%和5.83%,同时,最佳精度指标高于现有在线异常检测算法约16.7%.

  • 钟钰彬, 杨鹏, 窦磊
    预出版日期: 2024-06-05
    摘要 (67) PDF全文 (61) HTML (62)   可视化   收藏

    由于跟踪过程目标不规则形变的影响,采用固定纵横比的尺度模型无法精确地估计目标的尺度.为解决该问题,本文提出基于纵横比自适应的相关滤波跟踪算法.基于fDSST(fast Discriminative Scale Space Tracking)算法,训练学习纵横比模型,更新目标的纵横比,获取更精确的目标尺度,在此基础上,本文设计了平滑修正方案以及学习率自适应机制,可以有效地缓解因目标出现遮挡导致的模型漂移问题.在OTB100、VOT2016和VOT2018数据集上与其他跟踪算法进行对比实验,结果表明本文算法改善了基准算法的性能.特别是在OTB100上的总体准确率和成功率比fDSST提高了9.6%和6.2%.

  • 陈爽, 田烨, 付莹
    预出版日期: 2024-06-04
    摘要 (86) PDF全文 (77) HTML (81)   可视化   收藏

    量子图像传感器(Quanta Image Sensor,QIS)具有超高的单光子灵敏度与空间分辨率,因此其有望成为替代CMOS的下一代图像传感器.然而,从QIS获取的原始数据是二进制的图像帧,因此需要采用图像重建算法从二进制观测值中恢复原始场景.现有的方法包括基于模型的QIS图像重建和基于深度学习的QIS图像重建,其中基于模型的QIS图像重建通常需要进行大量的优化迭代,且对内部参数选择高度敏感.而基于深度学习的QIS图像重建则往往需要对每个具有细微不同的任务设计和训练单独的网络模型,灵活性欠缺并在很大程度上限制了其实用性.为了解决上述QIS图像重建方法的局限性,本文提出一种基于强化学习的免调参即插即用单光子图像重建方法.该方法能够自适应地对不同输入图像、不同过采样倍率和重建所处的不同迭代轮次动态选取合适的参数,实现更好的重建效果.具体地,本文将即插即用框架下的QIS图像重建任务中需要手动调整的参数建模为序列决策问题,引入结合无模型强化学习和基于模型强化学习思想的算法学习一个最佳策略,以实现对于不同输入图像在每次优化迭代时的最优超参选择.在合成和真实数据集上的实验结果表明,本文提出的方法可以在过采样倍率为4、6、8三种情况下,在峰值信噪比上相较现有先进方法提高约0.44~0.60 dB,在重建的视觉效果上也能够保留更多的纹理细节.真实极暗光QIS图像数据已在https://github.com/ying-fu/Real-SPAD-Dataset公开.

  • 李青, 钟将, 倪航
    预出版日期: 2024-06-03
    摘要 (52) PDF全文 (53) HTML (42)   可视化   收藏

    图异常检测作为一项重要的数据挖掘任务,专注于识别与大多数节点显著偏离的异常节点.随着无监督图神经网络技术的进步,现已开发出了基于密度估计、对抗生成网络等多种高效识别图数据中潜在异常的方法.然而,这些方法更注重无监督图异常检测生成高质量的表征,而往往忽略了图异常的特性.因此,本文提出了一个双通道异构图异常检测模型(Dual-Channel Heterogeneous Graph Anomaly Detection,HD-GAD).其模型基础架构包括双通道的图神经网络:全局子结构感知的图神经网络和局部子结构感知的图神经网络,用于图异常检测捕获全局和局部子结构属性.同时,基于对偶推断引入了多超球体学习目标(Multi-Hypersphere Learning,MHL),在从宏观和介观超球体角度,分别测量在整个图/社区结构中偏离的异常节点.HD-GAD模型利用相似度函数EmbSim优化训练目标,以缓解多超球面学习中的模型坍问题.最后,在五种不同的数据集上进行了全面的实验.其AUC值在大多数情况下均超过了0.9,达到了行业领先水平,进一步证明了HD-GAD模型在图异常检测任务上的高效性与性能优势.

  • 梁博, 刘锦辉, 张晓鹏, 谭雯丹, 张馨丹, 刘刚
    预出版日期: 2024-05-31
    摘要 (92) PDF全文 (103) HTML (85)   可视化   收藏

    模数转换器(Analog-to-Digital Converter,ADC)是连接模拟信号域与数字信号域的关键器件,而现有研究缺乏ADC辐照效应建模的相关内容.为满足大型模数混合信号系统辐照效应建模仿真的需要,本文提出了建立具有辐照效应的ADC行为级模型的方法.本文首先根据ADC的工作原理将其拆解为不同的通用模块,使用模拟和混合信号硬件描述语言(Very High speed integrated circuit hardware Description Language for Analog and Mixed Signals,VHDL-AMS)建立了各模块的行为级模型,接着根据基本原理将各模块动态组合为未辐照情况下基本的ADC模型.对于ADC的辐照效应,通过开展辐照试验,测量了ADC芯片HWD7710和SAD9434受总剂量(Total Ionizing Dose,TID)效应和中子辐射(Neutron Radiation,NR)效应影响的工作参数,并利用最小二乘法拟合获得ADC的工作参数与辐照剂量的关系式.最后根据辐照关系式,在基本模型上添加辐照参数模块并建立两种不同结构ADC的TID与NR模型.通过仿真结果与试验数据对比,验证了所建ADC辐射效应模型的普适性和精度.模型的静态参数仿真结果与试验结果的相对偏差在5%以内.结果证明该方法支持对不同ADC及不同辐射效应进行辐照效应模型建模.

  • 何鹏, 王良军, 张武, 朱文浩
    预出版日期: 2024-05-31
    摘要 (64) PDF全文 (40) HTML (55)   可视化   收藏

    基于格子Boltzmann方法的多层网格局部加密技术,通过多尺度网格计算不同层次的流动特征,避免了单层均匀笛卡尔网格中的低效率与计算资源的浪费,但仍存在并行性能上的不良影响.本文考虑并行计算中的负载均衡效应,从单层网格出发,通过考虑多层网格的运算特点来研究基于负载均衡的网格划分方法.同时,将网格划分与程序实现进行分离,在单层和多层网格中均完成了任意网格划分下的并行计算.在单层网格中,以二维血管流动的不同并行策略为例,研究了负载量划分与不同进程的各自时间开销的关系.在多层网格中,首先论述了多尺度网格在运算顺序上的特征,其次以三种不同的多层网格验证二维翼型绕流的计算结果,最后在每种网格中均使用三种不同的网格划分方法进一步探讨负载均衡与时间开销的关系.在128核的高性能计算平台上进行并行性能测试,强可扩展性可达到60%左右,弱可扩展性可达到82.78%.这种高可扩展性结果表明本文通过改进负载均衡性能,明显提升了多层网格计算中的并行性能.

  • 康海燕, 王骁识
    预出版日期: 2024-05-28
    摘要 (151) PDF全文 (201) HTML (134)   可视化   收藏

    基于差分隐私的深度学习隐私保护方法中,训练周期的长度以及隐私预算的分配方式直接制约着深度学习模型的效用.针对现有深度学习结合差分隐私的方法中模型训练周期有限、隐私预算分配不合理导致模型安全性与可用性差的问题,提出一种基于数据特征相关性和自适应差分隐私的深度学习 方法 (Deep Learning Methods Based on Data feature Relevance and Adaptive Differential Privacy,RADP).首先,该方法利用逐层相关性传播算法在预训练模型上计算出原始数据集上每个特征的平均相关性;然后,使用基于信息熵的方法计算每个特征平均相关性的隐私度量,根据隐私度量对特征平均相关性自适应地添加隐私预算为ε1的拉普拉斯噪声;在此基础上,根据加噪保护后的每个特征平均相关性,合理分配隐私预算,自适应地对特征添加隐私预算为ε2的拉普拉斯噪声;最后,理论分析该方法(RADP)满足ε-差分隐私,并且兼顾安全性与可用性.同时,在三个真实数据集(MNIST,Fashion-MNIST,CIFAR-10)上的实验结果表明,RADP方法的准确率以及平均损失均优于AdLM(Adaptive Laplace mechanism)方法、DPSGD(Differential Privacy with Stochastic Gradient Descent)方法和DPDLIGDO(Differentially private deep learning with iterative gradient descent optimization)方法,并且RADP方法的稳定性仍能保持良好.

  • 张启坤, 朱亮, 韩桂锋, 刘梦琪, 金保华, 李元章
    预出版日期: 2024-05-28
    摘要 (73) PDF全文 (81) HTML (62)   可视化   收藏

    针对边云协同应用场景中多域间终端的安全通信、信息安全交换及安全资源共享等问题,提出一种基于动态属性权限的群组密钥协商(Group Key Agreement, GKA)协议,为应用场景中的群组终端之间建立了一条安全的通信信道.协议提出了一种密钥证实算法,解决了传统方案中密钥生成和密钥分发造成的安全隐患;采用隐藏属性认证技术实现对终端身份认证,同时,保障了终端的身份和属性信息不被泄露;采用属性基加密(Attribute-Based Encryption,ABE)与牛顿插值多项式相结合的方式,能够支持安全细粒度的GKA;采用非对称计算,将计算任务转移到边缘服务器上执行,减轻终端的计算量;利用区块链技术不可篡改的特性,实现终端身份和通信信息的完整性验证和数据的可追溯性.此外,该协议支持属性权限动态更新,保障群组的新鲜性.通过与应用的文献进行对比分析,本协议在计算时间、计算能耗和通信能耗方面具有较好的性能.

  • 刘兵, 李穗, 刘明明, 刘浩
    预出版日期: 2024-05-28
    摘要 (58) PDF全文 (32) HTML (49)   可视化   收藏

    现有多样化图像描述生成方法受到隐空间表示能力和评价指标制约,很难同时兼顾描述生成的多样性和准确性.为此,本文提出了一种新的多样化图像描述生成模型,该模型由一个条件变分推断编码器和一个生成器组成.编码器利用全局注意力学习每个单词的隐向量空间,以提升模型对描述多样化的建模能力.生成器根据给定图像和序列隐向量生成多样化的描述语句.同时,引入内省对抗学习的思想,条件变分推断编码器同时作为鉴别器来区分真实描述和生成的描述,赋予模型自我评价生成的描述语句的能力,克服预定义评价指标的局限性.在MSCOCO数据集上的实验表明,与传统方法相比,在随机生成100个描述语句时,多样性指标mBleu(mutual overlap-Bilingual Evaluation Understudy)提升了1.9%,同时准确性指标CIDEr(Consensus-based Image Description Evaluation)显著提升了14.6.与典型多模态大模型相比,所提出方法在较小参数量的条件下更适用于生成多样化的陈述性描述语句.

  • 化青龙, 张云, 任航, 姜义成, 徐丹
    预出版日期: 2024-05-27
    摘要 (67) PDF全文 (33) HTML (49)   可视化   收藏

    在合成孔径雷达(Synthetic Aperture Radar,SAR)系统中,舰船目标在中高海情下的三维转动会导致多普勒频谱时变和图像散焦,并对后续SAR舰船目标的信息解释造成不利影响.针对三维转动舰船目标的重聚焦问题,本文提出一种基于最小熵准则与生成对抗网络的SAR三维转动舰船目标重聚焦方法,设计了生成器和判别器的网络结构.生成器将散焦SAR舰船复图像变换到距离-多普勒域,利用相位误差系数估计网络逐距离单元估计相位误差系数,并实现对多阶次相位误差的补偿.判别器由一个复数域卷积神经网络构成,其所有元素,包括卷积层、激活函数、特征图和网络参数,均被扩展到复数域.损失函数中引入最小熵准则和对抗损失进行无监督训练,避免非合作舰船目标标注样本难以获取的问题.在仿真数据和高分三号SAR数据上的实验表明,该方法在重聚焦精度和效率上均有显著提升.

  • 吕建行, 李玉榕, 陈建国, 高宁
    预出版日期: 2024-05-27
    摘要 (43) PDF全文 (73) HTML (35)   可视化   收藏

    心电信号广泛应用于心脏疾病的医学检测中,可穿戴动态心电监测设备可以实现对心律失常的风险识别并预警.相比于静息心电信号,动态心电信号在采集过程中会受到更大运动伪迹的干扰,这些干扰会覆盖心电信号的关键信息,限制其临床应用.本文兼顾心电信号局部和全局特征,利用其周期性,研究了一种将心电信号低频PT波和高频QRS波群分开处理的两步式自适应阈值滤波算法,适用于单通道心电信号中的运动伪迹滤除.第一步先通过多分辨率阈值初步抑制心电信号低频部分中的运动伪迹;第二步,对受运动伪迹影响而不平衡的QRS波进行自适应阈值修复,通过对QRS波形调节,减少心电信号中高频部分运动伪迹,同时设置自适应阈值对心电信号P波、T波对应的小波系数进行处理,超出自适应阈值范围的小波系数通过波形缩放进行调整,进一步抑制低频运动伪迹.研究通过不同心电数据库评估算法的性能.在输入信噪比从-10 ~10 dB时,心电信号信噪比提升了10.912 2 dB和4.391 2 dB,滤波后心电信号与纯净心电信号的相关系数分别为0.687 6和0.978 3,提取的运动伪迹与原运动伪迹相关系数分别为0.953 0和0.852 9.实验结果表明,算法在不同噪声水平下,利用自适应阈值的优点,能有效复原受运动伪迹污染的心电信号波形特征,最大限度保留心电信号的临床信息,可作为可穿戴心电设备滤除运动伪迹的有效工具.

  • 柳秀秀, 杜秀娟, 韩多亮
    预出版日期: 2024-05-27
    摘要 (31) PDF全文 (23) HTML (23)   可视化   收藏

    随着智慧海洋的发展,水声网络多媒体数据的传输受到学者关注.水声网络高度动态的拓扑导致相邻节点数据传输不完整,压缩的水下图像或视频等数据对重建数据的质量有不同影响,因此水声网络需要具有不等差错保护(Unequal Error Protection,UEP)的编码机制来编解码重要性不等的多媒体数据.递归与限制反馈的在线喷泉码(Recursive Online Fountain Code with Limited Feedback,ROFC-LF)具有开销低、反馈少及编译码简单等特点,因此适用于水声网络.本文针对水声信道带宽窄、延时长及能量受限等特点,系统地分析了ROFC-LF编码机制建立阶段存在的环问题.针对ROFC-LF编码存在的环和无法提供UEP功能这两个问题,本文提出了两个优化目标.此外,还提出了具有不等差错保护的避环ROFC-LF编码机制.该编码机制减少了由于建立阶段最大组件存在环引起的无用编码包的数量,进而降低了网络能耗.不等差错保护的避环ROFC-LF编码机制在建立阶段和完成阶段分别采用权重策略和数据优先级策略来实现UEP特性,并利用随机图理论对该编码机制进行理论分析,理论结果和仿真实验结果一致.结果表明:该编码机制能够快速的恢复重要数据的同时,降低了编码包的数量,适用于网络拓扑结构动态变化的水声网络传输重要性不等的多媒体数据.

  • 李思聪, 王坚, 宋亚飞, 王硕
    预出版日期: 2024-05-27
    摘要 (71) PDF全文 (59) HTML (63)   可视化   收藏

    随着网络威胁的日益严峻,恶意代码的检测与分类变得尤为关键.传统分析方法依赖手动特征提取,不仅耗时且难以跟上恶意代码的快速变异.相比之下,深度学习技术在恶意代码分类方面展现出巨大潜力.然而,模型复杂度和资源消耗仍是实际部署的难题.本研究提出了LKRepNet(Triple-Channel Large Kernel Reparameterisation Network),该网络专注于轻量化设计,旨在确保检测性能的同时降低计算和内存需求.通过提出的三通道映射技术,将恶意代码的多维信息有效转换为图像通道,增强了特征的区分性.结合卷积神经网络(Convolutional Neural Networks,CNN)和Transformer的优势,设计了一个高效的深度学习架构,并通过重参数化技术优化了连接路径,以降低内存消耗并提升运行效率.此外,引入的线性训练时间过参数化和大卷积核技术进一步降低了模型的参数量和计算负担.通过实验证明,LKRepNet在提升恶意代码分类精度的同时实现了模型的轻量化,与现有技术相比,展现出更佳的性能和更广泛的应用潜力,特别是在资源受限和需要实时检测的环境中,提供了一种有效的解决方案.

  • 周新民, 熊智谋, 史长发, 杨健
    预出版日期: 2024-05-23
    摘要 (119) PDF全文 (230) HTML (115)   可视化   收藏

    当前,越来越多的医学图像分割模型都采用Transformer模型作为基础结构,然而,Transformer模型的计算复杂度与输入序列呈二次关系且需要大量的数据进行预训练才能取得较好的结果,在数据量不足的情况下无法发挥优势;此外,Transformer往往无法有效提取图像的局部信息.相比于Transformer,卷积神经网络则能够很好地规避上述两个问题.为了充分发挥卷积神经网络与Transformer的各自优势并进一步挖掘卷积神经网络的潜力,本文提出一个多尺度卷积调制网络模型(Multi-Scale Convolution Modulation Network,MSCMNet),该模型将视觉Transformer领域模型结构设计方法融入传统卷积网络.采用卷积调制和多尺度特征提取策略,构建基于多尺度卷积调制机制的特征提取模块(Multi-Scale Convolution Modulation,MSCM).并提出高效的patch组合与patch分解策略分别用于特征图的下采样以及上采样,进一步提升模型的表征能力.在腹部多器官、心脏、皮肤癌以及细胞核四个不同类型以及不同规模的医学图像分割数据集上取得的mDice分别为0.805 7、0.923 3、0.923 9、0.854 8,以较低的运算量和参数量取得了最好的分割性能,为卷积神经网络以及Transformer在医学图像分割领域提供了一个新颖而高效的模型结构设计范式.

  • 黄俊炀, 陈宏辉, 王嘉宝, 陈平平, 林志坚
    预出版日期: 2024-05-22
    摘要 (140) PDF全文 (146) HTML (133)   可视化   收藏

    场景文本图像超分辨率(Scene Text Image Super-Resolution, STISR)旨在提高文本在低分辨率图像中的分辨率和可读性.但是在空间变形或低分辨率的文本图像中,由于缺乏文本区域细节,语义线索和视觉特征信息难以与字符位置匹配对齐,文本识别效果不佳.针对该问题,该文提出多域字符距离感知的场景文本图像超高分辨率重建方法(Perceiving Multi-domain Character Distance super-resolution, PMDC),强化视觉语义特征,提高文本区域和纹理信息.首先,采用非对称卷积以及语义先验信息模块,提取文本图像的视觉和语义特征信息;其次,融合字符距离感知模块中的视觉和语义特征,得到增强位置编码感知字符间的间距变化和语义相似性;最后,结合引导线索和视觉特征对像素进行重组得到超分辨率文本图像.在公开数据集TextZoom上的实验结果,与最近TATT文本超分网络性能相比,在峰值信噪比指标上提高0.11 dB,有效提高文本清晰度和边缘纹理细节,同时提升1.5%的平均识别准确率,改进文本图像的可读性.

  • 张换香, 彭俊杰
    预出版日期: 2024-05-20
    摘要 (48) PDF全文 (155) HTML (42)   可视化   收藏

    方面级情感分析是一种细粒度的情感分类任务,在实际应用中具有广泛的应用前景,正因为如此,得到了广泛关注与研究,尤其是近年来,基于依赖树的图神经网络和基于注意力的网络模型的研究取得了较大进展.但是,由于在线评论表达的复杂性和依赖关系不易解析使得这些方法在情感分析的性能上得不到有效提升.为了克服这些挑战,本文提出了一种同时考虑句法语义和上下文语义的深度语义挖掘模型(Deep Semantic Mining Model,DSMM).具体地,为了深度挖掘句法背后隐含的深度语义,模型采用并行的图卷积和多头注意力机制挖掘丰富的语义;为了充分利用句法语义和上下文语义的内在关联关系,采用了关联注意力机制获取句法语义和上下文语义的相关性,并且采用自适应方面路由机制有效获取方面的情感语义,并在此基础上,通过引入基于依赖树的语义位置嵌入,进一步增强方面-意见词的关联.在三个公共数据集上的实验结果表明,我们的模型在复杂句情感分析中,既能从不同语义空间挖掘句子的语义特征,也能有效利用句法特征强化句子的语义表征,在分类准确率和泛化能力上的表现优于相关工作.

  • 黄晋维, 鲍长春, 周静
    预出版日期: 2024-05-20
    摘要 (55) PDF全文 (36) HTML (46)   可视化   收藏

    对基于神经网络的丢包隐藏方法而言,输入特征是直接影响最终恢复效果的重要因素.此外,如何通过丢包隐藏恢复高自然度的语音,也是亟待解决的难题.为有效恢复丢包语音并提高自然度,本文提出了一种基于先验梅尔谱和神经声码器的语音丢包隐藏方法.所提方法采用一种非对称的编解码网络结构.在编码端,该方法用两个独立的编码网络分别从时域波形和梅尔谱中提取深层时频特征.在解码端,该方法将时频深层特征一同送入由时序自适应反归一化层构成的声码器中,以恢复丢失的语音信号并提高自然度.仿真实验表明,所提方法在语音感知质量和短时客观可懂度上均要优于现有的两种丢包隐藏算法.

  • 章子旭, 简志华
    预出版日期: 2024-05-20
    摘要 (60) PDF全文 (48) HTML (50)   可视化   收藏

    在任意说话人语音转换中,训练阶段通常采用编码器对同一说话人语音进行解耦,然后用解码器进行自重构,而转换阶段的解码器是对源语音的内容信息与目标语音的个性特征进行耦合,因此解码器在转换阶段与训练阶段会存在性能失配现象,影响语音转换性能.对此提出了一种采用双重交换表示分离的语音转换方法DERS-VC(Double Exchange Representation Separation Voice Conversion).该方法在训练阶段的自重构过程中,用同一说话人的语音模拟不同说话人的语音进行自监督训练.训练过程引入转换不变损失和周期循环一致损失,通过双重交换表示分离的循环过程使自重构语音与原始语音更加逼近.实验结果表明,DERS-VC算法在梅尔倒谱距离(Mel-Cepstral Distortion,MCD)上比现有的AGAIN-VC(Activation Guidance and Adaptive Instance Normalization Voice Conversion)转换方法平均降低了4.03%,平均意见分(Mean Opinion Score,MOS)提升了3.62%,转换语音质量和相似度都有提高.这说明,通过双重交换表示分离的方法可以更好地训练解码器,实现更好性能的任意说话人之间的语音转换.