智能下沉是迈向泛在智能时代的必经之路,也推动了端智能(on-device intelligence)技术的飞速发展.通过在终端设备直接部署运行深度学习模型,端智能在实时性、安全性、个性化等方面具有天然优势,已在自动驾驶、卫星侦察、虚拟现实/增强现实(Virtual Reality/Augmented Reality,VR/AR)等众多场景广泛应用.然而,随着深度学习模型参数量不断增大,端侧受限的硬件资源已难以支撑不断增长的计算开销.为提升终端设备在模型推理的计算效率,研究人员从模型算法、编译软件、设备硬件等多个层面开展了系统性优化,有效推动了端智能的发展与演进.本文从算法、软硬件结合优化等方面对现有端侧深度学习模型推理优化工作进行了总结,涵盖模型压缩技术、模型-软件-硬件的协同设计、模型异构并行部署策略以及大模型的端侧优化技术.最后,本文梳理了当前端智能推理加速技术所面临的挑战,并对未来发展趋势进行了展望.
在互联网技术飞速发展,传统企业面临数字化转型的大背景下,作为数字时代数据基础设施,数据库面临大数据量、高可用、在线弹性伸缩、智能化、安全防护等方面的巨大挑战.为了应对诸多挑战,GaussDB应运而生,GaussDB提出分布式数据库的分布式查询优化技术提升了数据查询性能,提出分布式数据库的高可用容灾技术提升了企业数据的可用性和可靠性,提出分布式数据库的云原生计算存储分离和弹性伸缩技术提高了对存储等资源的利用率,提出分布式数据库的自治管理技术增强了数据库的智能管理,提出分布式数据库的全方位安全防护技术提高了数据的安全保护能力.GaussDB能支撑关键基础行业核心场景的数字化转型.
随着软件服务系统日益庞大、复杂,基于日志的故障诊断对保证软件服务的可靠性至关重要.已有的日志故障诊断方法虽然可以确定故障类型,但无法为其推理过程提供解释让运维人员信服,从而导致它们难以在实际生产环境中进行部署.为此,本文提出了一种全新的通过自动构建思维链指令提示(log Chain of Thought-Prompting,CoT-Prompting)来进行日志故障诊断的框架——LogCoT(Log Chain of Thought),它利用基于两阶段思维链提示工程(Auto-Few-Shot-CoT,Auto-FSC)算法,通过大语言模型(Large Language Model,LLM)提取日志的语义信息,从而生成可解释的根因分析报告.此外,LogCoT结合无类别标注的指令优化(prompt-tuning)工程和有类别标注的参数微调(preference-tuning)技术优化微调Mistral基座模型.然后通过大模型反馈身份偏好优化(Large-Language Model feedback Identity Preference Optimisation,LLMf-IPO)算法纠正Mistral生成的错误诊断结果,以更好对齐用户意图.最后,本文基于从一家互联网服务提供商和一家云服务提供商的生产环境中收集的两个日志数据集对LogCoT的性能进行了全面综合的实验评估.实验结果表明,LogCoT在Accuracy、Macro-F1、Weighted-F1等三个性能指标上均优于当前典型的基线模型,在两个数据集上比现有最佳模型的Accuracy分别高出31.88个百分点和10.51个百分点.
多输入多输出(Multiple-Input Multiple-Output,MIMO)系统规模日益增长,导致接收机信号检测计算复杂度急剧上升,传统检测算法难以在误码性能和复杂度之间取得良好平衡.基于马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)的检测算法能以多项式量级的复杂度实现近最优的检测性能,然而该方法在低采样数下性能损失严重.因此,本文引入了基于模型驱动的深度学习技术,将MCMC迭代过程展开为级联网络结构,向网络中引入可训练参数,通过深度学习方法优化参数设置.根据复杂度分析与仿真验证,所提方案在编码场景下的误码性能优于原始算法约1 dB,同时计算复杂度显著低于原始算法.为验证模型驱动深度学习方案在实际传输中的性能,搭建2 × 2 MIMO智能通信原型验证平台,并进行端到端空口传输测试.测试结果表明,模型驱动深度学习增强的MCMC检测算法可以更低的计算复杂度实现误码性能优势,从而证实了所提方案在实际传输环境中的有效性和鲁棒性.
永久散射体(Permanent Scatterer,PS)点选择是地基干涉合成孔径雷达(Ground-Based Interferometric Synthetic Aperture Radar,GB-InSAR)处理中的关键步骤.现有的PS点选择方法依赖于幅相稳定性或像元之间的高相干性筛选PS点,其中幅相稳定性对相位波动敏感,在一些情况下不能很好地表征PS点的相位误差,而基于高相干性的方法基于局部窗口,容易造成误检.针对上述问题,本文分析了GB-InSAR图像中PS点与非PS点的干涉相位在分布特征上的差异,并基于此提出了一种基于高斯混合模型(Gaussian Mixture Model,GMM)的PS点选择方法.首先在保证质量的前提下,选择足够数量的PS点作为先验参考信息,然后使用GMM拟合参考PS点干涉相位的概率分布,最后依靠全图像元的干涉相位序列与GMM的匹配程度区分PS点与非PS点.实测数据表明,与基于幅相稳定性的传统方法相比,在获得的PS点数量接近的情况下,本文方法获取的PS点的相关性更强,干涉相位序列聚合程度更高,且残差点数量更少.
电视制作播出(以下简称制播)呈现系统经历了从黑白到彩色、从模拟到数字的演进历程,目前正处于从高标清向超高清快速发展的阶段.传统电视高清基带系统信号传输速率仅为1.5 Gbps,无法承载4K/8K超高清信号(48 Gbps@8K,12 Gbps@4K),且高清电视亮度动态范围只有103,而人眼在无瞳孔调节时可视范围为105,因此超高清电视应按照人眼识别的能力,将亮度动态范围提升至105.本文针对超高清无压缩跨域多址互联网协议(Internet Protocol,IP)交换和高动态范围(High Dynamic Range,HDR)制播呈现等技术实现的难题,围绕全台4K/8K演播室、总控、播出及收录等超高清系统全链路的建设情况,全面介绍4K/8K超高清电视的制播呈现系统及关键技术,重点阐述系统超高清IP信号交换、8K超高清视频成像和图像处理、视频智能增强、扩展现实(eXtended Reality,XR)虚实融合制作、三维菁彩声、异构网络视音频同步传输和4K/8K超高清终端显示等技术创新点,以及超高清高动态特性的采集、制作、播出和呈现全流程节目制播能力.
回旋电子辐射涡旋电磁波量子的理论模型是量子态涡旋电磁波技术的关键.本文是“论回旋电子与涡旋电磁波量子”的一部分,建立“内禀和外部轨道角动量”相关理论模型.单个电子或电磁波量子可具有涡旋特征,并且它们由所携带的内禀轨道角动量决定.为了分析单电子能级跃迁辐射中内禀轨道角动量的传递,本文在自由空间和磁场的不同场景中理论计算了单个电子波包内禀轨道角动量的本征值,表明内禀轨道角动量仅由电子波包自身决定,但是外部轨道角动量受坐标系影响.内禀轨道角动量中的量子数改变时,应当表现为电子波包的膨胀或紧缩.本文还给出了电磁波量子在自由空间中的内禀轨道角动量和扭曲光纤中外部轨道角动量表达式,根据是否携带内禀轨道角动量,大量电磁波量子构成量子态轨道角动量电磁波和统计态轨道角动量电磁波.
为进一步提高格基后量子密码算法中多项式乘法的运算速率,同时考虑到不同格基密码中多项式乘法参数各异的现状,本文提出了一种面向高速的可重构数论变换(Number Theoretic Transforms,NTT)运算单元,并提出了相应的数据调度方案解决时序冲突和空间冲突问题.本文首先分析了不同格基后量子密码算法中NTT算法的运算特征,提出一款4×4的可重构运算单元,满足不同位宽的基2/3/4-NTT运算需求.其次,基于上述硬件设计提出了一种针对基4-NTT算法的数据调度方案,解决了高并行多流水级设计下的时序冲突问题.最后,提出了基于m-着色算法的多Bank数据存储方案,解决数据访问冲突的问题.实验结果表明,本文设计的硬件结构具备实现基2/3/4-NTT及其逆运算功能,能够支持Kyber、Dilithium在内的多种格基后量子密码算法,硬件支持最大并行度为4.为进一步验证本文硬件设计的优越性,在Xilinx Virtex-7器件上进行实验验证,工作频率达169 MHz,可在0.40 μs内完成NTT算法功能,ATP降低约42%;在40 nm CMOS工艺节点进行综合实现,与现有的设计相比,本文的硬件设计AT积降低18%~90%.
针对超大面阵CMOS图像传感器列总线建立时间过长的问题,本文提出了一种高速列总线信号读出方法.该方法基于负电容技术,将负电容电路集成到列级读出电路中,抵消列总线寄生电容对列总线信号建立时间的负面影响.同时,基于动态环路稳定性调节技术,平衡了读出速度与环路稳定性的设计矛盾.本文基于55 nm 1P4M CMOS工艺对提出的高速列总线读出方法完成了详细电路设计和全面仿真验证.在像素尺寸10 μm × 10 μm,尾电流为5 μA,列总线输出电压摆幅为1.2 V的设计条件下,列总线信号上升建立时间从1.721 μs减少至1.204 μs,降低了30.04%.列总线信号下降建立时间从5.780 μs降低至2.816 μs,降低了51.28%.此外,行固定模式噪声从1.30%降低到0.01%.在1.6 W的功耗下,本文设计的大面阵CMOS图像传感器的帧率和动态范围分别达到了27帧每秒和85 dB,为大面阵高速低功耗CMOS图像传感器的设计提供了一定的理论支撑.
空天异源图像特征提取难度较大,图像匹配精度较低,给无人机精确目标定位带来了不利影响.SuperPoint-SuperGlue算法由于其自监督,易训练,精度高等特性,近年来在图像匹配领域应用较为广泛,但针对空天异源图像匹配领域,SuperPoint特征提取能力仍有待提高.为提高空天异源图像匹配精度,本文提出基于改进SuperPoint的空天异源图像匹配算法.首先,将群智能增强模块(Spatial Group-wise Enhance,SGE)与全局注意力机制(Global Attention Mechanism,GAM)引入到SuperPoint编码器中构成补充编码器,一定程度上解决了图像特征分布不均匀以及弱纹理图像特征提取较难的问题;其次,为进一步增强算法特征提取能力,将补充编码器与原SuperPoint编码器进行并联构成组合编码器,结合二者优势,提取差异性更大的图像特征,减少对相似区域的特征点误匹配,提高空天异源图像的匹配精度;最后,通过实验验证,在UAV-VisLoc 数据集上80像素误差区间以内可匹配图像数量可达82.14%,与原SuperPoint算法相比,80像素误差区间以内可匹配图像数量提高了6.05%,与其他先进算法相比,在各像素误差区间以内可匹配图像数量均有提高.实验表明,本文提出的算法可以有效地解决空天异源图像匹配中特征提取能力较弱,特征分布不均匀等问题.
缺陷定量评价是无损检测领域研究的重点,超声波的扩散导致C扫描图像边缘模糊,影响缺陷定量精度.为了提高棒材缺陷定量的准确性,提出了基于声场特征和C扫描图像的棒材缺陷定量评价方法.基于多元高斯声束模型,根据超声波在曲面界面的传播规律,建立了水浸条件下棒材内部的声场模型,仿真得到棒料内部的声场分布,提取缺陷所在目标平面的声场特征值.以尼龙棒为研究对象,对含有不同深度、不同直径平底孔的尼龙棒试件进行超声C扫描成像,提取C扫描图像的特征值.建立数据集并训练随机森林回归模型,利用训练后的回归模型对测试集进行预测,得到的平底孔尺寸值比6 dB下降法的结果更接近于标准值,对于1.5 mm平底孔的定量误差为19.33%,下降了27.34个百分点.对含有自然缺陷的尼龙棒试件进行定量评价,结果表明该方法能够准确得到尼龙棒自然缺陷的尺寸信息.
卷积神经网络能够从大规模数据中学习图像先验信息,在图像处理领域具有优异表现,但局部感受野使其难以捕捉像素间的远程依赖关系.Transformer网络架构具有全局感受野,在自然语言和高级视觉问题上表现出色,但其计算复杂度与图像尺寸的平方成正比,限制了其在高分辨图像处理任务中的应用.此外,许多MR(Magnetic Resonance)图像重建算法仅使用幅值数据或将实部和虚部分离到两个独立的通道作为网络输入,忽略了复值图像实部和虚部之间的相关性.本文提出基于复数卷积和复数Transformer的混合模块,既能利用卷积神经网络提取的高分辨率空间信息恢复MR图像细节,又能通过自注意力模块获取的全局上下文信息捕获远程特征.基于混合模块,结合小波变换进一步提出基于小波域的复数卷积和复数Transformer的轻量级MR图像重建算法.在Calgary-Campinas和fastMRI两个数据集上的实验结果表明,所提出的模型与四种具有代表性的MR图像重建算法相比,具有更高的重建性能和更少的资源消耗.源代码公开于https://github.com/zhangxh-qhd/WCCTNet.
多波束卫星通信系统由于其可实现高吞吐量及高效资源利用而受到广泛关注.本文研究多波束卫星通信系统的波束调度及资源分配问题,综合考虑用户地理位置及业务特性,提出基于Optics的用户初始分组算法.为提升波束覆盖性能,设计基于最小圆的卫星波位点及覆盖半径优化方案.基于所确定的用户分组策略,定义系统成本函数,并将联合波束调度、子信道选择及功率分配问题建模为系统成本函数最小化问题.为求解所建模型的优化问题,首先引入聚合节点描述各用户组特性,并提出基于参数化深度 网络的联合波束调度及功率分配算法;然后基于所确定的用户组波束调度及功率分配策略,提出基于双深度 学习算法及基于近端策略优化算法的联合子信道及功率分配策略.仿真结果验证了所提算法的有效性.
在分布式相参雷达(Distributed Coherent Aperture Radar,DCAR)中,节点间需要频率同步,才能调整雷达各节点发射信号的时间和信号相位,完成分布式发射波束形成.但现有有线同步方法无法在可移动平台或复杂地形等场景下实现频率同步.为此,本文提出了一种分布式相参雷达的无线频率同步方法,用于发射波束的形成.首先,推导频率同步偏差与发射波束增益的量化关系;其次,将雷达节点分为一个主节点和多个从节点,提出一种二维相干测频算法,估计从节点相对于主节点的频率偏差,并对频率偏差进行了补偿,实现频率同步;再次,推导了所提方法的频率同步及波束形成性能界限;最后,通过仿真验证所提方法的性能与理论性能界限一致,通过合理选取同步信号参数,让频率同步结果满足分布式相参雷达发射波束形成需求.
面向高动态变化、时频混叠、未知干扰等因素,本文提出一种雷达有源电磁干扰视觉检测与参数估计方法,旨在提升雷达系统电磁兼容性与抗干扰能力.首先,基于电磁干扰信号建模仿真构建时频图像数据集,并利用自适应对比度与边缘增强网络(Adaptive Contrast and Edge Enhancement Network,ACEENet)进行预处理,强化边缘细节并抑制噪声;然后,利用所提降参增强网络(Parameter Reduction Enhancement Network,PRENet)、嵌入三重注意力机制的Slim-Neck(Slim-Neck with Triplet Attention Mechanism,Slim-Neck-TAM)与组合损失函数改进YOLOv8n目标检测算法,构建高精度电磁干扰视觉检测网络(Electromagnetic Interference Visual Detection Network,EIVDNet),实现干扰信号的模式识别与定位;最终,基于位置信息与参数估计原理实现干扰信号关键参数粗估计,并通过XGBoost回归算法修正后获得精确估计值.实验结果表明,所提方法电磁干扰信号检测精度与速度能够达到99.30%和82.75帧/秒,且参数估计总误差为1.01%,在低信噪比/干噪比与未知干扰情况下依然具有良好的感知性能,有助于提高雷达认知智能水平.
为保护用户隐私,许多平台为用户提供了匿名登录选项,迫使推荐系统仅能访问当前会话中的有限用户行为记录,进而催生了会话推荐(Session-Based Recommendation,SBR)系统.现有SBR技术在很大程度上沿用了传统非匿名用户行为建模思路,聚焦于序列建模以习得会话表征.然而,当会话长度偏短时,现有SBR技术性能衰减严重,难以应对以短会话为主的真实会话推荐场景.有鉴于此,提出一种通过频繁模式引导长会话生成的反事实推理方法(Counterfactual inference by frequent pattern guided Long Session Generation,CLSG),试图回答反事实问题:“如果会话内包含更丰富的交互物品,SBR模型预测结果将会如何?”CLSG遵循反事实理论的“归纳-行动-预测”经典三阶段推理流程.“归纳”:从已观测会话集合中构建频繁模式知识库;“行动”:基于所构建知识库生成反事实长会话;“预测”:度量已观测会话和反事实会话预测结果间的差异,并将其作为正则化项并入目标函数,以达到表征一致性的目的.值得注意的是,CLSG具有模型无关的技术特点,可对现有SBR模型实现普惠式赋能.三个基准数据集上的实验结果表明,CLSG提升了五款现有SBR模型的预测性能,在命中率(Hit Rate,HR)和平均倒数排名(Mean Reciprocal Rank,MRR)评价指标上均取得6%左右的平均性能提升.
二进制代码相似性检测(Binary Code Similarity Detection,BCSD)技术能够在无源代码的情况下检测二进制文件内在的安全威胁,在软件成分分析、漏洞挖掘等软件供应链安全领域中广泛应用.针对现有BCSD方法普遍忽略程序实际执行信息和局部语义信息,导致汇编指令语义表示学习效果不佳、特征提取模型的训练资源消耗过大以及相似性检测性能较差等问题,提出一种基于跨模态协同表示学习的二进制代码相似性检测方法(Cross-Modal coordinated Representation Learning for binary code similarity detection,CMRL).首先,提取汇编指令序列和编程语言片段语义间的对应关系并构建一个对比学习数据集,提出一种面向二进制代码的汇编指令-编程语言协同表示学习方法(Assembly code-Programming language Coordinated representations Learning method,APECL),将源代码的高层次语义作为监督信息,通过对比学习任务使汇编指令编码器APECL-Asm与编程语言编码器生成的特征表示在语义空间中对齐,提升APECL-Asm对汇编指令的语义表示学习效果.然后,设计一种基于图神经网络的二进制函数嵌入向量生成方法,通过语义结构感知网络对APECL-Asm提取到的语义信息和程序实际执行信息进行融合,生成函数嵌入向量.最后,通过计算函数嵌入向量之间的余弦距离对二进制代码进行相似性检测.实验结果表明,与现有方法相比,CMRL对二进制代码相似性检测的Recall@1指标提升8%~33%;针对代码混淆场景下的相似性检测任务,CMRL的Recall@1指标衰减幅度更小,具有更强的抗干扰能力.
注意力机制及其变体已广泛应用于基于深度学习的图像修复领域,它们将破损图像内部分为完好区域和缺失区域,捕获完好区域的远距离上下文信息以填充缺失区域.随着缺失区域增大,完好区域特征减少,限制了注意力机制的性能,从而导致修复效果不佳.为拓展注意力机制捕获上下文的范围,本文通过矢量量化码本学习视觉原子.这些视觉原子刻画了图像块的结构、纹理等特征,组成用于图像修复的外部特征,以弥补图像内部完好区域特征的不足.在此基础上,本文提出一种内外特征交互与融合的双流注意力图像修复方法.该方法结合内部和外部两个信息源,设计了内部掩码注意力和内外交叉注意力,组成双流注意力以实现内部特征之间以及内部和外部特征之间的交互,生成内外源修复特征.内部掩码注意力通过掩码屏蔽缺失区域特征的干扰,仅在完好区域捕获上下文信息,生成内源修复特征.内外交叉注意力通过计算内部特征与由视觉原子组成的外部特征之间的相似度关系,实现内外特征之间的交互,生成外源修复特征.此外,本文设计了可控特征融合模块,利用内外源修复特征之间的相关性生成空间权重图,为每个空间位置精确地筛选内外源修复特征,从而实现内部与外部特征的融合.在Places2、FFHQ和Paris StreetView三个公开的数据集上的实验结果表明本文方法在PSNR、SSIM、L1、LPIPS和FID指标上比其他先进方法平均提高了3.45%、1.34%、13.91%、13.64%和16.92%.消融实验结果和可视化实验结果表明图像内部特征与由视觉原子组成的外部特征均有益于修复破损图像.
复杂环境下行人轨迹短时预测在自动驾驶、社交机器人控制、智能安防及智慧城市等领域有着广泛用途.行人与行人、行人与环境之间的交互具有多尺度复杂性和不确定性,具有挑战.现有深度学习模型虽然有助于挖掘行人的复杂交互关系,但都假设行人轨迹在不同场景遵循相同运动模式,未考虑场景间存在的潜在分布差异;域适应模型虽然考虑了这一点,但仍未考虑行人间和行人环境间的多层次特性.为了解决上述问题,本文提出了一种基于分级包络域适应的行人轨迹预测模型.通过构造局部层次行人邻接关系设计局部层次包络样本,通过个体层次行人关系设计个体层次包络样本,并将两者融合形成双级包络样本.基于双级包络样本构造模块,求得行人轨迹的时空特征分布,从而构造全局层次包络样本.基于注意力机制和跨域分布对齐,分别设计了局部层次包络域适应模块和全局层次包络域适应模块,构建加权预测损失函数将两者融合一体,并联合优化.实验部分选取了2个有代表性的公共数据集,并与5个相关代表性算法模型进行对比.通过消融实验、参数分析、方法对比和轨迹可视化等来进行综合验证.在ETH和UCY的实验结果表明,相比于T-GNN,本文方法的平均位移误差降低了22.7%,终点位移误差降低了19.8%.文章完整版参见链接:https://github.com/LWZ9910/MESC-HEDA.git.
针对各行各业海量文本文档的智能合约化需求,提取文本关键数据要素是首要基础.与传统命名实体识别(Named Entity Recognition,NER)相比,合约要素提取(Contract Element Extraction,CEE)技术旨在提取泛在较长、更多样、较冗余合约要素,然而目前面临着中文研究不足、对新颖大语言模型(Large Language Model,LLM)技术应用不够充分、对文本上下文关联特征感知不足等挑战.本文首先提出了新颖的上下文语义感知动态填充方法(Context-sensitive Dynamic Padding Method,CDPM)、三重注意力层和要素边缘加权损失函数模块,在不增加硬件需求的前提下,为模型提供额外上下文语义信息,增强对上下文关联特征的感知能力,从而提升基于序列标注范式的CEE训练效率.其次,融合上述模块和BERT(Bidirectional Encoder Representations from Transformers)嵌入模型构建了一种基于上下文感知的合约要素提取模型(Context-Aware Model for Contract Element Extraction,CAM-CEE),实现了面向智能合约化场景的高性能要素提取.最后,在本文自主构建的数据集以及相关公开数据集上进行了大量实验.结果表明,本文提出框架CAM-CEE在micro F 1、macro F 1等指标上的性能超越最佳基线模型,并具有高通用性.
知识蒸馏是一种从复杂深层教师模型向轻量级学生模型迁移知识以提升性能的学习范式.针对教师模型分布知识多样性不足,以及构建学生模型架构的搜索空间导致大量资源消耗的问题,本文提出了一种基于低秩自适应的伸缩感知蒸馏(Low-rank Adaptation based Flexibility-Aware distillation,LAFA)方法.LAFA方法通过构建低秩变换矩阵,将教师知识分别变换到学生模型的知识和类别标签,以提高分布知识的多样性.同时,LAFA引入决策辅助器,动态伸缩学生模型容量,从而实现蒸馏性能与容量之间的均衡.进一步,本文提出热启动和松弛策略来优化决策变量.热启动策略通过约束学生模型缓慢增加容量,缓解因容量伸缩而导致的收敛困难.松弛策略则在蒸馏后期移除约束,以少量资源消耗实现显著的性能提升.在CIFAR-100数据集上,LAFA集成于13种蒸馏方法,平均性能提升了0.28个百分点.同时,消融实验和分析实验进一步验证了LAFA方法的有效性.
在现实生活中,人类情绪具有动态和多样化的特征,受外部环境、社交互动以及个体内在状态的共同影响.针对脑电情绪识别研究通常局限于实验室的静态场景,未能充分考虑情绪的动态连续性的问题,本文提出了一种基于改进TCNN算法的脑电动态连续情绪识别方法.首先,设计了适用于动态情境的脑电数据采集范式,使用64通道的脑电设备收集24名受试者在经历开心至平静、平静至开心、平静至悲伤、悲伤至平静、平静至紧张和紧张至平静六种动态连续情绪转变时的脑电信号,并进行了动态连续情绪标签的标注.其次,对现有的TCNN算法进行了改进,构建了一种双流网络模型进行动态连续情绪识别.该模型通过短期流利用时序卷积模块捕捉局部时间序列特征,而长期流则通过Transformer模块捕捉全局时间序列特征.最后,对提取的脑电特征进行特征层融合,以获得更加精准的动态连续情绪识别结果.结果表明:在采集的动态连续情绪数据集上,本文方法在六种情绪的valence和arousal上分别取得了最小误差均值0.083和0.084;在DEAP数据集上,valence和arousal的误差分别低至0.108和0.113.与四种传统机器学习算法以及GRU、CGRU、CNN、CNN-LSTM、CNN-Bi-LSTM、TCNN等六种深度学习模型相比,本文方法表现出了更高的识别精度和稳定性,能够有效满足应用场景的需求.
卷积神经网络是计算机视觉和目标检测等领域应用最成功的算法之一.随着高清图像和视频等数据爆发式增长,智能处理芯片需要更强的算力和更小的功耗.光子技术的多维特征和波动物理模型为高算力张量卷积运算提供了物理基础,有望从根本上突破电芯片在提升算力和降低功耗上不可逾越的物理限制.本文介绍高算力光学张量卷积运算芯片基础研究的研究动机、主要研究挑战与解决思路及未来展望,探讨限制光学张量卷积运算应用的主要因素,推动光学张量卷积计算从基础研究走向大规模应用.