摘要:语音是现有嵌入式移动设备广泛使用的一种输入接口.尽管现有的云端服务提供商提供了强大的语音语言理解(Spoken Language Understanding,SLU)服务,但也对用户隐私造成了极大的威胁.为此,基于信息解耦的隐私保护编码器被提出,以在不影响SLU功能的前提下,从语音信号中移除敏感信息.然而,这些编码器往往需要较高的内存和复杂的计算,因而在资源受限的小型设备上难以实际应用.本文基于大量实验观察到了一个关键现象,即SLU依赖于整个语句的全局信息,而隐私敏感词的识别则多为局部信息依赖.利用这一观察,我们提出了一个面向语音意图理解的高效编码器(SImpLe ENCodEr designed for efficient privacy-preserving SLU offloading,SILENCE)系统.我们在STM32H7微控制单元上实现了该系统,并在不同的攻击场景下评估了其效果.实验结果表明:SILENCE在语音意图提取任务的性能和隐私保护能力上可与传统隐私保护编码器媲美,同时实现了高达53.3倍的速度提升和134.1倍的内存占用减少,首次在内存仅有1 MB的微控制单元上实现了隐私保护的SLU服务.
摘要:时频表征的准确性直接影响脑电信号内在含义和动态特性的解析.针对基于多小波的时频表征方法中存在的尺度固定、回归项选择不当等问题,本文提出一种基于尺度自适应稀疏多小波的时频表征框架,以提升表征精度.该方法通过稀疏贝叶斯学习-信息熵联合优化,从全局角度筛选时变模型的最优回归项,有效规避传统方法的局部收敛缺陷;进一步,为小波基分配尺度,从最优个体、粒子群变异和种群更新3个方面改进遗传算法并进行尺度寻优,实现小波基与最优尺度的自适应匹配,增强多小波基对时变信号的拟合能力.最终,估计的时变参数经由参数谱估计转化为准确的时频表征.在3个仿真模型的实验结果表明,所提方法至少降低23.08%的时变参数估计误差,增强2.93%的时频信息估计精度,在动态参数跟踪和时频信息估计上展现出强大竞争力.在BCI Competition II-data set III的实验结果显示,所提方法在估计事件相关同步/去同步的性能较先进时变建模方法增强(3.37→8.78);进一步将所提方法提取的时频信息与简单卷积神经网络结合,即可在BCI Competition IV-data set 2b中取得与最先进但复杂的分类模型相当的识别准确率(88.04%),侧面证实了所提方法的时频表征能力.本文方法从模型结构筛选、寻优算法改进和基函数尺度配置3个方面进行设计,实现时变参数估计准确率与时频分辨率的协同提升,为脑电信号处理提供了一种新方法.
摘要:为了解决在遮挡环境下的实时手势识别问题,本文提出了一种基于远距离无线电(Long range Radio,LoRa)信号的实时手势识别算法.该算法利用LoRa信号频段较低、穿透性较好的特性,通过两根接收天线计算信号比值,并结合短时傅里叶变换(Short-Time Fourier Transform,STFT)得到包含手部运动特征的时频图.在此基础上,设计了Gesture Encoder编码器进行手势时频图的特征提取,从而得到体现手势特征的特征向量,进而用于手势的分类识别.本算法不仅有效解决了实际应用中有物体遮挡场景下的识别问题,还提出了系统状态转换机(System status Transition Machine,STM)和数据增强方法,实现了对手势开始和结束时间的精准控制,从而完成了手势的自动分割与实时识别.最终,在搭载Android系统的边缘计算设备上进行了系统部署,并在遮挡场景下进行测试.实验结果表明:所提出的手势识别系统能够在边缘设备上高效、准确地完成手势分类,具有较强的实用价值和应用前景.
摘要:Spark作为通用的计算引擎,以其简单、快速、可扩展的优势,被广泛地应用于大数据的处理和分析中.然而,Spark默认采用哈希分区或范围分区对数据进行划分,导致其在处理键倾斜分布的数据时,常常出现各分区数据量严重不均衡的问题.诸多优化方法被提出,如迁移分区、贪心分区、反馈分区等,但往往存在数据传输量大、额外计算成本高、运行时间长等问题.为更好地缓解键倾斜分布问题带来的影响,本文提出了一种自适应的Spark数据均衡分区方法.该方法引入了奖惩思想对数据分区过程进行适当调控,同时对于数据量较大的键进行分割,使得各个分区的数据量相对均衡.该方法首先对数据采样并预估键权重.其次,按照键权重对样本数据降序排列,确保所有分区都有初始数据.再次,根据奖惩分配策略,自适应地更新各个分区的分配概率,并将待分配的键指向分配概率最高的分区.对于超过分区容量的键的数据,则分割为多个部分且指向不同分区.在所有样本数据分配完成后,获得自适应分区方案.在实际分区时,对于样本中出现的键对应的数据按照自适应分区方案进行分配;对于未出现的键对应的数据,则按照哈希方法进行分区.最后,通过实验验证,基于新方法设计的自适应均衡分区器(Adaptive Data Balanced Partitioner,ADBP)能够有效缓解键倾斜的负面影响.在真实数据集上,ADBP的WordCount程序总运行时间比自带分区器Hash、Range分别平均缩短了1.51%、29.90%,比现有基于学习自动机的自适应哈希分区器(Learning Automata Hash Partitioner,LAHP)、对倾斜的中间数据块进行拆分合并(Splitting and Combination algorithm for skew Intermediate Data block,SCID)算法、粗粒度放置和细粒度放置(Fined-Coarse Grained Intermediate Data Placement,FCGIDP)算法分别平均缩短了8.12%、21.64%、19.62%.
摘要:现有会话推荐模型长于提取用户当前偏好,但不善于捕捉用户兴趣随时间和情境的动态演变,难以从短时交互序列数据中提取项目之间的隐性关系.本文提出了一种基于邻域与超图协作学习会话推荐模型(Neighborhood and Hypergraph Collaboration for session-based Recommendation model,NHG-Rec),首先综合利用自适应多跳超图卷积和邻域卷积,以同时捕捉项目间的显性和隐性关系;然后利用基于上下文感知的位置动态注意力机制,来挖掘会话内各项目的重要程度,从而捕捉用户实时兴趣;再采用多视图会话嵌入,通过局部-全局对比学习策略,以期捕捉项目间的多维特征、辨别语义差异.实验结果表明:对于Tmall、Diginetica、Nowplaying这3个基准数据集,相比SR-GNN、GCE-GNN、DHCN等主流基准模型,该模型的P@10、P@20、MRR@10、MRR@20性能指标分别平均提升了12.38%、5.47%、6.53%、6.39%.NHG-Rec模型能够捕捉用户兴趣的动态变化和项目间的多维关系.
摘要:情感识别是人机交互智能化的关键环节.脑电(ElectroEncephaloGram,EEG)信号因其蕴含丰富的生物信息且难以伪装,成为情感分析的重要载体.然而,EEG信号特征复杂多变,且存在显著的个体间差异和时变性,导致传统机器学习方法的情感分类准确率低、泛化能力差.针对这一挑战,本文提出了一种基于重构迁移子空间多视角领域适应(Reconstructed Transfer Subspace based Multi-View Domain Adaptation,RTS-MVDA)方法.该方法将不同特征视为独立视角,通过多视角学习探索各视角的独特性和重要性,并探索其互补关系.其核心在于将源域与目标域的多视角数据投影到一个带有低秩约束的重构迁移子空间.在该子空间中,RTS-MVDA一方面利用重构项恢复原始数据信息,并通过低秩表示保留主要判别信息;另一方面,RTS-MVDA实施线性变换对齐源域和目标域,减少领域间的分布差异.此外,RTS-MVDA构建多视角监督判别项和全局结构保持项,多视角监督判别项利用源域标签信息增强类内紧凑性和类间分离性,全局结构保持项保持数据在迁移子空间中的全局结构分布,从而更有效地将源域的判别知识迁移至目标域.在公开DEAP(Database for Emotion Analysis using Physiological signals)数据集上的实验验证表明:所提RTS-MVDA方法在唤醒度和效价维度上分别达到了73.15%和72.91%的平均准确率,其Precision、Recall和F1-score指标均显著优于相关对比方法,有效提升了跨被试EEG情感识别的准确性和泛化能力.
摘要:准确预测学生答题表现是智能导学系统为学生提供个性化学习服务的先决条件.认知诊断和知识追踪作为主流的学生表现预测方法,均将学生表现仅归因于知识状态,而忽视了学生答题过程中的应试心理状态,限制了模型预测精准性的进一步提升.为此,本文将学生的应试心理状态融入以知识为中心的学生表现预测模型中,并结合认知诊断可解释与知识追踪动态预测的互补优势,提出了一种应试心理状态增强的学生表现预测模型(Test-taking psychological state enhanced Student Performance Prediction model,TSPP).该模型通过捕捉习题与学生答题行为之间的复杂高阶关系,对学生应试心理状态进行建模;同时通过提取异构知识图中丰富的节点间关系对学生动态知识状态进行建模;最后设计了一种渐进式融合门,其采用可解释渐进式的方式融合应试心理状态与知识状态,得到可解释的预测结果.在3个真实世界数据集上的大量实验结果表明,TSPP模型在AUC(Area Under the Curve)和ACC(ACCuracy)2项指标上,相较于9种对比模型的平均表现,分别提升了6.05%和7.27%,在RMSE(Root Mean Square Error)指标上降低了6.76%.此外,通过对TSPP中的应试心理状态和知识状态进行可视化分析,并探究其可解释性参数的优势,本文进一步验证了TSPP的可解释性.
摘要:从自然界中动物的正常生存到工业中机器的安全运作,碰撞感知能力始终至关重要.受蝗虫视觉神经元LGMD(Lobula Giant Movement Detector)的启发,许多仿生的计算模型已经被用于实时可靠的碰撞感知.然而,受限于二维单目的输入信号,目前的方法难以捕捉运动目标的深度特征,进而无法满足在复杂的真实动态场景下进行迫近感知的需求.因此,本研究提出一种融合生物似然性运动通路和视差通路的三维迫近感知模型.在突触前神经网络,通过对2种视觉通路从时空维度上进行实时神经信号整合,所提出的模型不仅能够有效排除大范围的背景杂波干扰,而且可以明显抑制前景非迫近运动所产生的视觉刺激,降低了对突然出现在感受野目标的关注度,进一步提高在未知现实环境中对迫近运动的选择.真实场景数据集的离线测试,以及在线机器人测试的实验结果显示,与目前最先进的方法相比,我们的模型在时间复杂度降低了一个数量级的前提下,准确率提升至96.09%,且能够协助移动机器人在自主导航时实时稳健检测,避免潜在的碰撞威胁.研究综合揭示出迫近感知神经网络对于运动通路的高效性以及视差通路的可靠性,具备显著的协同能力.
摘要:随着物联网(Internet of Things,IoT)技术的快速发展和广泛应用,大规模IoT(Large Scale IoT,LS-IoT)的部署已成为实现智能化、高效化社会基础设施的必然趋势.然而,由于大规模网络具有异构化、高时变性和广分布的特点,导致网络与信息安全问题日益凸显.传统的基于边界防护(Perimeter Based Security,PBS)的安全模型难以有效应对LS-IoT中复杂且动态的威胁.零信任架构(Zero Trust Architecture,ZTA)强调“永不信任,始终验证”的安全理念,为保障LS-IoT的安全提供了一种潜在解决方案.本文首先系统综述了ZTA的三大核心能力,包括软件定义边界(Software-Defined Perimeter,SDP)、身份识别与访问管理(Identity and Access Management,IAM)、微隔离(Micro-SeGmentation,MSG).其次,结合LS-IoT的特点和需求,深入探讨了实现ZTA核心能力所需的七大关键技术,包括持续身份认证、动态访问控制、轻量加密技术、身份治理与管理(Identity Governance and Administration,IGA)、终端安全、网络隔离以及持续监控.再次,以ZTA在工业IoT、5G医疗、自动驾驶和远程办公四个典型场景的实际应用为例,探讨了ZTA在提升网络安全性方面的有效性.最后,文章分析了大语言模型(Large Language Model,LLM)、生成式人工智能(Artificial Intelligence,AI)、可解释性人工智能(eXplainable Artificial Intelligence,XAI)、边缘计算和后量子加密(Post Quantum Cryptography,PQC)等前沿技术与ZTA的融合,并展望了ZTA未来的发展方向.通过上述工作,旨在为ZTA的实际应用和LS-IoT的安全保障提供参考.