摘要:面部动作单元(Action Unit,AU)识别是计算机视觉与情感计算领域的热点课题.AU识别属于多标签二分类任务,目前面临着标签不均衡等挑战.现有的主流算法利用AU之间的关联,通过调整采样率和AU的权重来进行标签重均衡化.然而,这些方法仅仅使模型预测时从偏向出现频率高的标签转为偏向出现频率低的标签,并未解决偏置问题.根据出现频率的高低可将AU划分为头类和尾类,公平对待每一类是实现AU无偏识别的关键.本文引入因果推理理论,提出基于因果干预的无偏化方法(Causal Intervention for Unbiased facial action unit recognition,CIU),以解决多AU间不均衡的问题.通过调整不平衡域和平衡但不可见域上的经验风险实现模型的无偏性.大量实验结果表明,本方法在基准数据集BP4D、DISFA上超越已有的方法,其中在DISFA上超越当前最先进方法1.1%,且可以学习到无偏的特征表示.
摘要:细粒度表情识别任务因其包含更丰富真实的人类情感而备受关注.现有面部表情识别算法通过提取局部关键区域等方式学习更优的图像表征.然而,这些方法忽略了图像数据集内在的结构关系,且没有充分利用标签间的语义关联度以及图像和标签间的相关性,导致所学特征带来的性能提升有限.其次,现有细粒度表情识别方法并未有效利用和挖掘粗细粒度的层级关系,因而限制了模型的识别性能.此外,现有细粒度表情识别算法忽略了由于标注主观性和情感复杂性导致的标签歧义性问题,极大影响了模型的识别性能.针对上述问题,本文提出一种基于关系感知和标签消歧的细粒度面部表情识别算法(fine-grained facial expression recognition algorithm based on Relationship-Awareness and Label Disambiguation,RALD).该算法通过构建层级感知的图像特征增强网络,充分挖掘图像之间、层级标签之间以及图像和标签之间的依赖关系,以获得更具辨别性的图像特征.针对标签歧义性问题,算法设计了基于近邻样本的标签分布学习模块,通过整合邻域信息进行标签消歧,进一步提升模型识别性能.在细粒度表情识别数据集FG-Emotions上算法的准确度达到97.34%,在粗粒度表情识别数据集RAF-DB上比现有主流表情分类方法提高了0.80%~4.55%.
摘要:多标签分类任务广泛存在于现实生活中,然而其经常存在不均衡数据问题,严重影响了分类性能.目前解决该问题的主流技术为重采样方法,主要分为过采样和欠采样,过采样通过生成与少数类标签相关的样本,欠采样则是通过删除与多数类标签相关的样本.然而,这些方法都专注于解决一种不均衡问题,即标签内不均衡或标签间不均衡,导致在解决一种不均衡的同时可能引入另一种不均衡.针对该问题,本文提出一种基于安全欠采样的不均衡多标签数据集成学习方法ESUS(Ensemble learning method based on Safe Under-Sampling).首先通过标签划分将多标签不均衡数据集划分成单标签数据集和标签对数据集,针对单标签数据集,提出一种安全欠采样方法解决标签内不均衡问题,并利用采样后的均衡数据集构建二分类模型.对于标签对数据集,进行数据剪枝后利用集成学习解决标签间不均衡问题,在保持分类性能的同时降低时空复杂度.最后将单标签数据集模型和标签对数据集模型集成为最终的分类模型.在六个多标签不均衡数据集上的实验结果表明:和七种对比方法相比,ESUS方法在四个评价指标上更稳定有效.
摘要:现有的WiFi感知方法对数据的采集量及接收器的硬件资源需求较高,同时海量的数据处理也会消耗大量软硬件资源.基于模型的WiFi感知方法通过建立动作模式与信号变化之间的数学模型,一定程度上降低了对数据量的依赖,但是主流方案仍然需要多个接收天线或者天线阵列.本文提出一种使用单天线接收器的感知方案,利用不同子载波的信道状态信息的比值消除硬件及噪声干扰,并提出基于方差和极差的子载波组合选择算法,筛选出优质的子载波组合得到动作特征.进一步提出基于菲涅尔区理论的高可用特征生成算法,巧妙地结合反射路径变化与信道状态信息(Channel State Information,CSI)动态相位旋转之间的关系,通过在复平面上的数据拟合与相位对齐获得高可用特征.理论分析和实验结果表明,本文提出的单天线方案完全符合菲涅尔区理论,同时,可以有效提升不同动作在不同场景下的识别效果.对于七种不同的动作,本文方案的总体识别准确率保持在95%左右,CSI选择和特征强化获得了约2%的准确率提升.
摘要:知识蒸馏的核心思想是利用1个作为教师网络的大型模型来指导1个作为学生网络的小型模型,提升学生网络在图像分类任务上的性能.现有知识蒸馏方法通常从单一的输入样本中提取类别概率或特征信息作为知识,并没有对样本间关系进行建模,造成网络的表征学习能力下降.为解决此问题,本文引入图卷积神经网络,将输入样本集视为图结点构建关系图,图中的每个样本都可以聚合其他样本信息,提升样本的表征能力.本文从图结点和图关系2个角度构建图表征知识蒸馏误差,利用元学习引导学生网络自适应学习教师网络更佳的图表征,提升学生网络的图建模能力.相比于基线方法,本文提出的图表征知识蒸馏方法在加拿大高等研究院(Canadian Institute For Advanced Research,CIFAR)发布的100种分类数据集上提升了3.70%的分类准确率,表明本文方法引导学生网络学习到了更具有判别性的特征空间,提升了图像分类能力.
摘要:在6G通信系统中,随着天线规模的增大,菲涅尔区逐步扩展,现有的远场通信假设会引入严重的能量扩散,即角度域不再稀疏.近场通信利用球面波前进行建模,其信道模型与用户到达基站的角度和距离相关,在通信的同时可以估计角度和距离,实现通信感知一体化(Integrated Sensing And Communication,ISAC).本文针对近场环境下ISAC问题,提出了基于极坐标的近场模型,通过非均匀网格划分将ISAC转化为稀疏估计问题,进而提出基于稀疏贝叶斯学习模型和消息传递算法的ISAC算法,同时完成活跃用户检测、位置感知和通信.此外,所提算法采用差分调制,在通信和感知中无需利用导频,即可实现盲ISAC,有效提升通信系统的频谱效率.仿真结果表明,相对于均匀区域划分和文献现有方法,本文提出的ISAC算法可获得更高的感知精度和误码率性能.
摘要:稀疏卷积在处理激光雷达点云单目标跟踪时的潜力尚未得到充分发掘.目前,绝大多数点云跟踪算法使用基于球邻域的骨干网络,其显存计算资源占用大并且目标感知的关系建模不充分.针对此问题,本文提出一种基于稀疏卷积结构的LiDAR(Lightlaser Detection And Ranging)点云跟踪算法,并创新性地融合了空间点与体素双通道的关系建模模块,以高效适应稀疏框架下目标判别信息的嵌入.首先,本文采用3D稀疏卷积残差网络来分别提取模板和搜索区域的特征,并利用反卷积来获取逐点特征来保证跟踪任务中对空间位置特性的要求.其次,关系建模模块进一步在模板与搜索区域特征之间计算相似度语义查询表.为了捕捉到模板与搜索区域间细粒度的关联性,该模块一方面在空间点通道中利用近邻算法找出每个搜索区域点的模板近邻点,并根据语义查询表提取对应特征;另一方面,在体素通道中以每个搜索区域点为中心构建局部多尺度体素,并根据落入体素单元的模板点索引计算语义查询表中值的累计和.最后,将双通道的特征融合并送入基于鸟瞰图的候选包围盒生成模块来回归目标包围盒.为了验证所提出方法的优越性,本文在KITTI和NuScenes数据集进行了测试,对比其他使用稀疏卷积的算法,本文方法平均成功率和精确率分别提升了11.0%和12.0%.本文方法在继承了稀疏卷积高效特点的同时还实现了跟踪精度的提高.
摘要:光场图像作为一种能够捕获场景每个位置光线信息的图像类型,在电子成像、医学影像和虚拟现实等领域具有广泛的应用前景.光场图像质量评估(Light Field Image Quality Assessment,LFIQA)旨在衡量此类图像的质量,但当前方法面临视觉效果与文本模态间异构性的重要挑战.为解决上述问题,本文提出了一种基于文本-视觉的多模态光场图像质量评估模型.具体来说,在视觉模态方面,我们设计了多任务模型,结合边缘自动阈值算法有效丰富了光场图像的关键表示特征.在文本模态方面,基于输入噪声特征与预测噪声特征的对比,准确识别光场图像的噪声类别,并验证了噪声预测对优化视觉表示的重要性.基于上述研究,进一步提出了一种优化的通用噪声文本配置方法,并结合边缘增强策略,显著提升了基线模型在光场图像质量评估中的准确性和泛化能力.此外,通过消融实验,评估了各组件对整体模型性能的贡献,验证了本文方法的有效性和稳健性.实验结果表明,该方法不仅在公开数据集Win5-LID和NBU-LF1.0的实验中表现出色,还在融合数据集中展示出优秀的实验结果,与现有最优算法相比,本文所提方法在两个数据库中的性能分别提升了2%和6%.本文提出的噪声验证策略和配置方法不仅为图像质量评估中的噪声预测任务提供了有价值的参考,也可用于其它噪声预测类型的辅助任务.