结合运动时序性的人脸表情识别方法
1
2016
... 近年来,“以人为本,服务于人”得到人工智能研究越来越广泛的关注,面部表情是人类情感最自然和直接的表现方式,对其的分析和识别[1 ~3 ] 是计算机视觉与情感计算领域的热门研究方向,在医疗健康[4 ] 、公共安全[5 ] 等领域具有广泛的应用前景.由于人们在日常生活中较少表现大幅度的面部动作,更多是通过局部细微表情来表达情感,如悲伤时眉毛下垂、惊讶时张开嘴,因此许多工作关注对局部表情动作而不仅仅是整体表情的识别. ...
结合运动时序性的人脸表情识别方法
1
2016
... 近年来,“以人为本,服务于人”得到人工智能研究越来越广泛的关注,面部表情是人类情感最自然和直接的表现方式,对其的分析和识别[1 ~3 ] 是计算机视觉与情感计算领域的热门研究方向,在医疗健康[4 ] 、公共安全[5 ] 等领域具有广泛的应用前景.由于人们在日常生活中较少表现大幅度的面部动作,更多是通过局部细微表情来表达情感,如悲伤时眉毛下垂、惊讶时张开嘴,因此许多工作关注对局部表情动作而不仅仅是整体表情的识别. ...
基于兴趣区域深度神经网络的静态面部表情识别
0
2017
基于兴趣区域深度神经网络的静态面部表情识别
0
2017
基于稀疏特征挑选和概率线性判别分析的表情识别研究
1
2018
... 近年来,“以人为本,服务于人”得到人工智能研究越来越广泛的关注,面部表情是人类情感最自然和直接的表现方式,对其的分析和识别[1 ~3 ] 是计算机视觉与情感计算领域的热门研究方向,在医疗健康[4 ] 、公共安全[5 ] 等领域具有广泛的应用前景.由于人们在日常生活中较少表现大幅度的面部动作,更多是通过局部细微表情来表达情感,如悲伤时眉毛下垂、惊讶时张开嘴,因此许多工作关注对局部表情动作而不仅仅是整体表情的识别. ...
基于稀疏特征挑选和概率线性判别分析的表情识别研究
1
2018
... 近年来,“以人为本,服务于人”得到人工智能研究越来越广泛的关注,面部表情是人类情感最自然和直接的表现方式,对其的分析和识别[1 ~3 ] 是计算机视觉与情感计算领域的热门研究方向,在医疗健康[4 ] 、公共安全[5 ] 等领域具有广泛的应用前景.由于人们在日常生活中较少表现大幅度的面部动作,更多是通过局部细微表情来表达情感,如悲伤时眉毛下垂、惊讶时张开嘴,因此许多工作关注对局部表情动作而不仅仅是整体表情的识别. ...
人脸表情识别在辅助医疗中的应用及方法研究
1
2019
... 近年来,“以人为本,服务于人”得到人工智能研究越来越广泛的关注,面部表情是人类情感最自然和直接的表现方式,对其的分析和识别[1 ~3 ] 是计算机视觉与情感计算领域的热门研究方向,在医疗健康[4 ] 、公共安全[5 ] 等领域具有广泛的应用前景.由于人们在日常生活中较少表现大幅度的面部动作,更多是通过局部细微表情来表达情感,如悲伤时眉毛下垂、惊讶时张开嘴,因此许多工作关注对局部表情动作而不仅仅是整体表情的识别. ...
人脸表情识别在辅助医疗中的应用及方法研究
1
2019
... 近年来,“以人为本,服务于人”得到人工智能研究越来越广泛的关注,面部表情是人类情感最自然和直接的表现方式,对其的分析和识别[1 ~3 ] 是计算机视觉与情感计算领域的热门研究方向,在医疗健康[4 ] 、公共安全[5 ] 等领域具有广泛的应用前景.由于人们在日常生活中较少表现大幅度的面部动作,更多是通过局部细微表情来表达情感,如悲伤时眉毛下垂、惊讶时张开嘴,因此许多工作关注对局部表情动作而不仅仅是整体表情的识别. ...
The ability to detect deceit generalizes across different types of high-stake lies
1
1997
... 近年来,“以人为本,服务于人”得到人工智能研究越来越广泛的关注,面部表情是人类情感最自然和直接的表现方式,对其的分析和识别[1 ~3 ] 是计算机视觉与情感计算领域的热门研究方向,在医疗健康[4 ] 、公共安全[5 ] 等领域具有广泛的应用前景.由于人们在日常生活中较少表现大幅度的面部动作,更多是通过局部细微表情来表达情感,如悲伤时眉毛下垂、惊讶时张开嘴,因此许多工作关注对局部表情动作而不仅仅是整体表情的识别. ...
5
1978
... 人脸动作编码系统(Facial Action Coding System,FACS)[6 ,7 ] 定义了几十个表情动作单元(Action Unit,AU),是目前描述人脸局部细微表情最全面和客观的系统之一.如图1 所示,快乐、悲伤、惊讶等整体表情被定量地解析为多个AU的组合,每个AU是一个基本面部动作,与一或多个人脸局部肌肉动作有关.在一个人脸表情中,可能只出现一个AU,也可能同时出现多个AU.虽然FACS只定义了几十个AU,但是每个AU具有从低到高的多个强度级别,因而AU的组合可表示7 000种以上真实存在的表情[8 ] ,满足了精细刻画表情的需要. ...
... 人脸表情出现时,一些局部区域会发生肌肉动作.人脸动作编码系统(FACS)[6 ,7 ] 基于人脸解剖学所划分的局部肌肉,定义了一个基本面部动作即动作单元(AU)的集合.每个AU涉及一个或多个局部肌肉,具有0,1,2,3,4,5这6个强度级别,其中0表示不出现而5则表示出现的强度最大,因而可以客观且定量地描述人脸精细表情.图2 展示了常见的27个AU的示例图片及定义,其中9个AU出现在上半脸,18个AU出现在下半脸.可以发现,每个AU都是一种局部的面部动作,刻画了细微表情.形式化地,任一人脸表情可以由这些AU出现的强度所构成的向量p ( i n t ) = ( p 1 ( i n t ) , p 2 ( i n t ) , ⋯ , p m ( i n t ) ) 来表示,其中未出现的AU的强度即为0. ...
... [
6 ,
18 ]
![]()
表1 列出了每类整体表情中可能出现的AU[16 ] ,这些AU同时出现或部分同时出现于整体表情,例如快乐表情可以由AU 6,AU 12和AU 25的组合来表示,悲伤表情可以由AU 1,AU 4,AU 6和AU 17的组合来表示.值得注意的是,人们在意识到自身表露出一种可能不合适的表情时经常会试图抑制它来隐藏真实的情绪,而只要试图掩盖原来的表情其面部便会自发地出现微表情(Micro-Expression)[19 ] .微表情的持续时间很短,一般的界定标准为持续时间不超过500 ms[20 ] ,这是其区别于宏表情(Macro-Expression)的主要特征[21 ] .微表情也可以用AU的组合进行描述,表2 具体定义了每类微表情对应的AU组合[22 ] ,其中I,II,III,IV,V和VI类分别与快乐、惊讶、愤怒、厌恶、悲伤和恐惧相关,VII类与蔑视等其他微表情相关.例如,微表情I类可以由AU 6,AU 7和AU 12的组合或单个AU 6来表示.因此,研究AU识别对微表情识别同样具有重要意义. ...
... (1)标签稀缺性:AU需要由经过培训的专家来标注,且标注过程较耗时,因而人工标注的成本很高[6 ] ,使得目前大多数被标注的数据集规模较小、样本多样性较低.由于深度学习方法通常需要大量的训练数据,因此标签稀缺性是限制模型精度的重要因素. ...
... 自FACS[6 ,7 ] 被提出以来,学术界克服AU数据采集、标注的困难,发布了多个AU数据集,促进了AU识别技术的发展.早期的数据集,如CK[25 ] 和MMI[18 ] ,是在受控环境下采集的具有良好光照和简单背景的正面或近似正面的人脸图片,受试者被要求人为地显露出指定的面部表情.最近十年,研究人员更多地关注受试者被诱发而自发产生的表情,代表性数据集包括受控环境下采集的BP4D[26 ] 和DISFA[27 ] 等.近年来,学术界发布了几个非受控场景下采集的数据集,如EmotioNet[28 ] 和Aff-Wild2 (AU Set)[29 ] ,其包含的图片来自互联网等野外(Wild)场景,在光照、遮挡、姿态等方面变化多样. ...
3
2002
... 人脸动作编码系统(Facial Action Coding System,FACS)[6 ,7 ] 定义了几十个表情动作单元(Action Unit,AU),是目前描述人脸局部细微表情最全面和客观的系统之一.如图1 所示,快乐、悲伤、惊讶等整体表情被定量地解析为多个AU的组合,每个AU是一个基本面部动作,与一或多个人脸局部肌肉动作有关.在一个人脸表情中,可能只出现一个AU,也可能同时出现多个AU.虽然FACS只定义了几十个AU,但是每个AU具有从低到高的多个强度级别,因而AU的组合可表示7 000种以上真实存在的表情[8 ] ,满足了精细刻画表情的需要. ...
... 人脸表情出现时,一些局部区域会发生肌肉动作.人脸动作编码系统(FACS)[6 ,7 ] 基于人脸解剖学所划分的局部肌肉,定义了一个基本面部动作即动作单元(AU)的集合.每个AU涉及一个或多个局部肌肉,具有0,1,2,3,4,5这6个强度级别,其中0表示不出现而5则表示出现的强度最大,因而可以客观且定量地描述人脸精细表情.图2 展示了常见的27个AU的示例图片及定义,其中9个AU出现在上半脸,18个AU出现在下半脸.可以发现,每个AU都是一种局部的面部动作,刻画了细微表情.形式化地,任一人脸表情可以由这些AU出现的强度所构成的向量p ( i n t ) = ( p 1 ( i n t ) , p 2 ( i n t ) , ⋯ , p m ( i n t ) ) 来表示,其中未出现的AU的强度即为0. ...
... 自FACS[6 ,7 ] 被提出以来,学术界克服AU数据采集、标注的困难,发布了多个AU数据集,促进了AU识别技术的发展.早期的数据集,如CK[25 ] 和MMI[18 ] ,是在受控环境下采集的具有良好光照和简单背景的正面或近似正面的人脸图片,受试者被要求人为地显露出指定的面部表情.最近十年,研究人员更多地关注受试者被诱发而自发产生的表情,代表性数据集包括受控环境下采集的BP4D[26 ] 和DISFA[27 ] 等.近年来,学术界发布了几个非受控场景下采集的数据集,如EmotioNet[28 ] 和Aff-Wild2 (AU Set)[29 ] ,其包含的图片来自互联网等野外(Wild)场景,在光照、遮挡、姿态等方面变化多样. ...
2
1982
... 人脸动作编码系统(Facial Action Coding System,FACS)[6 ,7 ] 定义了几十个表情动作单元(Action Unit,AU),是目前描述人脸局部细微表情最全面和客观的系统之一.如图1 所示,快乐、悲伤、惊讶等整体表情被定量地解析为多个AU的组合,每个AU是一个基本面部动作,与一或多个人脸局部肌肉动作有关.在一个人脸表情中,可能只出现一个AU,也可能同时出现多个AU.虽然FACS只定义了几十个AU,但是每个AU具有从低到高的多个强度级别,因而AU的组合可表示7 000种以上真实存在的表情[8 ] ,满足了精细刻画表情的需要. ...
... 经过观察,AU的组合可以形成7 000多种真实存在的表情[8 ] .在某一人脸表情中,可能单独出现一个AU,也可能同时出现多个AU.当多个AU同时出现时,若它们是可加性的(Additive),则AU的组合出现并不改变各AU的外观;若它们是不可加性的(Non-Additive),即它们的肌肉动作存在交叠区域,会融合成新的肌肉动作,则各AU的外观会被改变.此外,一些AU组合如AU 1和AU 4在悲伤和恐惧表情中都会出现,比其他组合出现的频率更高.另外,某些AU之间是相互排斥的,如AU 1和AU 7,两者不会同时出现在任一表情中,若一个AU出现则另一个AU不会出现. ...
Automatic facial expression analysis: Survey
1
2003
... 深度学习在计算机视觉的各个领域都获得了巨大成功,近些年越来越多的人脸表情识别工作采用深度神经网络,基于其强大的特征提取能力,显著提升了表情识别的精度.然而早期的人脸表情识别综述[9 ~11 ] 主要介绍传统的非深度学习方法,由于这类方法采用人工设计的特征,限制了表情识别的性能.近年来,Corneanu等人[12 ] 总结了基于RGB图像、3D、热成像或多模态数据的人脸表情识别工作,Li等人[13 ] 将讨论范围限定在基于深度学习的方法.然而,上述综述仅关注识别整体表情的工作,忽视了表情AU识别.另外,贲晛烨等人[14 ] 和徐峰等人[15 ] 对微表情识别进行了综述,但也没有关注AU识别.Martinez等人[16 ] 和Zhi等人[17 ] 虽然详细回顾了AU识别工作,但其中大部分仍是基于传统的非深度学习方法. ...
Facial expression recognition: A survey
1
2015
... 深度学习在计算机视觉的各个领域都获得了巨大成功,近些年越来越多的人脸表情识别工作采用深度神经网络,基于其强大的特征提取能力,显著提升了表情识别的精度.然而早期的人脸表情识别综述[9 ~11 ] 主要介绍传统的非深度学习方法,由于这类方法采用人工设计的特征,限制了表情识别的性能.近年来,Corneanu等人[12 ] 总结了基于RGB图像、3D、热成像或多模态数据的人脸表情识别工作,Li等人[13 ] 将讨论范围限定在基于深度学习的方法.然而,上述综述仅关注识别整体表情的工作,忽视了表情AU识别.另外,贲晛烨等人[14 ] 和徐峰等人[15 ] 对微表情识别进行了综述,但也没有关注AU识别.Martinez等人[16 ] 和Zhi等人[17 ] 虽然详细回顾了AU识别工作,但其中大部分仍是基于传统的非深度学习方法. ...
Survey on rgb, 3d, thermal, and multimodal approaches for facial expression recognition: History, trends, and affect-related applications
1
2016
... 深度学习在计算机视觉的各个领域都获得了巨大成功,近些年越来越多的人脸表情识别工作采用深度神经网络,基于其强大的特征提取能力,显著提升了表情识别的精度.然而早期的人脸表情识别综述[9 ~11 ] 主要介绍传统的非深度学习方法,由于这类方法采用人工设计的特征,限制了表情识别的性能.近年来,Corneanu等人[12 ] 总结了基于RGB图像、3D、热成像或多模态数据的人脸表情识别工作,Li等人[13 ] 将讨论范围限定在基于深度学习的方法.然而,上述综述仅关注识别整体表情的工作,忽视了表情AU识别.另外,贲晛烨等人[14 ] 和徐峰等人[15 ] 对微表情识别进行了综述,但也没有关注AU识别.Martinez等人[16 ] 和Zhi等人[17 ] 虽然详细回顾了AU识别工作,但其中大部分仍是基于传统的非深度学习方法. ...
Deep facial expression recognition: A survey
1
... 深度学习在计算机视觉的各个领域都获得了巨大成功,近些年越来越多的人脸表情识别工作采用深度神经网络,基于其强大的特征提取能力,显著提升了表情识别的精度.然而早期的人脸表情识别综述[9 ~11 ] 主要介绍传统的非深度学习方法,由于这类方法采用人工设计的特征,限制了表情识别的性能.近年来,Corneanu等人[12 ] 总结了基于RGB图像、3D、热成像或多模态数据的人脸表情识别工作,Li等人[13 ] 将讨论范围限定在基于深度学习的方法.然而,上述综述仅关注识别整体表情的工作,忽视了表情AU识别.另外,贲晛烨等人[14 ] 和徐峰等人[15 ] 对微表情识别进行了综述,但也没有关注AU识别.Martinez等人[16 ] 和Zhi等人[17 ] 虽然详细回顾了AU识别工作,但其中大部分仍是基于传统的非深度学习方法. ...
微表情自动识别综述
1
2014
... 深度学习在计算机视觉的各个领域都获得了巨大成功,近些年越来越多的人脸表情识别工作采用深度神经网络,基于其强大的特征提取能力,显著提升了表情识别的精度.然而早期的人脸表情识别综述[9 ~11 ] 主要介绍传统的非深度学习方法,由于这类方法采用人工设计的特征,限制了表情识别的性能.近年来,Corneanu等人[12 ] 总结了基于RGB图像、3D、热成像或多模态数据的人脸表情识别工作,Li等人[13 ] 将讨论范围限定在基于深度学习的方法.然而,上述综述仅关注识别整体表情的工作,忽视了表情AU识别.另外,贲晛烨等人[14 ] 和徐峰等人[15 ] 对微表情识别进行了综述,但也没有关注AU识别.Martinez等人[16 ] 和Zhi等人[17 ] 虽然详细回顾了AU识别工作,但其中大部分仍是基于传统的非深度学习方法. ...
微表情自动识别综述
1
2014
... 深度学习在计算机视觉的各个领域都获得了巨大成功,近些年越来越多的人脸表情识别工作采用深度神经网络,基于其强大的特征提取能力,显著提升了表情识别的精度.然而早期的人脸表情识别综述[9 ~11 ] 主要介绍传统的非深度学习方法,由于这类方法采用人工设计的特征,限制了表情识别的性能.近年来,Corneanu等人[12 ] 总结了基于RGB图像、3D、热成像或多模态数据的人脸表情识别工作,Li等人[13 ] 将讨论范围限定在基于深度学习的方法.然而,上述综述仅关注识别整体表情的工作,忽视了表情AU识别.另外,贲晛烨等人[14 ] 和徐峰等人[15 ] 对微表情识别进行了综述,但也没有关注AU识别.Martinez等人[16 ] 和Zhi等人[17 ] 虽然详细回顾了AU识别工作,但其中大部分仍是基于传统的非深度学习方法. ...
人脸微表情识别综述
1
2017
... 深度学习在计算机视觉的各个领域都获得了巨大成功,近些年越来越多的人脸表情识别工作采用深度神经网络,基于其强大的特征提取能力,显著提升了表情识别的精度.然而早期的人脸表情识别综述[9 ~11 ] 主要介绍传统的非深度学习方法,由于这类方法采用人工设计的特征,限制了表情识别的性能.近年来,Corneanu等人[12 ] 总结了基于RGB图像、3D、热成像或多模态数据的人脸表情识别工作,Li等人[13 ] 将讨论范围限定在基于深度学习的方法.然而,上述综述仅关注识别整体表情的工作,忽视了表情AU识别.另外,贲晛烨等人[14 ] 和徐峰等人[15 ] 对微表情识别进行了综述,但也没有关注AU识别.Martinez等人[16 ] 和Zhi等人[17 ] 虽然详细回顾了AU识别工作,但其中大部分仍是基于传统的非深度学习方法. ...
人脸微表情识别综述
1
2017
... 深度学习在计算机视觉的各个领域都获得了巨大成功,近些年越来越多的人脸表情识别工作采用深度神经网络,基于其强大的特征提取能力,显著提升了表情识别的精度.然而早期的人脸表情识别综述[9 ~11 ] 主要介绍传统的非深度学习方法,由于这类方法采用人工设计的特征,限制了表情识别的性能.近年来,Corneanu等人[12 ] 总结了基于RGB图像、3D、热成像或多模态数据的人脸表情识别工作,Li等人[13 ] 将讨论范围限定在基于深度学习的方法.然而,上述综述仅关注识别整体表情的工作,忽视了表情AU识别.另外,贲晛烨等人[14 ] 和徐峰等人[15 ] 对微表情识别进行了综述,但也没有关注AU识别.Martinez等人[16 ] 和Zhi等人[17 ] 虽然详细回顾了AU识别工作,但其中大部分仍是基于传统的非深度学习方法. ...
Automatic analysis of facial actions: A survey
3
2019
... 深度学习在计算机视觉的各个领域都获得了巨大成功,近些年越来越多的人脸表情识别工作采用深度神经网络,基于其强大的特征提取能力,显著提升了表情识别的精度.然而早期的人脸表情识别综述[9 ~11 ] 主要介绍传统的非深度学习方法,由于这类方法采用人工设计的特征,限制了表情识别的性能.近年来,Corneanu等人[12 ] 总结了基于RGB图像、3D、热成像或多模态数据的人脸表情识别工作,Li等人[13 ] 将讨论范围限定在基于深度学习的方法.然而,上述综述仅关注识别整体表情的工作,忽视了表情AU识别.另外,贲晛烨等人[14 ] 和徐峰等人[15 ] 对微表情识别进行了综述,但也没有关注AU识别.Martinez等人[16 ] 和Zhi等人[17 ] 虽然详细回顾了AU识别工作,但其中大部分仍是基于传统的非深度学习方法. ...
... 表1 列出了每类整体表情中可能出现的AU[16 ] ,这些AU同时出现或部分同时出现于整体表情,例如快乐表情可以由AU 6,AU 12和AU 25的组合来表示,悲伤表情可以由AU 1,AU 4,AU 6和AU 17的组合来表示.值得注意的是,人们在意识到自身表露出一种可能不合适的表情时经常会试图抑制它来隐藏真实的情绪,而只要试图掩盖原来的表情其面部便会自发地出现微表情(Micro-Expression)[19 ] .微表情的持续时间很短,一般的界定标准为持续时间不超过500 ms[20 ] ,这是其区别于宏表情(Macro-Expression)的主要特征[21 ] .微表情也可以用AU的组合进行描述,表2 具体定义了每类微表情对应的AU组合[22 ] ,其中I,II,III,IV,V和VI类分别与快乐、惊讶、愤怒、厌恶、悲伤和恐惧相关,VII类与蔑视等其他微表情相关.例如,微表情I类可以由AU 6,AU 7和AU 12的组合或单个AU 6来表示.因此,研究AU识别对微表情识别同样具有重要意义. ...
... 每类整体表情所关联的AU[16 ] ...
A comprehensive survey on automatic facial action unit analysis
1
2020
... 深度学习在计算机视觉的各个领域都获得了巨大成功,近些年越来越多的人脸表情识别工作采用深度神经网络,基于其强大的特征提取能力,显著提升了表情识别的精度.然而早期的人脸表情识别综述[9 ~11 ] 主要介绍传统的非深度学习方法,由于这类方法采用人工设计的特征,限制了表情识别的性能.近年来,Corneanu等人[12 ] 总结了基于RGB图像、3D、热成像或多模态数据的人脸表情识别工作,Li等人[13 ] 将讨论范围限定在基于深度学习的方法.然而,上述综述仅关注识别整体表情的工作,忽视了表情AU识别.另外,贲晛烨等人[14 ] 和徐峰等人[15 ] 对微表情识别进行了综述,但也没有关注AU识别.Martinez等人[16 ] 和Zhi等人[17 ] 虽然详细回顾了AU识别工作,但其中大部分仍是基于传统的非深度学习方法. ...
Web-based database for facial expression analysis
3
2005
... 人脸表情出现时,一些局部区域会发生肌肉动作.人脸动作编码系统(FACS)
[6 ,7 ] 基于人脸解剖学所划分的局部肌肉,定义了一个基本面部动作即动作单元(AU)的集合.每个AU涉及一个或多个局部肌肉,具有0,1,2,3,4,5这6个强度级别,其中0表示不出现而5则表示出现的强度最大,因而可以客观且定量地描述人脸精细表情.
图2 展示了常见的27个AU的示例图片及定义,其中9个AU出现在上半脸,18个AU出现在下半脸.可以发现,每个AU都是一种局部的面部动作,刻画了细微表情.形式化地,任一人脸表情可以由这些AU出现的强度所构成的向量
p ( i n t ) = ( p 1 ( i n t ) , p 2 ( i n t ) , ⋯ , p m ( i n t ) ) 来表示,其中未出现的AU的强度即为0.
图2 常见的27个AU的示例图片及定义[6 ,18 ] ![]()
表1 列出了每类整体表情中可能出现的AU[16 ] ,这些AU同时出现或部分同时出现于整体表情,例如快乐表情可以由AU 6,AU 12和AU 25的组合来表示,悲伤表情可以由AU 1,AU 4,AU 6和AU 17的组合来表示.值得注意的是,人们在意识到自身表露出一种可能不合适的表情时经常会试图抑制它来隐藏真实的情绪,而只要试图掩盖原来的表情其面部便会自发地出现微表情(Micro-Expression)[19 ] .微表情的持续时间很短,一般的界定标准为持续时间不超过500 ms[20 ] ,这是其区别于宏表情(Macro-Expression)的主要特征[21 ] .微表情也可以用AU的组合进行描述,表2 具体定义了每类微表情对应的AU组合[22 ] ,其中I,II,III,IV,V和VI类分别与快乐、惊讶、愤怒、厌恶、悲伤和恐惧相关,VII类与蔑视等其他微表情相关.例如,微表情I类可以由AU 6,AU 7和AU 12的组合或单个AU 6来表示.因此,研究AU识别对微表情识别同样具有重要意义. ...
... 自FACS[6 ,7 ] 被提出以来,学术界克服AU数据采集、标注的困难,发布了多个AU数据集,促进了AU识别技术的发展.早期的数据集,如CK[25 ] 和MMI[18 ] ,是在受控环境下采集的具有良好光照和简单背景的正面或近似正面的人脸图片,受试者被要求人为地显露出指定的面部表情.最近十年,研究人员更多地关注受试者被诱发而自发产生的表情,代表性数据集包括受控环境下采集的BP4D[26 ] 和DISFA[27 ] 等.近年来,学术界发布了几个非受控场景下采集的数据集,如EmotioNet[28 ] 和Aff-Wild2 (AU Set)[29 ] ,其包含的图片来自互联网等野外(Wild)场景,在光照、遮挡、姿态等方面变化多样. ...
... AU数据集的属性
数据集 采集环境 表情激发方式 人脸身份数 图片或视频数 数据形式 发布年份 CK[25 ] 受控 人为 97 486个视频 2D 2000 BP4D[26 ] 受控 自发 41 328个视频 2D, 3D 2014 DISFA[27 ] 受控 自发 27 27个视频 2D 2013 EmotioNet[28 ] 非受控 自发 — 约975 000张图片 2D 2016 Aff-Wild2 (AU Set)[29 ] 非受控 自发 63 63个视频 2D 2019 CK+[30 ] 受控 自发 26 107个视频 2D 2010 MMI[18 ,31 ] 受控 人为、自发 67 2 390个视频和493张图片 2D 2005, 2010 Bosphorous[32 ] 受控 人为 105 4 652张图片 3D 2008 ICT-3DRFE[33 ] 受控 人为 23 345张图片 2D, 3D 2011 D3DFACS[34 ] 受控 人为 10 519个视频 2D, 3D 2011 BP4D+[35 ] 受控 自发 140 1 400个视频 2D, 3D 2016 GFT[36 ] 受控 自发 96 96个视频 2D 2017 CASME II[37 ] 受控 自发 35 247个视频 2D 2014 SAMM[38 ] 受控 自发 32 159个视频 2D 2018 MMEW[39 ] 受控 自发 30 300个视频和900张图片 2D 2021
注: “—”表示数据集的这一属性没有被公布 ...
1
2008
... 表1 列出了每类整体表情中可能出现的AU[16 ] ,这些AU同时出现或部分同时出现于整体表情,例如快乐表情可以由AU 6,AU 12和AU 25的组合来表示,悲伤表情可以由AU 1,AU 4,AU 6和AU 17的组合来表示.值得注意的是,人们在意识到自身表露出一种可能不合适的表情时经常会试图抑制它来隐藏真实的情绪,而只要试图掩盖原来的表情其面部便会自发地出现微表情(Micro-Expression)[19 ] .微表情的持续时间很短,一般的界定标准为持续时间不超过500 ms[20 ] ,这是其区别于宏表情(Macro-Expression)的主要特征[21 ] .微表情也可以用AU的组合进行描述,表2 具体定义了每类微表情对应的AU组合[22 ] ,其中I,II,III,IV,V和VI类分别与快乐、惊讶、愤怒、厌恶、悲伤和恐惧相关,VII类与蔑视等其他微表情相关.例如,微表情I类可以由AU 6,AU 7和AU 12的组合或单个AU 6来表示.因此,研究AU识别对微表情识别同样具有重要意义. ...
How fast are the leaked facial expressions: The duration of micro-expressions
1
2013
... 表1 列出了每类整体表情中可能出现的AU[16 ] ,这些AU同时出现或部分同时出现于整体表情,例如快乐表情可以由AU 6,AU 12和AU 25的组合来表示,悲伤表情可以由AU 1,AU 4,AU 6和AU 17的组合来表示.值得注意的是,人们在意识到自身表露出一种可能不合适的表情时经常会试图抑制它来隐藏真实的情绪,而只要试图掩盖原来的表情其面部便会自发地出现微表情(Micro-Expression)[19 ] .微表情的持续时间很短,一般的界定标准为持续时间不超过500 ms[20 ] ,这是其区别于宏表情(Macro-Expression)的主要特征[21 ] .微表情也可以用AU的组合进行描述,表2 具体定义了每类微表情对应的AU组合[22 ] ,其中I,II,III,IV,V和VI类分别与快乐、惊讶、愤怒、厌恶、悲伤和恐惧相关,VII类与蔑视等其他微表情相关.例如,微表情I类可以由AU 6,AU 7和AU 12的组合或单个AU 6来表示.因此,研究AU识别对微表情识别同样具有重要意义. ...
Effects of the duration of expressions on the recognition of microexpressions
1
2012
... 表1 列出了每类整体表情中可能出现的AU[16 ] ,这些AU同时出现或部分同时出现于整体表情,例如快乐表情可以由AU 6,AU 12和AU 25的组合来表示,悲伤表情可以由AU 1,AU 4,AU 6和AU 17的组合来表示.值得注意的是,人们在意识到自身表露出一种可能不合适的表情时经常会试图抑制它来隐藏真实的情绪,而只要试图掩盖原来的表情其面部便会自发地出现微表情(Micro-Expression)[19 ] .微表情的持续时间很短,一般的界定标准为持续时间不超过500 ms[20 ] ,这是其区别于宏表情(Macro-Expression)的主要特征[21 ] .微表情也可以用AU的组合进行描述,表2 具体定义了每类微表情对应的AU组合[22 ] ,其中I,II,III,IV,V和VI类分别与快乐、惊讶、愤怒、厌恶、悲伤和恐惧相关,VII类与蔑视等其他微表情相关.例如,微表情I类可以由AU 6,AU 7和AU 12的组合或单个AU 6来表示.因此,研究AU识别对微表情识别同样具有重要意义. ...
Objective classes for micro-facial expression recognition
2
2018
... 表1 列出了每类整体表情中可能出现的AU[16 ] ,这些AU同时出现或部分同时出现于整体表情,例如快乐表情可以由AU 6,AU 12和AU 25的组合来表示,悲伤表情可以由AU 1,AU 4,AU 6和AU 17的组合来表示.值得注意的是,人们在意识到自身表露出一种可能不合适的表情时经常会试图抑制它来隐藏真实的情绪,而只要试图掩盖原来的表情其面部便会自发地出现微表情(Micro-Expression)[19 ] .微表情的持续时间很短,一般的界定标准为持续时间不超过500 ms[20 ] ,这是其区别于宏表情(Macro-Expression)的主要特征[21 ] .微表情也可以用AU的组合进行描述,表2 具体定义了每类微表情对应的AU组合[22 ] ,其中I,II,III,IV,V和VI类分别与快乐、惊讶、愤怒、厌恶、悲伤和恐惧相关,VII类与蔑视等其他微表情相关.例如,微表情I类可以由AU 6,AU 7和AU 12的组合或单个AU 6来表示.因此,研究AU识别对微表情识别同样具有重要意义. ...
... 每类微表情对应的AU组合[22 ] ...
Deep learning based facs action unit occurrence and intensity estimation
1
2015
... AU识别涵盖AU检测和AU强度估计2个子任务,其中前者指预测输入的人脸图像上每个AU是否出现,输出为每个AU出现的概率p ̂ = ( p ̂ 1 , p ̂ 2 , ⋯ , p ̂ m ) ,后者则进一步预测每个AU出现的强度p ̂ ( i n t ) = ( p ̂ 1 ( i n t ) , p ̂ 2 ( i n t ) , ⋯ , p ̂ m ( i n t ) ) ,这里m 为AU的个数.AU识别网络[23 ,24 ] 的末端一般为全连接层,预测每个AU出现的概率p ̂ i ,对于AU检测,通常采用多标签交叉熵损失(Loss): ...
Facial action unit detection using attention and relation learning
7
... AU识别涵盖AU检测和AU强度估计2个子任务,其中前者指预测输入的人脸图像上每个AU是否出现,输出为每个AU出现的概率p ̂ = ( p ̂ 1 , p ̂ 2 , ⋯ , p ̂ m ) ,后者则进一步预测每个AU出现的强度p ̂ ( i n t ) = ( p ̂ 1 ( i n t ) , p ̂ 2 ( i n t ) , ⋯ , p ̂ m ( i n t ) ) ,这里m 为AU的个数.AU识别网络[23 ,24 ] 的末端一般为全连接层,预测每个AU出现的概率p ̂ i ,对于AU检测,通常采用多标签交叉熵损失(Loss): ...
... 近年来,一些工作在网络中加入注意力学习模块,显式地捕捉AU关联区域.Shao等人[24 ] 不依赖特征点的先验约束,直接通过AU识别的监督信号自适应地学习通道级注意力和空间注意力,同时利用全连接条件随机场(Conditional Random Field,CRF)捕捉像素级关系来优化空间注意力,从而选择和提取每个AU的关联特征.Ertugrul等人[70 ,71 ] 分别采用一个CNN从裁剪的人脸块提取特征,接着利用注意力机制对各个块所提取的特征进行加权,实现AU识别.虽然上述工作能够较好地捕捉AU特征,但仍包含了一些不相关的信息,影响AU识别的精度. ...
... Shao等人[24 ] 利用全连接CRF捕捉像素级关联关系,对每个AU的空间注意力进行优化,从而捕捉更准确的AU特征.Niu等人[72 ] 首先利用CNN提取人脸特征,这一特征的空间上每一点沿通道的特征向量被作为一个局部特征,接下来利用长短期记忆(Long Short-Term Memory,LSTM)网络学习局部特征间的关系,由于不同AU涉及不同位置的肌肉动作,该方法对每个AU分别采用一个LSTM来学习不同局部特征的贡献.鉴于密集的人脸特征点可以描述人脸几何结构,Fan等人[73 ] 利用图卷积网络(Graph Convolutional Network,GCN)从特征点空间位置形成的几何图结构中学习一个隐向量,该隐向量包含人脸形状模式以及特征点间的相互依赖关系,在特征学习过程中被用来增强表征能力.在这些工作中像素与AU的对应并不明确,使得像素级关系对AU识别的促进作用较有限. ...
... 此外,为了抑制标签不均衡导致的预测偏置,许多工作通过调整采样率和权重来进行平衡.Li等人[61 ] 在深度神经网络的训练过程中对训练集中出现频率较低的AU采用更大的随机采样率,使得每个小批量(Mini-Batch)中不同AU出现的频率较均衡.另一些工作[24 ,52 ,77 ] 在计算AU识别损失时,给每一AU所赋的权重与该AU出现的频率成反比,从而加强了出现频率较低的AU.此外,为了平衡每个AU的出现频率和不出现频率,Li等人[79 ] 对交叉熵损失中出现频率的熵项乘以训练集中该AU的不出现频率,而对不出现频率的熵项乘以该AU的出现频率,这样,若某一AU的不出现频率大于出现频率,其对应于出现的损失项被加强.Song等人[84 ] 提出自适应加权损失函数,通过自适应地学习认知不确定性(Epistemic Uncertainty)来计算小批量中每个样本的权重,不确定性越高的样本被赋以越大的权重,从而抵消数据不均衡. ...
... 在BP4D和DISFA上按照文献[76 ,51 ,24 ]的设置,BP4D的训练集包含21个人脸身份,测试集包含20个人脸身份,在5个AU(6,10,12,14和17)上评估,DISFA的训练集包含18个人脸身份,测试集包含9个人脸身份,在12个AU(1,2,4,5,6,9,12,15,17,20,25和26)上评估.评价指标采用组内相关系数(Intra-Class Correlation,ICC(3,1))[93 ] . ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ,76 ] √ 0.52/0.29 CCNN-IT[76 ] √ 0.63/0.45 2DC[74 ] √ 0.66/0.50 KBSS[51 ] √ √ 0.67/0.36 ARL[24 ] √ √ 0.66/0.48 SCC[83 ] √ √ 0.72 /0.47G2RL[73 ] √ √ √ 0.69/0.52 DPG[89 ] √ √ 0.72 /0.56 注: 这里展示了每个方法原始文献所报告的在所有AU上的平均ICC ...
Comprehensive database for facial expression analysis
2
2000
... 自FACS[6 ,7 ] 被提出以来,学术界克服AU数据采集、标注的困难,发布了多个AU数据集,促进了AU识别技术的发展.早期的数据集,如CK[25 ] 和MMI[18 ] ,是在受控环境下采集的具有良好光照和简单背景的正面或近似正面的人脸图片,受试者被要求人为地显露出指定的面部表情.最近十年,研究人员更多地关注受试者被诱发而自发产生的表情,代表性数据集包括受控环境下采集的BP4D[26 ] 和DISFA[27 ] 等.近年来,学术界发布了几个非受控场景下采集的数据集,如EmotioNet[28 ] 和Aff-Wild2 (AU Set)[29 ] ,其包含的图片来自互联网等野外(Wild)场景,在光照、遮挡、姿态等方面变化多样. ...
... AU数据集的属性
数据集 采集环境 表情激发方式 人脸身份数 图片或视频数 数据形式 发布年份 CK[25 ] 受控 人为 97 486个视频 2D 2000 BP4D[26 ] 受控 自发 41 328个视频 2D, 3D 2014 DISFA[27 ] 受控 自发 27 27个视频 2D 2013 EmotioNet[28 ] 非受控 自发 — 约975 000张图片 2D 2016 Aff-Wild2 (AU Set)[29 ] 非受控 自发 63 63个视频 2D 2019 CK+[30 ] 受控 自发 26 107个视频 2D 2010 MMI[18 ,31 ] 受控 人为、自发 67 2 390个视频和493张图片 2D 2005, 2010 Bosphorous[32 ] 受控 人为 105 4 652张图片 3D 2008 ICT-3DRFE[33 ] 受控 人为 23 345张图片 2D, 3D 2011 D3DFACS[34 ] 受控 人为 10 519个视频 2D, 3D 2011 BP4D+[35 ] 受控 自发 140 1 400个视频 2D, 3D 2016 GFT[36 ] 受控 自发 96 96个视频 2D 2017 CASME II[37 ] 受控 自发 35 247个视频 2D 2014 SAMM[38 ] 受控 自发 32 159个视频 2D 2018 MMEW[39 ] 受控 自发 30 300个视频和900张图片 2D 2021
注: “—”表示数据集的这一属性没有被公布 ...
Bp4d-spontaneous: A high-resolution spontaneous 3d dynamic facial expression database
5
2014
... 自FACS[6 ,7 ] 被提出以来,学术界克服AU数据采集、标注的困难,发布了多个AU数据集,促进了AU识别技术的发展.早期的数据集,如CK[25 ] 和MMI[18 ] ,是在受控环境下采集的具有良好光照和简单背景的正面或近似正面的人脸图片,受试者被要求人为地显露出指定的面部表情.最近十年,研究人员更多地关注受试者被诱发而自发产生的表情,代表性数据集包括受控环境下采集的BP4D[26 ] 和DISFA[27 ] 等.近年来,学术界发布了几个非受控场景下采集的数据集,如EmotioNet[28 ] 和Aff-Wild2 (AU Set)[29 ] ,其包含的图片来自互联网等野外(Wild)场景,在光照、遮挡、姿态等方面变化多样. ...
... AU数据集的属性
数据集 采集环境 表情激发方式 人脸身份数 图片或视频数 数据形式 发布年份 CK[25 ] 受控 人为 97 486个视频 2D 2000 BP4D[26 ] 受控 自发 41 328个视频 2D, 3D 2014 DISFA[27 ] 受控 自发 27 27个视频 2D 2013 EmotioNet[28 ] 非受控 自发 — 约975 000张图片 2D 2016 Aff-Wild2 (AU Set)[29 ] 非受控 自发 63 63个视频 2D 2019 CK+[30 ] 受控 自发 26 107个视频 2D 2010 MMI[18 ,31 ] 受控 人为、自发 67 2 390个视频和493张图片 2D 2005, 2010 Bosphorous[32 ] 受控 人为 105 4 652张图片 3D 2008 ICT-3DRFE[33 ] 受控 人为 23 345张图片 2D, 3D 2011 D3DFACS[34 ] 受控 人为 10 519个视频 2D, 3D 2011 BP4D+[35 ] 受控 自发 140 1 400个视频 2D, 3D 2016 GFT[36 ] 受控 自发 96 96个视频 2D 2017 CASME II[37 ] 受控 自发 35 247个视频 2D 2014 SAMM[38 ] 受控 自发 32 159个视频 2D 2018 MMEW[39 ] 受控 自发 30 300个视频和900张图片 2D 2021
注: “—”表示数据集的这一属性没有被公布 ...
... 在这一节,本文选取近年来最广泛使用的AU数据集BP4D[26 ] 和DISFA[27 ] ,将相同实验设置下基于深度学习的AU识别工作所报告的结果进行展示.AU识别包括AU检测和AU强度估计,下面分别介绍在2个数据集上具体的实验设置. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ,76 ] √ 0.52/0.29 CCNN-IT[76 ] √ 0.63/0.45 2DC[74 ] √ 0.66/0.50 KBSS[51 ] √ √ 0.67/0.36 ARL[24 ] √ √ 0.66/0.48 SCC[83 ] √ √ 0.72 /0.47G2RL[73 ] √ √ √ 0.69/0.52 DPG[89 ] √ √ 0.72 /0.56 注: 这里展示了每个方法原始文献所报告的在所有AU上的平均ICC ...
Disfa: A spontaneous facial action intensity database
5
2013
... 自FACS[6 ,7 ] 被提出以来,学术界克服AU数据采集、标注的困难,发布了多个AU数据集,促进了AU识别技术的发展.早期的数据集,如CK[25 ] 和MMI[18 ] ,是在受控环境下采集的具有良好光照和简单背景的正面或近似正面的人脸图片,受试者被要求人为地显露出指定的面部表情.最近十年,研究人员更多地关注受试者被诱发而自发产生的表情,代表性数据集包括受控环境下采集的BP4D[26 ] 和DISFA[27 ] 等.近年来,学术界发布了几个非受控场景下采集的数据集,如EmotioNet[28 ] 和Aff-Wild2 (AU Set)[29 ] ,其包含的图片来自互联网等野外(Wild)场景,在光照、遮挡、姿态等方面变化多样. ...
... AU数据集的属性
数据集 采集环境 表情激发方式 人脸身份数 图片或视频数 数据形式 发布年份 CK[25 ] 受控 人为 97 486个视频 2D 2000 BP4D[26 ] 受控 自发 41 328个视频 2D, 3D 2014 DISFA[27 ] 受控 自发 27 27个视频 2D 2013 EmotioNet[28 ] 非受控 自发 — 约975 000张图片 2D 2016 Aff-Wild2 (AU Set)[29 ] 非受控 自发 63 63个视频 2D 2019 CK+[30 ] 受控 自发 26 107个视频 2D 2010 MMI[18 ,31 ] 受控 人为、自发 67 2 390个视频和493张图片 2D 2005, 2010 Bosphorous[32 ] 受控 人为 105 4 652张图片 3D 2008 ICT-3DRFE[33 ] 受控 人为 23 345张图片 2D, 3D 2011 D3DFACS[34 ] 受控 人为 10 519个视频 2D, 3D 2011 BP4D+[35 ] 受控 自发 140 1 400个视频 2D, 3D 2016 GFT[36 ] 受控 自发 96 96个视频 2D 2017 CASME II[37 ] 受控 自发 35 247个视频 2D 2014 SAMM[38 ] 受控 自发 32 159个视频 2D 2018 MMEW[39 ] 受控 自发 30 300个视频和900张图片 2D 2021
注: “—”表示数据集的这一属性没有被公布 ...
... 在这一节,本文选取近年来最广泛使用的AU数据集BP4D[26 ] 和DISFA[27 ] ,将相同实验设置下基于深度学习的AU识别工作所报告的结果进行展示.AU识别包括AU检测和AU强度估计,下面分别介绍在2个数据集上具体的实验设置. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ,76 ] √ 0.52/0.29 CCNN-IT[76 ] √ 0.63/0.45 2DC[74 ] √ 0.66/0.50 KBSS[51 ] √ √ 0.67/0.36 ARL[24 ] √ √ 0.66/0.48 SCC[83 ] √ √ 0.72 /0.47G2RL[73 ] √ √ √ 0.69/0.52 DPG[89 ] √ √ 0.72 /0.56 注: 这里展示了每个方法原始文献所报告的在所有AU上的平均ICC ...
Emotionet: An accurate, real-time algorithm for the automatic annotation of a million facial expressions in the wild
3
2016
... 自FACS[6 ,7 ] 被提出以来,学术界克服AU数据采集、标注的困难,发布了多个AU数据集,促进了AU识别技术的发展.早期的数据集,如CK[25 ] 和MMI[18 ] ,是在受控环境下采集的具有良好光照和简单背景的正面或近似正面的人脸图片,受试者被要求人为地显露出指定的面部表情.最近十年,研究人员更多地关注受试者被诱发而自发产生的表情,代表性数据集包括受控环境下采集的BP4D[26 ] 和DISFA[27 ] 等.近年来,学术界发布了几个非受控场景下采集的数据集,如EmotioNet[28 ] 和Aff-Wild2 (AU Set)[29 ] ,其包含的图片来自互联网等野外(Wild)场景,在光照、遮挡、姿态等方面变化多样. ...
... AU数据集的属性
数据集 采集环境 表情激发方式 人脸身份数 图片或视频数 数据形式 发布年份 CK[25 ] 受控 人为 97 486个视频 2D 2000 BP4D[26 ] 受控 自发 41 328个视频 2D, 3D 2014 DISFA[27 ] 受控 自发 27 27个视频 2D 2013 EmotioNet[28 ] 非受控 自发 — 约975 000张图片 2D 2016 Aff-Wild2 (AU Set)[29 ] 非受控 自发 63 63个视频 2D 2019 CK+[30 ] 受控 自发 26 107个视频 2D 2010 MMI[18 ,31 ] 受控 人为、自发 67 2 390个视频和493张图片 2D 2005, 2010 Bosphorous[32 ] 受控 人为 105 4 652张图片 3D 2008 ICT-3DRFE[33 ] 受控 人为 23 345张图片 2D, 3D 2011 D3DFACS[34 ] 受控 人为 10 519个视频 2D, 3D 2011 BP4D+[35 ] 受控 自发 140 1 400个视频 2D, 3D 2016 GFT[36 ] 受控 自发 96 96个视频 2D 2017 CASME II[37 ] 受控 自发 35 247个视频 2D 2014 SAMM[38 ] 受控 自发 32 159个视频 2D 2018 MMEW[39 ] 受控 自发 30 300个视频和900张图片 2D 2021
注: “—”表示数据集的这一属性没有被公布 ...
... 另一个基于已有模型的思路是生成伪标签,即利用训练好的AU识别模型对图片自动地标注,这实质上是利用了AU识别模型中存储的训练数据的知识.Benitez-Quiroz等人[28 ] 发布了一个从互联网上抓取的非受控场景人脸图片数据集EmotioNet,其中优化集具有准确的人工标签,而训练集只有受控场景图片上训练的模型所标注的伪标签.考虑到自动标注模型的训练数据与被标注图片之间存在域差异,自动标注的伪标签并不准确.为改进EmotioNet的伪标签,Werner等人[45 ] 采用一个自训练方法,以多任务的形式同时在优化集和训练集上训练深度卷积神经网络(Deep Convolutional Neural Network,DCNN),其中优化集对应的分类器分支作为最终分类器,然后利用训练好的模型对训练集图片重新标注伪标签,再重新训练网络,重复这一过程直至性能已收敛或已满足精度要求.然而,这一自训练方法依赖优化集的人工标签. ...
action unit recognition: Aff-wild2, multi-task learning and arcface
2
2019
... 自FACS[6 ,7 ] 被提出以来,学术界克服AU数据采集、标注的困难,发布了多个AU数据集,促进了AU识别技术的发展.早期的数据集,如CK[25 ] 和MMI[18 ] ,是在受控环境下采集的具有良好光照和简单背景的正面或近似正面的人脸图片,受试者被要求人为地显露出指定的面部表情.最近十年,研究人员更多地关注受试者被诱发而自发产生的表情,代表性数据集包括受控环境下采集的BP4D[26 ] 和DISFA[27 ] 等.近年来,学术界发布了几个非受控场景下采集的数据集,如EmotioNet[28 ] 和Aff-Wild2 (AU Set)[29 ] ,其包含的图片来自互联网等野外(Wild)场景,在光照、遮挡、姿态等方面变化多样. ...
... AU数据集的属性
数据集 采集环境 表情激发方式 人脸身份数 图片或视频数 数据形式 发布年份 CK[25 ] 受控 人为 97 486个视频 2D 2000 BP4D[26 ] 受控 自发 41 328个视频 2D, 3D 2014 DISFA[27 ] 受控 自发 27 27个视频 2D 2013 EmotioNet[28 ] 非受控 自发 — 约975 000张图片 2D 2016 Aff-Wild2 (AU Set)[29 ] 非受控 自发 63 63个视频 2D 2019 CK+[30 ] 受控 自发 26 107个视频 2D 2010 MMI[18 ,31 ] 受控 人为、自发 67 2 390个视频和493张图片 2D 2005, 2010 Bosphorous[32 ] 受控 人为 105 4 652张图片 3D 2008 ICT-3DRFE[33 ] 受控 人为 23 345张图片 2D, 3D 2011 D3DFACS[34 ] 受控 人为 10 519个视频 2D, 3D 2011 BP4D+[35 ] 受控 自发 140 1 400个视频 2D, 3D 2016 GFT[36 ] 受控 自发 96 96个视频 2D 2017 CASME II[37 ] 受控 自发 35 247个视频 2D 2014 SAMM[38 ] 受控 自发 32 159个视频 2D 2018 MMEW[39 ] 受控 自发 30 300个视频和900张图片 2D 2021
注: “—”表示数据集的这一属性没有被公布 ...
The extended cohn-kanade dataset (ck+): A complete dataset for action unit and emotion-specified expression
1
2010
... AU数据集的属性
数据集 采集环境 表情激发方式 人脸身份数 图片或视频数 数据形式 发布年份 CK[25 ] 受控 人为 97 486个视频 2D 2000 BP4D[26 ] 受控 自发 41 328个视频 2D, 3D 2014 DISFA[27 ] 受控 自发 27 27个视频 2D 2013 EmotioNet[28 ] 非受控 自发 — 约975 000张图片 2D 2016 Aff-Wild2 (AU Set)[29 ] 非受控 自发 63 63个视频 2D 2019 CK+[30 ] 受控 自发 26 107个视频 2D 2010 MMI[18 ,31 ] 受控 人为、自发 67 2 390个视频和493张图片 2D 2005, 2010 Bosphorous[32 ] 受控 人为 105 4 652张图片 3D 2008 ICT-3DRFE[33 ] 受控 人为 23 345张图片 2D, 3D 2011 D3DFACS[34 ] 受控 人为 10 519个视频 2D, 3D 2011 BP4D+[35 ] 受控 自发 140 1 400个视频 2D, 3D 2016 GFT[36 ] 受控 自发 96 96个视频 2D 2017 CASME II[37 ] 受控 自发 35 247个视频 2D 2014 SAMM[38 ] 受控 自发 32 159个视频 2D 2018 MMEW[39 ] 受控 自发 30 300个视频和900张图片 2D 2021
注: “—”表示数据集的这一属性没有被公布 ...
Induced disgust, happiness and surprise: An addition to the mmi facial expression database
1
2010
... AU数据集的属性
数据集 采集环境 表情激发方式 人脸身份数 图片或视频数 数据形式 发布年份 CK[25 ] 受控 人为 97 486个视频 2D 2000 BP4D[26 ] 受控 自发 41 328个视频 2D, 3D 2014 DISFA[27 ] 受控 自发 27 27个视频 2D 2013 EmotioNet[28 ] 非受控 自发 — 约975 000张图片 2D 2016 Aff-Wild2 (AU Set)[29 ] 非受控 自发 63 63个视频 2D 2019 CK+[30 ] 受控 自发 26 107个视频 2D 2010 MMI[18 ,31 ] 受控 人为、自发 67 2 390个视频和493张图片 2D 2005, 2010 Bosphorous[32 ] 受控 人为 105 4 652张图片 3D 2008 ICT-3DRFE[33 ] 受控 人为 23 345张图片 2D, 3D 2011 D3DFACS[34 ] 受控 人为 10 519个视频 2D, 3D 2011 BP4D+[35 ] 受控 自发 140 1 400个视频 2D, 3D 2016 GFT[36 ] 受控 自发 96 96个视频 2D 2017 CASME II[37 ] 受控 自发 35 247个视频 2D 2014 SAMM[38 ] 受控 自发 32 159个视频 2D 2018 MMEW[39 ] 受控 自发 30 300个视频和900张图片 2D 2021
注: “—”表示数据集的这一属性没有被公布 ...
Bosphorus database for 3D face analysis
1
2008
... AU数据集的属性
数据集 采集环境 表情激发方式 人脸身份数 图片或视频数 数据形式 发布年份 CK[25 ] 受控 人为 97 486个视频 2D 2000 BP4D[26 ] 受控 自发 41 328个视频 2D, 3D 2014 DISFA[27 ] 受控 自发 27 27个视频 2D 2013 EmotioNet[28 ] 非受控 自发 — 约975 000张图片 2D 2016 Aff-Wild2 (AU Set)[29 ] 非受控 自发 63 63个视频 2D 2019 CK+[30 ] 受控 自发 26 107个视频 2D 2010 MMI[18 ,31 ] 受控 人为、自发 67 2 390个视频和493张图片 2D 2005, 2010 Bosphorous[32 ] 受控 人为 105 4 652张图片 3D 2008 ICT-3DRFE[33 ] 受控 人为 23 345张图片 2D, 3D 2011 D3DFACS[34 ] 受控 人为 10 519个视频 2D, 3D 2011 BP4D+[35 ] 受控 自发 140 1 400个视频 2D, 3D 2016 GFT[36 ] 受控 自发 96 96个视频 2D 2017 CASME II[37 ] 受控 自发 35 247个视频 2D 2014 SAMM[38 ] 受控 自发 32 159个视频 2D 2018 MMEW[39 ] 受控 自发 30 300个视频和900张图片 2D 2021
注: “—”表示数据集的这一属性没有被公布 ...
Effect of illumination on automatic expression recognition: A novel 3D relightable facial database
1
2011
... AU数据集的属性
数据集 采集环境 表情激发方式 人脸身份数 图片或视频数 数据形式 发布年份 CK[25 ] 受控 人为 97 486个视频 2D 2000 BP4D[26 ] 受控 自发 41 328个视频 2D, 3D 2014 DISFA[27 ] 受控 自发 27 27个视频 2D 2013 EmotioNet[28 ] 非受控 自发 — 约975 000张图片 2D 2016 Aff-Wild2 (AU Set)[29 ] 非受控 自发 63 63个视频 2D 2019 CK+[30 ] 受控 自发 26 107个视频 2D 2010 MMI[18 ,31 ] 受控 人为、自发 67 2 390个视频和493张图片 2D 2005, 2010 Bosphorous[32 ] 受控 人为 105 4 652张图片 3D 2008 ICT-3DRFE[33 ] 受控 人为 23 345张图片 2D, 3D 2011 D3DFACS[34 ] 受控 人为 10 519个视频 2D, 3D 2011 BP4D+[35 ] 受控 自发 140 1 400个视频 2D, 3D 2016 GFT[36 ] 受控 自发 96 96个视频 2D 2017 CASME II[37 ] 受控 自发 35 247个视频 2D 2014 SAMM[38 ] 受控 自发 32 159个视频 2D 2018 MMEW[39 ] 受控 自发 30 300个视频和900张图片 2D 2021
注: “—”表示数据集的这一属性没有被公布 ...
A facs valid 3D dynamic action unit database with applications to 3D dynamic morphable facial modeling
1
2011
... AU数据集的属性
数据集 采集环境 表情激发方式 人脸身份数 图片或视频数 数据形式 发布年份 CK[25 ] 受控 人为 97 486个视频 2D 2000 BP4D[26 ] 受控 自发 41 328个视频 2D, 3D 2014 DISFA[27 ] 受控 自发 27 27个视频 2D 2013 EmotioNet[28 ] 非受控 自发 — 约975 000张图片 2D 2016 Aff-Wild2 (AU Set)[29 ] 非受控 自发 63 63个视频 2D 2019 CK+[30 ] 受控 自发 26 107个视频 2D 2010 MMI[18 ,31 ] 受控 人为、自发 67 2 390个视频和493张图片 2D 2005, 2010 Bosphorous[32 ] 受控 人为 105 4 652张图片 3D 2008 ICT-3DRFE[33 ] 受控 人为 23 345张图片 2D, 3D 2011 D3DFACS[34 ] 受控 人为 10 519个视频 2D, 3D 2011 BP4D+[35 ] 受控 自发 140 1 400个视频 2D, 3D 2016 GFT[36 ] 受控 自发 96 96个视频 2D 2017 CASME II[37 ] 受控 自发 35 247个视频 2D 2014 SAMM[38 ] 受控 自发 32 159个视频 2D 2018 MMEW[39 ] 受控 自发 30 300个视频和900张图片 2D 2021
注: “—”表示数据集的这一属性没有被公布 ...
Multimodal spontaneous emotion corpus for human behavior analysis
1
2016
... AU数据集的属性
数据集 采集环境 表情激发方式 人脸身份数 图片或视频数 数据形式 发布年份 CK[25 ] 受控 人为 97 486个视频 2D 2000 BP4D[26 ] 受控 自发 41 328个视频 2D, 3D 2014 DISFA[27 ] 受控 自发 27 27个视频 2D 2013 EmotioNet[28 ] 非受控 自发 — 约975 000张图片 2D 2016 Aff-Wild2 (AU Set)[29 ] 非受控 自发 63 63个视频 2D 2019 CK+[30 ] 受控 自发 26 107个视频 2D 2010 MMI[18 ,31 ] 受控 人为、自发 67 2 390个视频和493张图片 2D 2005, 2010 Bosphorous[32 ] 受控 人为 105 4 652张图片 3D 2008 ICT-3DRFE[33 ] 受控 人为 23 345张图片 2D, 3D 2011 D3DFACS[34 ] 受控 人为 10 519个视频 2D, 3D 2011 BP4D+[35 ] 受控 自发 140 1 400个视频 2D, 3D 2016 GFT[36 ] 受控 自发 96 96个视频 2D 2017 CASME II[37 ] 受控 自发 35 247个视频 2D 2014 SAMM[38 ] 受控 自发 32 159个视频 2D 2018 MMEW[39 ] 受控 自发 30 300个视频和900张图片 2D 2021
注: “—”表示数据集的这一属性没有被公布 ...
Sayette group formation task (gft) spontaneous facial expression database
1
2017
... AU数据集的属性
数据集 采集环境 表情激发方式 人脸身份数 图片或视频数 数据形式 发布年份 CK[25 ] 受控 人为 97 486个视频 2D 2000 BP4D[26 ] 受控 自发 41 328个视频 2D, 3D 2014 DISFA[27 ] 受控 自发 27 27个视频 2D 2013 EmotioNet[28 ] 非受控 自发 — 约975 000张图片 2D 2016 Aff-Wild2 (AU Set)[29 ] 非受控 自发 63 63个视频 2D 2019 CK+[30 ] 受控 自发 26 107个视频 2D 2010 MMI[18 ,31 ] 受控 人为、自发 67 2 390个视频和493张图片 2D 2005, 2010 Bosphorous[32 ] 受控 人为 105 4 652张图片 3D 2008 ICT-3DRFE[33 ] 受控 人为 23 345张图片 2D, 3D 2011 D3DFACS[34 ] 受控 人为 10 519个视频 2D, 3D 2011 BP4D+[35 ] 受控 自发 140 1 400个视频 2D, 3D 2016 GFT[36 ] 受控 自发 96 96个视频 2D 2017 CASME II[37 ] 受控 自发 35 247个视频 2D 2014 SAMM[38 ] 受控 自发 32 159个视频 2D 2018 MMEW[39 ] 受控 自发 30 300个视频和900张图片 2D 2021
注: “—”表示数据集的这一属性没有被公布 ...
Casme ii: An improved spontaneous micro-expression database and the baseline evaluation
1
2014
... AU数据集的属性
数据集 采集环境 表情激发方式 人脸身份数 图片或视频数 数据形式 发布年份 CK[25 ] 受控 人为 97 486个视频 2D 2000 BP4D[26 ] 受控 自发 41 328个视频 2D, 3D 2014 DISFA[27 ] 受控 自发 27 27个视频 2D 2013 EmotioNet[28 ] 非受控 自发 — 约975 000张图片 2D 2016 Aff-Wild2 (AU Set)[29 ] 非受控 自发 63 63个视频 2D 2019 CK+[30 ] 受控 自发 26 107个视频 2D 2010 MMI[18 ,31 ] 受控 人为、自发 67 2 390个视频和493张图片 2D 2005, 2010 Bosphorous[32 ] 受控 人为 105 4 652张图片 3D 2008 ICT-3DRFE[33 ] 受控 人为 23 345张图片 2D, 3D 2011 D3DFACS[34 ] 受控 人为 10 519个视频 2D, 3D 2011 BP4D+[35 ] 受控 自发 140 1 400个视频 2D, 3D 2016 GFT[36 ] 受控 自发 96 96个视频 2D 2017 CASME II[37 ] 受控 自发 35 247个视频 2D 2014 SAMM[38 ] 受控 自发 32 159个视频 2D 2018 MMEW[39 ] 受控 自发 30 300个视频和900张图片 2D 2021
注: “—”表示数据集的这一属性没有被公布 ...
Samm: A spontaneous micro-facial movement dataset
1
2018
... AU数据集的属性
数据集 采集环境 表情激发方式 人脸身份数 图片或视频数 数据形式 发布年份 CK[25 ] 受控 人为 97 486个视频 2D 2000 BP4D[26 ] 受控 自发 41 328个视频 2D, 3D 2014 DISFA[27 ] 受控 自发 27 27个视频 2D 2013 EmotioNet[28 ] 非受控 自发 — 约975 000张图片 2D 2016 Aff-Wild2 (AU Set)[29 ] 非受控 自发 63 63个视频 2D 2019 CK+[30 ] 受控 自发 26 107个视频 2D 2010 MMI[18 ,31 ] 受控 人为、自发 67 2 390个视频和493张图片 2D 2005, 2010 Bosphorous[32 ] 受控 人为 105 4 652张图片 3D 2008 ICT-3DRFE[33 ] 受控 人为 23 345张图片 2D, 3D 2011 D3DFACS[34 ] 受控 人为 10 519个视频 2D, 3D 2011 BP4D+[35 ] 受控 自发 140 1 400个视频 2D, 3D 2016 GFT[36 ] 受控 自发 96 96个视频 2D 2017 CASME II[37 ] 受控 自发 35 247个视频 2D 2014 SAMM[38 ] 受控 自发 32 159个视频 2D 2018 MMEW[39 ] 受控 自发 30 300个视频和900张图片 2D 2021
注: “—”表示数据集的这一属性没有被公布 ...
Video-based facial micro-expression analysis: A survey of datasets, features and algorithms
1
... AU数据集的属性
数据集 采集环境 表情激发方式 人脸身份数 图片或视频数 数据形式 发布年份 CK[25 ] 受控 人为 97 486个视频 2D 2000 BP4D[26 ] 受控 自发 41 328个视频 2D, 3D 2014 DISFA[27 ] 受控 自发 27 27个视频 2D 2013 EmotioNet[28 ] 非受控 自发 — 约975 000张图片 2D 2016 Aff-Wild2 (AU Set)[29 ] 非受控 自发 63 63个视频 2D 2019 CK+[30 ] 受控 自发 26 107个视频 2D 2010 MMI[18 ,31 ] 受控 人为、自发 67 2 390个视频和493张图片 2D 2005, 2010 Bosphorous[32 ] 受控 人为 105 4 652张图片 3D 2008 ICT-3DRFE[33 ] 受控 人为 23 345张图片 2D, 3D 2011 D3DFACS[34 ] 受控 人为 10 519个视频 2D, 3D 2011 BP4D+[35 ] 受控 自发 140 1 400个视频 2D, 3D 2016 GFT[36 ] 受控 自发 96 96个视频 2D 2017 CASME II[37 ] 受控 自发 35 247个视频 2D 2014 SAMM[38 ] 受控 自发 32 159个视频 2D 2018 MMEW[39 ] 受控 自发 30 300个视频和900张图片 2D 2021
注: “—”表示数据集的这一属性没有被公布 ...
Pose-independent facial action unit intensity regression based on multi-task deep transfer learning
1
2017
... 最常见的迁移学习方法是在当前数据集上微调其他图像数据集上预训练的模型,由于不同类型的图像时常具有相似的颜色分布和背景环境等属性,预训练模型所携带的知识也有利于当前模型的训练.Zhou等人[40 ] 基于一个在ImageNet[41 ] 上预训练的VGG16[42 ] 网络,实现AU强度估计和头部姿态估计.Ji等人[43 ] 在整体表情识别和人脸识别这2个与AU相关联任务的数据集上分别预训练ResNet-34网络[44 ] ,接着在AU数据集上分别微调2个网络,并将2个网络预测的AU出现概率取平均作为最终的预测值.预训练的数据集与当前数据集之间存在域(Domain)差异,且微调过程可能会丢失一些有用信息,因而限制了微调预训练模型的有效性. ...
Imagenet large scale visual recognition challenge
1
2015
... 最常见的迁移学习方法是在当前数据集上微调其他图像数据集上预训练的模型,由于不同类型的图像时常具有相似的颜色分布和背景环境等属性,预训练模型所携带的知识也有利于当前模型的训练.Zhou等人[40 ] 基于一个在ImageNet[41 ] 上预训练的VGG16[42 ] 网络,实现AU强度估计和头部姿态估计.Ji等人[43 ] 在整体表情识别和人脸识别这2个与AU相关联任务的数据集上分别预训练ResNet-34网络[44 ] ,接着在AU数据集上分别微调2个网络,并将2个网络预测的AU出现概率取平均作为最终的预测值.预训练的数据集与当前数据集之间存在域(Domain)差异,且微调过程可能会丢失一些有用信息,因而限制了微调预训练模型的有效性. ...
Very deep convolutional networks for large-scale image recognition
1
2015
... 最常见的迁移学习方法是在当前数据集上微调其他图像数据集上预训练的模型,由于不同类型的图像时常具有相似的颜色分布和背景环境等属性,预训练模型所携带的知识也有利于当前模型的训练.Zhou等人[40 ] 基于一个在ImageNet[41 ] 上预训练的VGG16[42 ] 网络,实现AU强度估计和头部姿态估计.Ji等人[43 ] 在整体表情识别和人脸识别这2个与AU相关联任务的数据集上分别预训练ResNet-34网络[44 ] ,接着在AU数据集上分别微调2个网络,并将2个网络预测的AU出现概率取平均作为最终的预测值.预训练的数据集与当前数据集之间存在域(Domain)差异,且微调过程可能会丢失一些有用信息,因而限制了微调预训练模型的有效性. ...
Multiple transfer learning and multi-label balanced training strategies for facial AU detection in the wild
1
2020
... 最常见的迁移学习方法是在当前数据集上微调其他图像数据集上预训练的模型,由于不同类型的图像时常具有相似的颜色分布和背景环境等属性,预训练模型所携带的知识也有利于当前模型的训练.Zhou等人[40 ] 基于一个在ImageNet[41 ] 上预训练的VGG16[42 ] 网络,实现AU强度估计和头部姿态估计.Ji等人[43 ] 在整体表情识别和人脸识别这2个与AU相关联任务的数据集上分别预训练ResNet-34网络[44 ] ,接着在AU数据集上分别微调2个网络,并将2个网络预测的AU出现概率取平均作为最终的预测值.预训练的数据集与当前数据集之间存在域(Domain)差异,且微调过程可能会丢失一些有用信息,因而限制了微调预训练模型的有效性. ...
Deep residual learning for image recognition
1
2016
... 最常见的迁移学习方法是在当前数据集上微调其他图像数据集上预训练的模型,由于不同类型的图像时常具有相似的颜色分布和背景环境等属性,预训练模型所携带的知识也有利于当前模型的训练.Zhou等人[40 ] 基于一个在ImageNet[41 ] 上预训练的VGG16[42 ] 网络,实现AU强度估计和头部姿态估计.Ji等人[43 ] 在整体表情识别和人脸识别这2个与AU相关联任务的数据集上分别预训练ResNet-34网络[44 ] ,接着在AU数据集上分别微调2个网络,并将2个网络预测的AU出现概率取平均作为最终的预测值.预训练的数据集与当前数据集之间存在域(Domain)差异,且微调过程可能会丢失一些有用信息,因而限制了微调预训练模型的有效性. ...
Facial action unit recognition in the wild with multi-task cnn self-training for the emotionet challenge
1
2020
... 另一个基于已有模型的思路是生成伪标签,即利用训练好的AU识别模型对图片自动地标注,这实质上是利用了AU识别模型中存储的训练数据的知识.Benitez-Quiroz等人[28 ] 发布了一个从互联网上抓取的非受控场景人脸图片数据集EmotioNet,其中优化集具有准确的人工标签,而训练集只有受控场景图片上训练的模型所标注的伪标签.考虑到自动标注模型的训练数据与被标注图片之间存在域差异,自动标注的伪标签并不准确.为改进EmotioNet的伪标签,Werner等人[45 ] 采用一个自训练方法,以多任务的形式同时在优化集和训练集上训练深度卷积神经网络(Deep Convolutional Neural Network,DCNN),其中优化集对应的分类器分支作为最终分类器,然后利用训练好的模型对训练集图片重新标注伪标签,再重新训练网络,重复这一过程直至性能已收敛或已满足精度要求.然而,这一自训练方法依赖优化集的人工标签. ...
Weakly supervised facial action unit recognition through adversarial training
1
2018
... 由表1 不难看出,AU与整体表情之间存在条件依赖关系.Peng等人[46 ] 从多个AU数据集中统计出给定整体表情下某一AU出现的条件概率,并结合先验的AU间关系,从表情标签生成AU的伪标签.进一步地,Peng等人[47 ] 基于全部样本的表情标签和部分样本的AU标签,提出一个对偶半监督的生成对抗网络(Generative Adversarial Network,GAN)[48 ] ,联合地学习AU分类器和人脸图片生成器.由于任务的对偶性,AU分类器的输入输出联合分布和人脸生成器应该是一致的,该方法通过对抗学习迫使输入输出联合分布收敛到AU-表情标注数据的真实分布.Zhang等人[49 ] 将表情独立的和表情依赖的AU概率作为约束融入目标函数,促进AU分类器的训练.然而,将固定的先验知识应用于所有样本忽视了不同样本间AU动态变化的特性. ...
Dual semi-supervised learning for facial action unit recognition
1
2019
... 由表1 不难看出,AU与整体表情之间存在条件依赖关系.Peng等人[46 ] 从多个AU数据集中统计出给定整体表情下某一AU出现的条件概率,并结合先验的AU间关系,从表情标签生成AU的伪标签.进一步地,Peng等人[47 ] 基于全部样本的表情标签和部分样本的AU标签,提出一个对偶半监督的生成对抗网络(Generative Adversarial Network,GAN)[48 ] ,联合地学习AU分类器和人脸图片生成器.由于任务的对偶性,AU分类器的输入输出联合分布和人脸生成器应该是一致的,该方法通过对抗学习迫使输入输出联合分布收敛到AU-表情标注数据的真实分布.Zhang等人[49 ] 将表情独立的和表情依赖的AU概率作为约束融入目标函数,促进AU分类器的训练.然而,将固定的先验知识应用于所有样本忽视了不同样本间AU动态变化的特性. ...
Generative adversarial nets
1
2014
... 由表1 不难看出,AU与整体表情之间存在条件依赖关系.Peng等人[46 ] 从多个AU数据集中统计出给定整体表情下某一AU出现的条件概率,并结合先验的AU间关系,从表情标签生成AU的伪标签.进一步地,Peng等人[47 ] 基于全部样本的表情标签和部分样本的AU标签,提出一个对偶半监督的生成对抗网络(Generative Adversarial Network,GAN)[48 ] ,联合地学习AU分类器和人脸图片生成器.由于任务的对偶性,AU分类器的输入输出联合分布和人脸生成器应该是一致的,该方法通过对抗学习迫使输入输出联合分布收敛到AU-表情标注数据的真实分布.Zhang等人[49 ] 将表情独立的和表情依赖的AU概率作为约束融入目标函数,促进AU分类器的训练.然而,将固定的先验知识应用于所有样本忽视了不同样本间AU动态变化的特性. ...
Classifier learning with prior probabilities for facial action unit recognition
1
2018
... 由表1 不难看出,AU与整体表情之间存在条件依赖关系.Peng等人[46 ] 从多个AU数据集中统计出给定整体表情下某一AU出现的条件概率,并结合先验的AU间关系,从表情标签生成AU的伪标签.进一步地,Peng等人[47 ] 基于全部样本的表情标签和部分样本的AU标签,提出一个对偶半监督的生成对抗网络(Generative Adversarial Network,GAN)[48 ] ,联合地学习AU分类器和人脸图片生成器.由于任务的对偶性,AU分类器的输入输出联合分布和人脸生成器应该是一致的,该方法通过对抗学习迫使输入输出联合分布收敛到AU-表情标注数据的真实分布.Zhang等人[49 ] 将表情独立的和表情依赖的AU概率作为约束融入目标函数,促进AU分类器的训练.然而,将固定的先验知识应用于所有样本忽视了不同样本间AU动态变化的特性. ...
Deep facial action unit recognition from partially labeled data
1
2017
... 另一些方法在具有AU标签的样本基础上,引入大量无标签的样本.Wu等人[50 ] 基于深度神经网络学习人脸特征,并利用受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)从部分样本的完整AU标签中学习标签分布,然后通过最大化AU映射函数相对于所有无标签数据的标签分布的似然对数,同时最小化有标签数据的AU预测值和真实值之间的误差,来训练AU分类器.然而,从有限样本学习的标签分布可能并不适用于其他样本.Zhang等人[51 ] 利用4种先验的AU约束来额外地监督训练过程:越临近帧的特征越相似、一段AU动作中强度随帧非递减、面部对称性、相对于中性表情外观的差异性.该方法在训练时要求图像序列中某一AU在一段动作过程中峰值和谷值所在帧具有该AU的标签,降低了适用性. ...
Weakly-supervised deep convolutional neural network learning for facial action unit intensity estimation
4
2018
... 另一些方法在具有AU标签的样本基础上,引入大量无标签的样本.Wu等人[50 ] 基于深度神经网络学习人脸特征,并利用受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)从部分样本的完整AU标签中学习标签分布,然后通过最大化AU映射函数相对于所有无标签数据的标签分布的似然对数,同时最小化有标签数据的AU预测值和真实值之间的误差,来训练AU分类器.然而,从有限样本学习的标签分布可能并不适用于其他样本.Zhang等人[51 ] 利用4种先验的AU约束来额外地监督训练过程:越临近帧的特征越相似、一段AU动作中强度随帧非递减、面部对称性、相对于中性表情外观的差异性.该方法在训练时要求图像序列中某一AU在一段动作过程中峰值和谷值所在帧具有该AU的标签,降低了适用性. ...
... 在BP4D和DISFA上按照文献[76 ,51 ,24 ]的设置,BP4D的训练集包含21个人脸身份,测试集包含20个人脸身份,在5个AU(6,10,12,14和17)上评估,DISFA的训练集包含18个人脸身份,测试集包含9个人脸身份,在12个AU(1,2,4,5,6,9,12,15,17,20,25和26)上评估.评价指标采用组内相关系数(Intra-Class Correlation,ICC(3,1))[93 ] . ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ,76 ] √ 0.52/0.29 CCNN-IT[76 ] √ 0.63/0.45 2DC[74 ] √ 0.66/0.50 KBSS[51 ] √ √ 0.67/0.36 ARL[24 ] √ √ 0.66/0.48 SCC[83 ] √ √ 0.72 /0.47G2RL[73 ] √ √ √ 0.69/0.52 DPG[89 ] √ √ 0.72 /0.56 注: 这里展示了每个方法原始文献所报告的在所有AU上的平均ICC ...
... (5)与JÂA-Net[52 ] 和G2RL[73 ] 相比,R-T1[65 ] ,AU R-CNN[64 ] ,KBSS[51 ] 和SCC[83 ] 等工作无法在BP4D和DISFA上同时取得较高的精度,说明AU识别模型的可靠性和泛化能力也是需要着重研究的地方. ...
Jaa-net: Joint facial action unit detection and face alignment via adaptive attention
7
2021
... 此外,相关联任务的已有标签也可以被利用来促进AU识别.Shao等人[52 ] 采取多任务学习,基于CNN联合地实现人脸AU识别和人脸配准,利用任务间的关联性使得彼此相互促进,且配准分支学习的特征被传入AU识别任务,有利于提升AU识别精度.Jyoti等人[53 ] 将整体表情识别网络所提取的特征传入AU识别网络,促进AU识别.Tu等人[54 ] 采用底部层共享的人脸识别网络和AU识别网络,其中人脸识别网络学习身份特征,然后AU识别网络所提取的特征在减去身份特征后进一步回归AU预测值.这类方法的效果很大程度上依赖任务间的关联性强弱以及所设计多任务结构的有效性. ...
... FACS基于客观的人脸解剖学来定义AU,每个AU的中心与人脸特征点之间有先验的位置关系,图5 展示了一些常见AU的位置定义规则[61 ,52 ] ,因此可以通过特征点来准确确定AU的中心位置,从而提取与AU关联的局部特征.Jaiswal等人[62 ] 利用特征点为每个AU预定义方形的感兴趣区域(Region of Interest,ROI)以及对应的二进制掩膜(Mask),其中掩膜上特征点形成的多边形区域内点的值为1而其他点的值为0,然后基于CNN从裁剪的ROI和掩膜提取每个AU的特征.Ali等人[63 ] 先利用一个卷积层提取低层特征,然后根据特征点位置在这一特征图(Feature Map)上裁剪与AU的ROI对应的方块,并分别利用一个CNN从每个方块进一步提取特征.Ma等人[64 ] 利用特征点为AU定义边界框(Bounding Box),将通用的物体检测问题融入AU识别,预测AU在哪个边界框出现,若某一AU不出现于当前人脸,则对于所有边界框都应被预测为不出现.这些方法将ROI内所有位置视为相等的重要性,没有考虑到离AU中心越近的位置应该与AU越相关. ...
... Li等人[61 ,65 ] 为每个AU的ROI定义注意力(Attention)分布,ROI内离中心越近的位置其注意力权重越大,然后在AU识别网络中利用注意力图对特征图中的AU特征进行增强,并在网络的末端从特征图上裁剪每个AU的ROI方块.Sanchez等人[66 ] 依据AU的标签将其注意力分布定义为高斯分布,特征点决定分布的中心位置而AU强度决定分布的振幅和大小,然后利用CNN从输入图像回归每个AU的注意力图来实现AU强度估计.考虑到AU会随人和表情变化而非刚性变化且不可加性导致AU的外观改变,Shao等人[52 ] 在CNN中利用配准分支所预测的特征点定义初始注意力图,然后利用AU识别的监督信号自适应地优化每个AU的注意力图,从而更准确地捕捉AU关联区域.然而,上述方法均被特征点先验知识所约束,每个AU的注意力高亮区域集中在预定义ROI的附近,难以准确捕捉远离预定义ROI的关联区域. ...
... 此外,为了抑制标签不均衡导致的预测偏置,许多工作通过调整采样率和权重来进行平衡.Li等人[61 ] 在深度神经网络的训练过程中对训练集中出现频率较低的AU采用更大的随机采样率,使得每个小批量(Mini-Batch)中不同AU出现的频率较均衡.另一些工作[24 ,52 ,77 ] 在计算AU识别损失时,给每一AU所赋的权重与该AU出现的频率成反比,从而加强了出现频率较低的AU.此外,为了平衡每个AU的出现频率和不出现频率,Li等人[79 ] 对交叉熵损失中出现频率的熵项乘以训练集中该AU的不出现频率,而对不出现频率的熵项乘以该AU的出现频率,这样,若某一AU的不出现频率大于出现频率,其对应于出现的损失项被加强.Song等人[84 ] 提出自适应加权损失函数,通过自适应地学习认知不确定性(Epistemic Uncertainty)来计算小批量中每个样本的权重,不确定性越高的样本被赋以越大的权重,从而抵消数据不均衡. ...
... 在BP4D和DISFA上按照文献[68 ,61 ,52 ]的设置,采用3-折交叉验证(3-Fold Cross-Validation),每折包含的人脸身份无交叠,每次实验其中两折用于训练而剩余的一折用于测试,BP4D为在12个AU(1,2,4,6,7,10,12,14,15,17,23和24)上评估,DISFA为在8 个AU(1,2,4,6,9,12,25和26)上评估.评价指标采用基于帧的F1分数(Frame-Based F1-Score),其定义为 ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
... (5)与JÂA-Net[52 ] 和G2RL[73 ] 相比,R-T1[65 ] ,AU R-CNN[64 ] ,KBSS[51 ] 和SCC[83 ] 等工作无法在BP4D和DISFA上同时取得较高的精度,说明AU识别模型的可靠性和泛化能力也是需要着重研究的地方. ...
Expression empowered residen network for facial action unit detection
1
2019
... 此外,相关联任务的已有标签也可以被利用来促进AU识别.Shao等人[52 ] 采取多任务学习,基于CNN联合地实现人脸AU识别和人脸配准,利用任务间的关联性使得彼此相互促进,且配准分支学习的特征被传入AU识别任务,有利于提升AU识别精度.Jyoti等人[53 ] 将整体表情识别网络所提取的特征传入AU识别网络,促进AU识别.Tu等人[54 ] 采用底部层共享的人脸识别网络和AU识别网络,其中人脸识别网络学习身份特征,然后AU识别网络所提取的特征在减去身份特征后进一步回归AU预测值.这类方法的效果很大程度上依赖任务间的关联性强弱以及所设计多任务结构的有效性. ...
Idennet: Identity-aware facial action unit detection
1
2019
... 此外,相关联任务的已有标签也可以被利用来促进AU识别.Shao等人[52 ] 采取多任务学习,基于CNN联合地实现人脸AU识别和人脸配准,利用任务间的关联性使得彼此相互促进,且配准分支学习的特征被传入AU识别任务,有利于提升AU识别精度.Jyoti等人[53 ] 将整体表情识别网络所提取的特征传入AU识别网络,促进AU识别.Tu等人[54 ] 采用底部层共享的人脸识别网络和AU识别网络,其中人脸识别网络学习身份特征,然后AU识别网络所提取的特征在减去身份特征后进一步回归AU预测值.这类方法的效果很大程度上依赖任务间的关联性强弱以及所设计多任务结构的有效性. ...
Conditional adversarial synthesis of 3D facial action units
1
2019
... 域映射指从一个域映射到另一个域,其中域包括图像、特征、标签等.近年来,一些工作通过域适应(Domain Adaptation)来提取源域知识,使其适应目标域,从而促进目标域任务的学习.一个常见做法是将目标图片的表情编辑为源图片的表情,从而将源图片的AU标签迁移到新生成的目标图片上,实现数据扩增.Liu等人[55 ] 以源AU标签为条件,基于条件GAN[56 ] 生成源表情参数,再与目标图片的其他人脸属性参数组合,利用3D可变模型(3D Morphable Model,3DMM)[57 ] 生成具有源表情和目标图片纹理的新图片.Wang等人[58 ] 在不依赖3DMM的情况下同时训练GAN和AU分类器,合成具有源图片AU属性且保留目标纹理的新图片.然而这2个工作针对的源图片和目标图片都仅来自受控场景. ...
Conditional generative adversarial nets
1
... 域映射指从一个域映射到另一个域,其中域包括图像、特征、标签等.近年来,一些工作通过域适应(Domain Adaptation)来提取源域知识,使其适应目标域,从而促进目标域任务的学习.一个常见做法是将目标图片的表情编辑为源图片的表情,从而将源图片的AU标签迁移到新生成的目标图片上,实现数据扩增.Liu等人[55 ] 以源AU标签为条件,基于条件GAN[56 ] 生成源表情参数,再与目标图片的其他人脸属性参数组合,利用3D可变模型(3D Morphable Model,3DMM)[57 ] 生成具有源表情和目标图片纹理的新图片.Wang等人[58 ] 在不依赖3DMM的情况下同时训练GAN和AU分类器,合成具有源图片AU属性且保留目标纹理的新图片.然而这2个工作针对的源图片和目标图片都仅来自受控场景. ...
A morphable model for the synthesis of 3D faces
1
1999
... 域映射指从一个域映射到另一个域,其中域包括图像、特征、标签等.近年来,一些工作通过域适应(Domain Adaptation)来提取源域知识,使其适应目标域,从而促进目标域任务的学习.一个常见做法是将目标图片的表情编辑为源图片的表情,从而将源图片的AU标签迁移到新生成的目标图片上,实现数据扩增.Liu等人[55 ] 以源AU标签为条件,基于条件GAN[56 ] 生成源表情参数,再与目标图片的其他人脸属性参数组合,利用3D可变模型(3D Morphable Model,3DMM)[57 ] 生成具有源表情和目标图片纹理的新图片.Wang等人[58 ] 在不依赖3DMM的情况下同时训练GAN和AU分类器,合成具有源图片AU属性且保留目标纹理的新图片.然而这2个工作针对的源图片和目标图片都仅来自受控场景. ...
Personalized multiple facial action unit recognition through generative adversarial recognition network
1
2018
... 域映射指从一个域映射到另一个域,其中域包括图像、特征、标签等.近年来,一些工作通过域适应(Domain Adaptation)来提取源域知识,使其适应目标域,从而促进目标域任务的学习.一个常见做法是将目标图片的表情编辑为源图片的表情,从而将源图片的AU标签迁移到新生成的目标图片上,实现数据扩增.Liu等人[55 ] 以源AU标签为条件,基于条件GAN[56 ] 生成源表情参数,再与目标图片的其他人脸属性参数组合,利用3D可变模型(3D Morphable Model,3DMM)[57 ] 生成具有源表情和目标图片纹理的新图片.Wang等人[58 ] 在不依赖3DMM的情况下同时训练GAN和AU分类器,合成具有源图片AU属性且保留目标纹理的新图片.然而这2个工作针对的源图片和目标图片都仅来自受控场景. ...
Self-supervised learning of a facial attribute embedding from video
1
2018
... 除了域适应外,域映射的另一个应用是自监督学习,其从数据本身的结构推断出监督信号而不需要AU标签.Wiles等人[59 ] 提出一个人脸属性网络,输入为来自同一视频的目标帧和源帧,首先编码器学习目标帧和源帧的人脸属性特征,两者被串联起来输入到解码器中生成具有源帧表情和目标帧姿态的新图像,其中解码器对生成图像上每一像素与源帧像素的位置对应关系进行预测,同时约束生成图像与目标帧相似,这里人脸属性特征包含了表情信息,因而可以用于AU识别.考虑到AU是面部肌肉动作,Li等人[60 ] 将视频中2张不同帧之间的人脸变化视为动作,并以此为自监督信号来学习特征,具体采用一个双循环自编码器,将AU相关的动作和头部姿态相关的动作解耦出来,从而得到AU相关的特征.然而这些方法要求训练时输入的一对图像来自同一视频且具有相同的人脸身份,限制了其适用性. ...
Learning representations for facial actions from unlabeled videos
3
2022
... 除了域适应外,域映射的另一个应用是自监督学习,其从数据本身的结构推断出监督信号而不需要AU标签.Wiles等人[59 ] 提出一个人脸属性网络,输入为来自同一视频的目标帧和源帧,首先编码器学习目标帧和源帧的人脸属性特征,两者被串联起来输入到解码器中生成具有源帧表情和目标帧姿态的新图像,其中解码器对生成图像上每一像素与源帧像素的位置对应关系进行预测,同时约束生成图像与目标帧相似,这里人脸属性特征包含了表情信息,因而可以用于AU识别.考虑到AU是面部肌肉动作,Li等人[60 ] 将视频中2张不同帧之间的人脸变化视为动作,并以此为自监督信号来学习特征,具体采用一个双循环自编码器,将AU相关的动作和头部姿态相关的动作解耦出来,从而得到AU相关的特征.然而这些方法要求训练时输入的一对图像来自同一视频且具有相同的人脸身份,限制了其适用性. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
... (4)当前基于迁移学习的工作如MLCR[82 ] 和TAE[60 ] 并未取得相比于其他工作明显的性能优势,说明这类方法仍有较大的挖掘空间,需要进一步从AU的特性出发,提出有效的模型来充分利用已有的样本、标签、模型以及先验知识. ...
Eac-net: Deep nets with enhancing and cropping for facial action unit detection
5
2018
... FACS基于客观的人脸解剖学来定义AU,每个AU的中心与人脸特征点之间有先验的位置关系,图5 展示了一些常见AU的位置定义规则[61 ,52 ] ,因此可以通过特征点来准确确定AU的中心位置,从而提取与AU关联的局部特征.Jaiswal等人[62 ] 利用特征点为每个AU预定义方形的感兴趣区域(Region of Interest,ROI)以及对应的二进制掩膜(Mask),其中掩膜上特征点形成的多边形区域内点的值为1而其他点的值为0,然后基于CNN从裁剪的ROI和掩膜提取每个AU的特征.Ali等人[63 ] 先利用一个卷积层提取低层特征,然后根据特征点位置在这一特征图(Feature Map)上裁剪与AU的ROI对应的方块,并分别利用一个CNN从每个方块进一步提取特征.Ma等人[64 ] 利用特征点为AU定义边界框(Bounding Box),将通用的物体检测问题融入AU识别,预测AU在哪个边界框出现,若某一AU不出现于当前人脸,则对于所有边界框都应被预测为不出现.这些方法将ROI内所有位置视为相等的重要性,没有考虑到离AU中心越近的位置应该与AU越相关. ...
... Li等人[61 ,65 ] 为每个AU的ROI定义注意力(Attention)分布,ROI内离中心越近的位置其注意力权重越大,然后在AU识别网络中利用注意力图对特征图中的AU特征进行增强,并在网络的末端从特征图上裁剪每个AU的ROI方块.Sanchez等人[66 ] 依据AU的标签将其注意力分布定义为高斯分布,特征点决定分布的中心位置而AU强度决定分布的振幅和大小,然后利用CNN从输入图像回归每个AU的注意力图来实现AU强度估计.考虑到AU会随人和表情变化而非刚性变化且不可加性导致AU的外观改变,Shao等人[52 ] 在CNN中利用配准分支所预测的特征点定义初始注意力图,然后利用AU识别的监督信号自适应地优化每个AU的注意力图,从而更准确地捕捉AU关联区域.然而,上述方法均被特征点先验知识所约束,每个AU的注意力高亮区域集中在预定义ROI的附近,难以准确捕捉远离预定义ROI的关联区域. ...
... 此外,为了抑制标签不均衡导致的预测偏置,许多工作通过调整采样率和权重来进行平衡.Li等人[61 ] 在深度神经网络的训练过程中对训练集中出现频率较低的AU采用更大的随机采样率,使得每个小批量(Mini-Batch)中不同AU出现的频率较均衡.另一些工作[24 ,52 ,77 ] 在计算AU识别损失时,给每一AU所赋的权重与该AU出现的频率成反比,从而加强了出现频率较低的AU.此外,为了平衡每个AU的出现频率和不出现频率,Li等人[79 ] 对交叉熵损失中出现频率的熵项乘以训练集中该AU的不出现频率,而对不出现频率的熵项乘以该AU的出现频率,这样,若某一AU的不出现频率大于出现频率,其对应于出现的损失项被加强.Song等人[84 ] 提出自适应加权损失函数,通过自适应地学习认知不确定性(Epistemic Uncertainty)来计算小批量中每个样本的权重,不确定性越高的样本被赋以越大的权重,从而抵消数据不均衡. ...
... 在BP4D和DISFA上按照文献[68 ,61 ,52 ]的设置,采用3-折交叉验证(3-Fold Cross-Validation),每折包含的人脸身份无交叠,每次实验其中两折用于训练而剩余的一折用于测试,BP4D为在12个AU(1,2,4,6,7,10,12,14,15,17,23和24)上评估,DISFA为在8 个AU(1,2,4,6,9,12,25和26)上评估.评价指标采用基于帧的F1分数(Frame-Based F1-Score),其定义为 ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
Deep learning the dynamic appearance and shape of facial action units
1
2016
... FACS基于客观的人脸解剖学来定义AU,每个AU的中心与人脸特征点之间有先验的位置关系,图5 展示了一些常见AU的位置定义规则[61 ,52 ] ,因此可以通过特征点来准确确定AU的中心位置,从而提取与AU关联的局部特征.Jaiswal等人[62 ] 利用特征点为每个AU预定义方形的感兴趣区域(Region of Interest,ROI)以及对应的二进制掩膜(Mask),其中掩膜上特征点形成的多边形区域内点的值为1而其他点的值为0,然后基于CNN从裁剪的ROI和掩膜提取每个AU的特征.Ali等人[63 ] 先利用一个卷积层提取低层特征,然后根据特征点位置在这一特征图(Feature Map)上裁剪与AU的ROI对应的方块,并分别利用一个CNN从每个方块进一步提取特征.Ma等人[64 ] 利用特征点为AU定义边界框(Bounding Box),将通用的物体检测问题融入AU识别,预测AU在哪个边界框出现,若某一AU不出现于当前人脸,则对于所有边界框都应被预测为不出现.这些方法将ROI内所有位置视为相等的重要性,没有考虑到离AU中心越近的位置应该与AU越相关. ...
Facial action units detection under pose variations using deep regions learning
1
2017
... FACS基于客观的人脸解剖学来定义AU,每个AU的中心与人脸特征点之间有先验的位置关系,图5 展示了一些常见AU的位置定义规则[61 ,52 ] ,因此可以通过特征点来准确确定AU的中心位置,从而提取与AU关联的局部特征.Jaiswal等人[62 ] 利用特征点为每个AU预定义方形的感兴趣区域(Region of Interest,ROI)以及对应的二进制掩膜(Mask),其中掩膜上特征点形成的多边形区域内点的值为1而其他点的值为0,然后基于CNN从裁剪的ROI和掩膜提取每个AU的特征.Ali等人[63 ] 先利用一个卷积层提取低层特征,然后根据特征点位置在这一特征图(Feature Map)上裁剪与AU的ROI对应的方块,并分别利用一个CNN从每个方块进一步提取特征.Ma等人[64 ] 利用特征点为AU定义边界框(Bounding Box),将通用的物体检测问题融入AU识别,预测AU在哪个边界框出现,若某一AU不出现于当前人脸,则对于所有边界框都应被预测为不出现.这些方法将ROI内所有位置视为相等的重要性,没有考虑到离AU中心越近的位置应该与AU越相关. ...
AU R-CNN: Encoding expert prior knowledge into R-CNN for action unit detection
3
2019
... FACS基于客观的人脸解剖学来定义AU,每个AU的中心与人脸特征点之间有先验的位置关系,图5 展示了一些常见AU的位置定义规则[61 ,52 ] ,因此可以通过特征点来准确确定AU的中心位置,从而提取与AU关联的局部特征.Jaiswal等人[62 ] 利用特征点为每个AU预定义方形的感兴趣区域(Region of Interest,ROI)以及对应的二进制掩膜(Mask),其中掩膜上特征点形成的多边形区域内点的值为1而其他点的值为0,然后基于CNN从裁剪的ROI和掩膜提取每个AU的特征.Ali等人[63 ] 先利用一个卷积层提取低层特征,然后根据特征点位置在这一特征图(Feature Map)上裁剪与AU的ROI对应的方块,并分别利用一个CNN从每个方块进一步提取特征.Ma等人[64 ] 利用特征点为AU定义边界框(Bounding Box),将通用的物体检测问题融入AU识别,预测AU在哪个边界框出现,若某一AU不出现于当前人脸,则对于所有边界框都应被预测为不出现.这些方法将ROI内所有位置视为相等的重要性,没有考虑到离AU中心越近的位置应该与AU越相关. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
... (5)与JÂA-Net[52 ] 和G2RL[73 ] 相比,R-T1[65 ] ,AU R-CNN[64 ] ,KBSS[51 ] 和SCC[83 ] 等工作无法在BP4D和DISFA上同时取得较高的精度,说明AU识别模型的可靠性和泛化能力也是需要着重研究的地方. ...
Action unit detection with region adaptation, multi-labeling learning and optimal temporal fusing
4
2017
... Li等人[61 ,65 ] 为每个AU的ROI定义注意力(Attention)分布,ROI内离中心越近的位置其注意力权重越大,然后在AU识别网络中利用注意力图对特征图中的AU特征进行增强,并在网络的末端从特征图上裁剪每个AU的ROI方块.Sanchez等人[66 ] 依据AU的标签将其注意力分布定义为高斯分布,特征点决定分布的中心位置而AU强度决定分布的振幅和大小,然后利用CNN从输入图像回归每个AU的注意力图来实现AU强度估计.考虑到AU会随人和表情变化而非刚性变化且不可加性导致AU的外观改变,Shao等人[52 ] 在CNN中利用配准分支所预测的特征点定义初始注意力图,然后利用AU识别的监督信号自适应地优化每个AU的注意力图,从而更准确地捕捉AU关联区域.然而,上述方法均被特征点先验知识所约束,每个AU的注意力高亮区域集中在预定义ROI的附近,难以准确捕捉远离预定义ROI的关联区域. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
... (3)采用关联学习的工作如R-T1[65 ] ,D-PAttNet[71 ] 和DPG[89 ] 取得相比于其他工作更高的精度,表明AU间关联以及时域关联对AU识别具有重要意义. ...
... (5)与JÂA-Net[52 ] 和G2RL[73 ] 相比,R-T1[65 ] ,AU R-CNN[64 ] ,KBSS[51 ] 和SCC[83 ] 等工作无法在BP4D和DISFA上同时取得较高的精度,说明AU识别模型的可靠性和泛化能力也是需要着重研究的地方. ...
Joint action unit localisation and intensity estimation through heatmap regression
1
2018
... Li等人[61 ,65 ] 为每个AU的ROI定义注意力(Attention)分布,ROI内离中心越近的位置其注意力权重越大,然后在AU识别网络中利用注意力图对特征图中的AU特征进行增强,并在网络的末端从特征图上裁剪每个AU的ROI方块.Sanchez等人[66 ] 依据AU的标签将其注意力分布定义为高斯分布,特征点决定分布的中心位置而AU强度决定分布的振幅和大小,然后利用CNN从输入图像回归每个AU的注意力图来实现AU强度估计.考虑到AU会随人和表情变化而非刚性变化且不可加性导致AU的外观改变,Shao等人[52 ] 在CNN中利用配准分支所预测的特征点定义初始注意力图,然后利用AU识别的监督信号自适应地优化每个AU的注意力图,从而更准确地捕捉AU关联区域.然而,上述方法均被特征点先验知识所约束,每个AU的注意力高亮区域集中在预定义ROI的附近,难以准确捕捉远离预定义ROI的关联区域. ...
AU-aware deep Networks for facial expression recognition
1
2013
... 当利用AU标签来有监督地训练深度神经网络时,网络在特征学习过程中会隐式地自适应捕捉AU的关联区域.Liu等人[67 ] 迭代地在CNN学习的特征图上选择与目标表情标签相关性最高的特征,这些特征所在区域被期望为与AU关联的感受野,然后将这些感受野内的特征输入到RBM来实现表情分类.考虑到不同人脸区域的AU具有不同的结构和纹理属性,对不同区域应该采用独立而不是共享的滤波器,Zhao等人[68 ] 引入分块卷积层,将特征图划分为相同大小的多个小块,在每一小块内部采用独立的卷积滤波器来提取特征,该特征图能够隐式地捕捉AU的关联区域.为了适应不同大小的AU,Han等人[69 ] 提出自适应大小的卷积滤波器,在训练CNN时学习卷积层的滤波器大小和权重参数.然而,这些方法没有以显式的方式来自适应学习关联区域,因此只能粗略地确定AU的区域位置. ...
Deep region and multi-label learning for facial action unit detection
4
2016
... 当利用AU标签来有监督地训练深度神经网络时,网络在特征学习过程中会隐式地自适应捕捉AU的关联区域.Liu等人[67 ] 迭代地在CNN学习的特征图上选择与目标表情标签相关性最高的特征,这些特征所在区域被期望为与AU关联的感受野,然后将这些感受野内的特征输入到RBM来实现表情分类.考虑到不同人脸区域的AU具有不同的结构和纹理属性,对不同区域应该采用独立而不是共享的滤波器,Zhao等人[68 ] 引入分块卷积层,将特征图划分为相同大小的多个小块,在每一小块内部采用独立的卷积滤波器来提取特征,该特征图能够隐式地捕捉AU的关联区域.为了适应不同大小的AU,Han等人[69 ] 提出自适应大小的卷积滤波器,在训练CNN时学习卷积层的滤波器大小和权重参数.然而,这些方法没有以显式的方式来自适应学习关联区域,因此只能粗略地确定AU的区域位置. ...
... 在BP4D和DISFA上按照文献[68 ,61 ,52 ]的设置,采用3-折交叉验证(3-Fold Cross-Validation),每折包含的人脸身份无交叠,每次实验其中两折用于训练而剩余的一折用于测试,BP4D为在12个AU(1,2,4,6,7,10,12,14,15,17,23和24)上评估,DISFA为在8 个AU(1,2,4,6,9,12,25和26)上评估.评价指标采用基于帧的F1分数(Frame-Based F1-Score),其定义为 ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ,76 ] √ 0.52/0.29 CCNN-IT[76 ] √ 0.63/0.45 2DC[74 ] √ 0.66/0.50 KBSS[51 ] √ √ 0.67/0.36 ARL[24 ] √ √ 0.66/0.48 SCC[83 ] √ √ 0.72 /0.47G2RL[73 ] √ √ √ 0.69/0.52 DPG[89 ] √ √ 0.72 /0.56 注: 这里展示了每个方法原始文献所报告的在所有AU上的平均ICC ...
Optimizing filter size in convolutional neural networks for facial action unit recognition
1
2018
... 当利用AU标签来有监督地训练深度神经网络时,网络在特征学习过程中会隐式地自适应捕捉AU的关联区域.Liu等人[67 ] 迭代地在CNN学习的特征图上选择与目标表情标签相关性最高的特征,这些特征所在区域被期望为与AU关联的感受野,然后将这些感受野内的特征输入到RBM来实现表情分类.考虑到不同人脸区域的AU具有不同的结构和纹理属性,对不同区域应该采用独立而不是共享的滤波器,Zhao等人[68 ] 引入分块卷积层,将特征图划分为相同大小的多个小块,在每一小块内部采用独立的卷积滤波器来提取特征,该特征图能够隐式地捕捉AU的关联区域.为了适应不同大小的AU,Han等人[69 ] 提出自适应大小的卷积滤波器,在训练CNN时学习卷积层的滤波器大小和权重参数.然而,这些方法没有以显式的方式来自适应学习关联区域,因此只能粗略地确定AU的区域位置. ...
Pattnet: Patch-attentive deep network for action unit detection
2
2019
... 近年来,一些工作在网络中加入注意力学习模块,显式地捕捉AU关联区域.Shao等人[24 ] 不依赖特征点的先验约束,直接通过AU识别的监督信号自适应地学习通道级注意力和空间注意力,同时利用全连接条件随机场(Conditional Random Field,CRF)捕捉像素级关系来优化空间注意力,从而选择和提取每个AU的关联特征.Ertugrul等人[70 ,71 ] 分别采用一个CNN从裁剪的人脸块提取特征,接着利用注意力机制对各个块所提取的特征进行加权,实现AU识别.虽然上述工作能够较好地捕捉AU特征,但仍包含了一些不相关的信息,影响AU识别的精度. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
D-pattnet: Dynamic patch-attentive deep network for action unit detection
3
2019
... 近年来,一些工作在网络中加入注意力学习模块,显式地捕捉AU关联区域.Shao等人[24 ] 不依赖特征点的先验约束,直接通过AU识别的监督信号自适应地学习通道级注意力和空间注意力,同时利用全连接条件随机场(Conditional Random Field,CRF)捕捉像素级关系来优化空间注意力,从而选择和提取每个AU的关联特征.Ertugrul等人[70 ,71 ] 分别采用一个CNN从裁剪的人脸块提取特征,接着利用注意力机制对各个块所提取的特征进行加权,实现AU识别.虽然上述工作能够较好地捕捉AU特征,但仍包含了一些不相关的信息,影响AU识别的精度. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
... (3)采用关联学习的工作如R-T1[65 ] ,D-PAttNet[71 ] 和DPG[89 ] 取得相比于其他工作更高的精度,表明AU间关联以及时域关联对AU识别具有重要意义. ...
Local relationship learning with person-specific shape regularization for facial action unit detection
2
2019
... Shao等人[24 ] 利用全连接CRF捕捉像素级关联关系,对每个AU的空间注意力进行优化,从而捕捉更准确的AU特征.Niu等人[72 ] 首先利用CNN提取人脸特征,这一特征的空间上每一点沿通道的特征向量被作为一个局部特征,接下来利用长短期记忆(Long Short-Term Memory,LSTM)网络学习局部特征间的关系,由于不同AU涉及不同位置的肌肉动作,该方法对每个AU分别采用一个LSTM来学习不同局部特征的贡献.鉴于密集的人脸特征点可以描述人脸几何结构,Fan等人[73 ] 利用图卷积网络(Graph Convolutional Network,GCN)从特征点空间位置形成的几何图结构中学习一个隐向量,该隐向量包含人脸形状模式以及特征点间的相互依赖关系,在特征学习过程中被用来增强表征能力.在这些工作中像素与AU的对应并不明确,使得像素级关系对AU识别的促进作用较有限. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
G2rl: Geometry-guided representation learning for facial action unit intensity estimation
3
2020
... Shao等人[24 ] 利用全连接CRF捕捉像素级关联关系,对每个AU的空间注意力进行优化,从而捕捉更准确的AU特征.Niu等人[72 ] 首先利用CNN提取人脸特征,这一特征的空间上每一点沿通道的特征向量被作为一个局部特征,接下来利用长短期记忆(Long Short-Term Memory,LSTM)网络学习局部特征间的关系,由于不同AU涉及不同位置的肌肉动作,该方法对每个AU分别采用一个LSTM来学习不同局部特征的贡献.鉴于密集的人脸特征点可以描述人脸几何结构,Fan等人[73 ] 利用图卷积网络(Graph Convolutional Network,GCN)从特征点空间位置形成的几何图结构中学习一个隐向量,该隐向量包含人脸形状模式以及特征点间的相互依赖关系,在特征学习过程中被用来增强表征能力.在这些工作中像素与AU的对应并不明确,使得像素级关系对AU识别的促进作用较有限. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ,76 ] √ 0.52/0.29 CCNN-IT[76 ] √ 0.63/0.45 2DC[74 ] √ 0.66/0.50 KBSS[51 ] √ √ 0.67/0.36 ARL[24 ] √ √ 0.66/0.48 SCC[83 ] √ √ 0.72 /0.47G2RL[73 ] √ √ √ 0.69/0.52 DPG[89 ] √ √ 0.72 /0.56 注: 这里展示了每个方法原始文献所报告的在所有AU上的平均ICC ...
... (5)与JÂA-Net[52 ] 和G2RL[73 ] 相比,R-T1[65 ] ,AU R-CNN[64 ] ,KBSS[51 ] 和SCC[83 ] 等工作无法在BP4D和DISFA上同时取得较高的精度,说明AU识别模型的可靠性和泛化能力也是需要着重研究的地方. ...
Deepcoder: Semi-parametric variational autoencoders for automatic facial action coding
2
2017
... 考虑到AU的强度级别从0到5是有序的(Ordinal),Tran等人[74 ] 引入变分有序高斯过程自编码器(Variational Ordinal Gaussian Process Auto-Encoder,VO-GPAE),在学习隐特征时施加AU强度有序关系的约束.Benitez-Quiroz等人[75 ] 提出一个全局-局部损失,其中局部损失分别促进每个AU的预测,而全局损失对2个或2个以上AU真实值均为出现即正相关的情况进行约束,促进对正相关AU的预测.Walecki等人[76 ] 将CNN和CRF组合在一个端到端的框架中,其中CRF的一元能量项捕捉AU强度的有序结构,二元能量项捕捉AU间的依赖关系.Corneanu等人[77 ] 将CNN和循环神经网络(Recurrent Neural Network,RNN)组合成一个深度结构推理网络(Deep Structure Inference Network,DSIN),其中RNN由许多结构推理单元构成,采用门控策略控制每2个AU结点间的信息传递,从而推理AU之间的结构关系.Jacob等人[78 ] 采用一个注意力网络来回归每个AU由特征点所预定义的注意力图,然后将注意力增强后的AU特征输入到一个变换器(Transformer)中,捕捉AU间的关系. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ,76 ] √ 0.52/0.29 CCNN-IT[76 ] √ 0.63/0.45 2DC[74 ] √ 0.66/0.50 KBSS[51 ] √ √ 0.67/0.36 ARL[24 ] √ √ 0.66/0.48 SCC[83 ] √ √ 0.72 /0.47G2RL[73 ] √ √ √ 0.69/0.52 DPG[89 ] √ √ 0.72 /0.56 注: 这里展示了每个方法原始文献所报告的在所有AU上的平均ICC ...
Recognition of action units in the wild with deep nets and a new global-local Loss
1
2017
... 考虑到AU的强度级别从0到5是有序的(Ordinal),Tran等人[74 ] 引入变分有序高斯过程自编码器(Variational Ordinal Gaussian Process Auto-Encoder,VO-GPAE),在学习隐特征时施加AU强度有序关系的约束.Benitez-Quiroz等人[75 ] 提出一个全局-局部损失,其中局部损失分别促进每个AU的预测,而全局损失对2个或2个以上AU真实值均为出现即正相关的情况进行约束,促进对正相关AU的预测.Walecki等人[76 ] 将CNN和CRF组合在一个端到端的框架中,其中CRF的一元能量项捕捉AU强度的有序结构,二元能量项捕捉AU间的依赖关系.Corneanu等人[77 ] 将CNN和循环神经网络(Recurrent Neural Network,RNN)组合成一个深度结构推理网络(Deep Structure Inference Network,DSIN),其中RNN由许多结构推理单元构成,采用门控策略控制每2个AU结点间的信息传递,从而推理AU之间的结构关系.Jacob等人[78 ] 采用一个注意力网络来回归每个AU由特征点所预定义的注意力图,然后将注意力增强后的AU特征输入到一个变换器(Transformer)中,捕捉AU间的关系. ...
Deep structured learning for facial action unit intensity estimation
4
2017
... 考虑到AU的强度级别从0到5是有序的(Ordinal),Tran等人[74 ] 引入变分有序高斯过程自编码器(Variational Ordinal Gaussian Process Auto-Encoder,VO-GPAE),在学习隐特征时施加AU强度有序关系的约束.Benitez-Quiroz等人[75 ] 提出一个全局-局部损失,其中局部损失分别促进每个AU的预测,而全局损失对2个或2个以上AU真实值均为出现即正相关的情况进行约束,促进对正相关AU的预测.Walecki等人[76 ] 将CNN和CRF组合在一个端到端的框架中,其中CRF的一元能量项捕捉AU强度的有序结构,二元能量项捕捉AU间的依赖关系.Corneanu等人[77 ] 将CNN和循环神经网络(Recurrent Neural Network,RNN)组合成一个深度结构推理网络(Deep Structure Inference Network,DSIN),其中RNN由许多结构推理单元构成,采用门控策略控制每2个AU结点间的信息传递,从而推理AU之间的结构关系.Jacob等人[78 ] 采用一个注意力网络来回归每个AU由特征点所预定义的注意力图,然后将注意力增强后的AU特征输入到一个变换器(Transformer)中,捕捉AU间的关系. ...
... 在BP4D和DISFA上按照文献[76 ,51 ,24 ]的设置,BP4D的训练集包含21个人脸身份,测试集包含20个人脸身份,在5个AU(6,10,12,14和17)上评估,DISFA的训练集包含18个人脸身份,测试集包含9个人脸身份,在12个AU(1,2,4,5,6,9,12,15,17,20,25和26)上评估.评价指标采用组内相关系数(Intra-Class Correlation,ICC(3,1))[93 ] . ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ,76 ] √ 0.52/0.29 CCNN-IT[76 ] √ 0.63/0.45 2DC[74 ] √ 0.66/0.50 KBSS[51 ] √ √ 0.67/0.36 ARL[24 ] √ √ 0.66/0.48 SCC[83 ] √ √ 0.72 /0.47G2RL[73 ] √ √ √ 0.69/0.52 DPG[89 ] √ √ 0.72 /0.56 注: 这里展示了每个方法原始文献所报告的在所有AU上的平均ICC ...
... [
76 ]
√ 0.63/0.45 2DC[74 ] √ 0.66/0.50 KBSS[51 ] √ √ 0.67/0.36 ARL[24 ] √ √ 0.66/0.48 SCC[83 ] √ √ 0.72 /0.47G2RL[73 ] √ √ √ 0.69/0.52 DPG[89 ] √ √ 0.72 /0.56 注: 这里展示了每个方法原始文献所报告的在所有AU上的平均ICC ...
Deep structure inference network for facial action unit recognition
3
2018
... 考虑到AU的强度级别从0到5是有序的(Ordinal),Tran等人[74 ] 引入变分有序高斯过程自编码器(Variational Ordinal Gaussian Process Auto-Encoder,VO-GPAE),在学习隐特征时施加AU强度有序关系的约束.Benitez-Quiroz等人[75 ] 提出一个全局-局部损失,其中局部损失分别促进每个AU的预测,而全局损失对2个或2个以上AU真实值均为出现即正相关的情况进行约束,促进对正相关AU的预测.Walecki等人[76 ] 将CNN和CRF组合在一个端到端的框架中,其中CRF的一元能量项捕捉AU强度的有序结构,二元能量项捕捉AU间的依赖关系.Corneanu等人[77 ] 将CNN和循环神经网络(Recurrent Neural Network,RNN)组合成一个深度结构推理网络(Deep Structure Inference Network,DSIN),其中RNN由许多结构推理单元构成,采用门控策略控制每2个AU结点间的信息传递,从而推理AU之间的结构关系.Jacob等人[78 ] 采用一个注意力网络来回归每个AU由特征点所预定义的注意力图,然后将注意力增强后的AU特征输入到一个变换器(Transformer)中,捕捉AU间的关系. ...
... 此外,为了抑制标签不均衡导致的预测偏置,许多工作通过调整采样率和权重来进行平衡.Li等人[61 ] 在深度神经网络的训练过程中对训练集中出现频率较低的AU采用更大的随机采样率,使得每个小批量(Mini-Batch)中不同AU出现的频率较均衡.另一些工作[24 ,52 ,77 ] 在计算AU识别损失时,给每一AU所赋的权重与该AU出现的频率成反比,从而加强了出现频率较低的AU.此外,为了平衡每个AU的出现频率和不出现频率,Li等人[79 ] 对交叉熵损失中出现频率的熵项乘以训练集中该AU的不出现频率,而对不出现频率的熵项乘以该AU的出现频率,这样,若某一AU的不出现频率大于出现频率,其对应于出现的损失项被加强.Song等人[84 ] 提出自适应加权损失函数,通过自适应地学习认知不确定性(Epistemic Uncertainty)来计算小批量中每个样本的权重,不确定性越高的样本被赋以越大的权重,从而抵消数据不均衡. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
Facial action unit detection with transformers
2
2021
... 考虑到AU的强度级别从0到5是有序的(Ordinal),Tran等人[74 ] 引入变分有序高斯过程自编码器(Variational Ordinal Gaussian Process Auto-Encoder,VO-GPAE),在学习隐特征时施加AU强度有序关系的约束.Benitez-Quiroz等人[75 ] 提出一个全局-局部损失,其中局部损失分别促进每个AU的预测,而全局损失对2个或2个以上AU真实值均为出现即正相关的情况进行约束,促进对正相关AU的预测.Walecki等人[76 ] 将CNN和CRF组合在一个端到端的框架中,其中CRF的一元能量项捕捉AU强度的有序结构,二元能量项捕捉AU间的依赖关系.Corneanu等人[77 ] 将CNN和循环神经网络(Recurrent Neural Network,RNN)组合成一个深度结构推理网络(Deep Structure Inference Network,DSIN),其中RNN由许多结构推理单元构成,采用门控策略控制每2个AU结点间的信息传递,从而推理AU之间的结构关系.Jacob等人[78 ] 采用一个注意力网络来回归每个AU由特征点所预定义的注意力图,然后将注意力增强后的AU特征输入到一个变换器(Transformer)中,捕捉AU间的关系. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
Semantic relationships guided representation learning for facial action unit recognition
3
2019
... 近年来,图神经网络(Graph Neural Network,GNN)开始被应用于AU关联学习.Li等人[79 ] 从多个AU数据集统计出AU对的3种依赖关系,基于此构建有向的AU关系图,每个AU是一个结点,结点间的有向边类型包括正相关和负相关2种,AU间不相关则没有边相连,然后利用门控GNN[80 ] 对AU关系建模.Liu等人[81 ] 和Niu等人[82 ] 首先基于数据集统计的依赖关系构建AU关系图,然后利用GCN建模AU间的关系.由于AU间依赖可能随人和表情的变化而变化,另一些工作采用动态的关系图结构.Fan等人[83 ] 提出一个语义对应卷积(Semantic Correspondence Convolution,SCC)模块,将前一层的每个特征图通道作为一个结点,构建K-近邻图,动态地计算通道间的语义对应,由于每个通道编码了AU的一个特定模式,这样可以学习AU间的关系.Song等人[84 ] 提出不确定图卷积(Uncertain Graph Convolution),自适应地学习基于概率的掩膜来捕捉个体样本的AU间依赖以及不确定性.Song等人[85 ] 提出一个混合信息传递神经网络,利用性能驱动的蒙特卡罗马尔可夫链采样方法来学习AU关系图,然后在信息传递过程中动态地组合不同类型信息使它们相互补充. ...
... 此外,为了抑制标签不均衡导致的预测偏置,许多工作通过调整采样率和权重来进行平衡.Li等人[61 ] 在深度神经网络的训练过程中对训练集中出现频率较低的AU采用更大的随机采样率,使得每个小批量(Mini-Batch)中不同AU出现的频率较均衡.另一些工作[24 ,52 ,77 ] 在计算AU识别损失时,给每一AU所赋的权重与该AU出现的频率成反比,从而加强了出现频率较低的AU.此外,为了平衡每个AU的出现频率和不出现频率,Li等人[79 ] 对交叉熵损失中出现频率的熵项乘以训练集中该AU的不出现频率,而对不出现频率的熵项乘以该AU的出现频率,这样,若某一AU的不出现频率大于出现频率,其对应于出现的损失项被加强.Song等人[84 ] 提出自适应加权损失函数,通过自适应地学习认知不确定性(Epistemic Uncertainty)来计算小批量中每个样本的权重,不确定性越高的样本被赋以越大的权重,从而抵消数据不均衡. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
Gated graph sequence neural networks
1
2016
... 近年来,图神经网络(Graph Neural Network,GNN)开始被应用于AU关联学习.Li等人[79 ] 从多个AU数据集统计出AU对的3种依赖关系,基于此构建有向的AU关系图,每个AU是一个结点,结点间的有向边类型包括正相关和负相关2种,AU间不相关则没有边相连,然后利用门控GNN[80 ] 对AU关系建模.Liu等人[81 ] 和Niu等人[82 ] 首先基于数据集统计的依赖关系构建AU关系图,然后利用GCN建模AU间的关系.由于AU间依赖可能随人和表情的变化而变化,另一些工作采用动态的关系图结构.Fan等人[83 ] 提出一个语义对应卷积(Semantic Correspondence Convolution,SCC)模块,将前一层的每个特征图通道作为一个结点,构建K-近邻图,动态地计算通道间的语义对应,由于每个通道编码了AU的一个特定模式,这样可以学习AU间的关系.Song等人[84 ] 提出不确定图卷积(Uncertain Graph Convolution),自适应地学习基于概率的掩膜来捕捉个体样本的AU间依赖以及不确定性.Song等人[85 ] 提出一个混合信息传递神经网络,利用性能驱动的蒙特卡罗马尔可夫链采样方法来学习AU关系图,然后在信息传递过程中动态地组合不同类型信息使它们相互补充. ...
Relation modeling with graph convolutional networks for facial action unit detection
2
2020
... 近年来,图神经网络(Graph Neural Network,GNN)开始被应用于AU关联学习.Li等人[79 ] 从多个AU数据集统计出AU对的3种依赖关系,基于此构建有向的AU关系图,每个AU是一个结点,结点间的有向边类型包括正相关和负相关2种,AU间不相关则没有边相连,然后利用门控GNN[80 ] 对AU关系建模.Liu等人[81 ] 和Niu等人[82 ] 首先基于数据集统计的依赖关系构建AU关系图,然后利用GCN建模AU间的关系.由于AU间依赖可能随人和表情的变化而变化,另一些工作采用动态的关系图结构.Fan等人[83 ] 提出一个语义对应卷积(Semantic Correspondence Convolution,SCC)模块,将前一层的每个特征图通道作为一个结点,构建K-近邻图,动态地计算通道间的语义对应,由于每个通道编码了AU的一个特定模式,这样可以学习AU间的关系.Song等人[84 ] 提出不确定图卷积(Uncertain Graph Convolution),自适应地学习基于概率的掩膜来捕捉个体样本的AU间依赖以及不确定性.Song等人[85 ] 提出一个混合信息传递神经网络,利用性能驱动的蒙特卡罗马尔可夫链采样方法来学习AU关系图,然后在信息传递过程中动态地组合不同类型信息使它们相互补充. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
Multi-label co-regularization for semi-supervised facial action unit recognition
3
2019
... 近年来,图神经网络(Graph Neural Network,GNN)开始被应用于AU关联学习.Li等人[79 ] 从多个AU数据集统计出AU对的3种依赖关系,基于此构建有向的AU关系图,每个AU是一个结点,结点间的有向边类型包括正相关和负相关2种,AU间不相关则没有边相连,然后利用门控GNN[80 ] 对AU关系建模.Liu等人[81 ] 和Niu等人[82 ] 首先基于数据集统计的依赖关系构建AU关系图,然后利用GCN建模AU间的关系.由于AU间依赖可能随人和表情的变化而变化,另一些工作采用动态的关系图结构.Fan等人[83 ] 提出一个语义对应卷积(Semantic Correspondence Convolution,SCC)模块,将前一层的每个特征图通道作为一个结点,构建K-近邻图,动态地计算通道间的语义对应,由于每个通道编码了AU的一个特定模式,这样可以学习AU间的关系.Song等人[84 ] 提出不确定图卷积(Uncertain Graph Convolution),自适应地学习基于概率的掩膜来捕捉个体样本的AU间依赖以及不确定性.Song等人[85 ] 提出一个混合信息传递神经网络,利用性能驱动的蒙特卡罗马尔可夫链采样方法来学习AU关系图,然后在信息传递过程中动态地组合不同类型信息使它们相互补充. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
... (4)当前基于迁移学习的工作如MLCR[82 ] 和TAE[60 ] 并未取得相比于其他工作明显的性能优势,说明这类方法仍有较大的挖掘空间,需要进一步从AU的特性出发,提出有效的模型来充分利用已有的样本、标签、模型以及先验知识. ...
Facial action unit intensity estimation via semantic correspondence learning with dynamic graph convolution
3
2020
... 近年来,图神经网络(Graph Neural Network,GNN)开始被应用于AU关联学习.Li等人[79 ] 从多个AU数据集统计出AU对的3种依赖关系,基于此构建有向的AU关系图,每个AU是一个结点,结点间的有向边类型包括正相关和负相关2种,AU间不相关则没有边相连,然后利用门控GNN[80 ] 对AU关系建模.Liu等人[81 ] 和Niu等人[82 ] 首先基于数据集统计的依赖关系构建AU关系图,然后利用GCN建模AU间的关系.由于AU间依赖可能随人和表情的变化而变化,另一些工作采用动态的关系图结构.Fan等人[83 ] 提出一个语义对应卷积(Semantic Correspondence Convolution,SCC)模块,将前一层的每个特征图通道作为一个结点,构建K-近邻图,动态地计算通道间的语义对应,由于每个通道编码了AU的一个特定模式,这样可以学习AU间的关系.Song等人[84 ] 提出不确定图卷积(Uncertain Graph Convolution),自适应地学习基于概率的掩膜来捕捉个体样本的AU间依赖以及不确定性.Song等人[85 ] 提出一个混合信息传递神经网络,利用性能驱动的蒙特卡罗马尔可夫链采样方法来学习AU关系图,然后在信息传递过程中动态地组合不同类型信息使它们相互补充. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ,76 ] √ 0.52/0.29 CCNN-IT[76 ] √ 0.63/0.45 2DC[74 ] √ 0.66/0.50 KBSS[51 ] √ √ 0.67/0.36 ARL[24 ] √ √ 0.66/0.48 SCC[83 ] √ √ 0.72 /0.47G2RL[73 ] √ √ √ 0.69/0.52 DPG[89 ] √ √ 0.72 /0.56 注: 这里展示了每个方法原始文献所报告的在所有AU上的平均ICC ...
... (5)与JÂA-Net[52 ] 和G2RL[73 ] 相比,R-T1[65 ] ,AU R-CNN[64 ] ,KBSS[51 ] 和SCC[83 ] 等工作无法在BP4D和DISFA上同时取得较高的精度,说明AU识别模型的可靠性和泛化能力也是需要着重研究的地方. ...
Uncertain graph neural networks for facial action unit detection
3
2021
... 近年来,图神经网络(Graph Neural Network,GNN)开始被应用于AU关联学习.Li等人[79 ] 从多个AU数据集统计出AU对的3种依赖关系,基于此构建有向的AU关系图,每个AU是一个结点,结点间的有向边类型包括正相关和负相关2种,AU间不相关则没有边相连,然后利用门控GNN[80 ] 对AU关系建模.Liu等人[81 ] 和Niu等人[82 ] 首先基于数据集统计的依赖关系构建AU关系图,然后利用GCN建模AU间的关系.由于AU间依赖可能随人和表情的变化而变化,另一些工作采用动态的关系图结构.Fan等人[83 ] 提出一个语义对应卷积(Semantic Correspondence Convolution,SCC)模块,将前一层的每个特征图通道作为一个结点,构建K-近邻图,动态地计算通道间的语义对应,由于每个通道编码了AU的一个特定模式,这样可以学习AU间的关系.Song等人[84 ] 提出不确定图卷积(Uncertain Graph Convolution),自适应地学习基于概率的掩膜来捕捉个体样本的AU间依赖以及不确定性.Song等人[85 ] 提出一个混合信息传递神经网络,利用性能驱动的蒙特卡罗马尔可夫链采样方法来学习AU关系图,然后在信息传递过程中动态地组合不同类型信息使它们相互补充. ...
... 此外,为了抑制标签不均衡导致的预测偏置,许多工作通过调整采样率和权重来进行平衡.Li等人[61 ] 在深度神经网络的训练过程中对训练集中出现频率较低的AU采用更大的随机采样率,使得每个小批量(Mini-Batch)中不同AU出现的频率较均衡.另一些工作[24 ,52 ,77 ] 在计算AU识别损失时,给每一AU所赋的权重与该AU出现的频率成反比,从而加强了出现频率较低的AU.此外,为了平衡每个AU的出现频率和不出现频率,Li等人[79 ] 对交叉熵损失中出现频率的熵项乘以训练集中该AU的不出现频率,而对不出现频率的熵项乘以该AU的出现频率,这样,若某一AU的不出现频率大于出现频率,其对应于出现的损失项被加强.Song等人[84 ] 提出自适应加权损失函数,通过自适应地学习认知不确定性(Epistemic Uncertainty)来计算小批量中每个样本的权重,不确定性越高的样本被赋以越大的权重,从而抵消数据不均衡. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
Hybrid message passing with performance-driven structures for facial action unit detection
2
2021
... 近年来,图神经网络(Graph Neural Network,GNN)开始被应用于AU关联学习.Li等人[79 ] 从多个AU数据集统计出AU对的3种依赖关系,基于此构建有向的AU关系图,每个AU是一个结点,结点间的有向边类型包括正相关和负相关2种,AU间不相关则没有边相连,然后利用门控GNN[80 ] 对AU关系建模.Liu等人[81 ] 和Niu等人[82 ] 首先基于数据集统计的依赖关系构建AU关系图,然后利用GCN建模AU间的关系.由于AU间依赖可能随人和表情的变化而变化,另一些工作采用动态的关系图结构.Fan等人[83 ] 提出一个语义对应卷积(Semantic Correspondence Convolution,SCC)模块,将前一层的每个特征图通道作为一个结点,构建K-近邻图,动态地计算通道间的语义对应,由于每个通道编码了AU的一个特定模式,这样可以学习AU间的关系.Song等人[84 ] 提出不确定图卷积(Uncertain Graph Convolution),自适应地学习基于概率的掩膜来捕捉个体样本的AU间依赖以及不确定性.Song等人[85 ] 提出一个混合信息传递神经网络,利用性能驱动的蒙特卡罗马尔可夫链采样方法来学习AU关系图,然后在信息传递过程中动态地组合不同类型信息使它们相互补充. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
Learning spatial and temporal cues for multi-label facial action unit detection
1
2017
... 当前采用时域关联学习的方法一般先提取视频中每帧人脸图像的空间特征,然后利用LSTM等时间序列模型对时域上帧间关联进行建模.Chu等人[86 ] 采用CNN提取各帧空间特征,并用LSTM 对帧间的时域信息进行建模,最后在CNN和LSTM的末端将时空特征进行融合.Bishay等人[87 ] 设计一个三层级的框架:在第一层级利用CNN学习人脸外观特征,并利用多层感知机从人脸特征点学习几何特征;在第二层级利用RNN从连续帧学习时域上的关联;在第三层级将各网络的预测结果进行融合.He等人[88 ] 将双向LSTM与RNN结合起来学习时域特征.Song等人[89 ] 利用多个LSTM同时挖掘时域和空间域上的关联信息.Yang等人[90 ] 采用2D的CNN对每帧图像提取特征,同时采用3D的CNN捕捉图像序列的时空信息,从而实现AU识别.Yang等人[91 ] 利用单张图像及一张锚定图像来无监督地学习光流,从而捕捉时域信息,再将光流输入到AU识别网络进行AU预测,这里光流网络和AU识别网络被联合地训练,使得AU标签可以提供语义信息从而促进光流的学习.Zhang等人[92 ] 利用注意力机制实现特征融合和标签融合,其中前者用于捕捉人脸局部块间的空间关系,而后者用于捕捉时域动态关系. ...
Fusing multilabel deep networks for facial action unit detection
1
2017
... 当前采用时域关联学习的方法一般先提取视频中每帧人脸图像的空间特征,然后利用LSTM等时间序列模型对时域上帧间关联进行建模.Chu等人[86 ] 采用CNN提取各帧空间特征,并用LSTM 对帧间的时域信息进行建模,最后在CNN和LSTM的末端将时空特征进行融合.Bishay等人[87 ] 设计一个三层级的框架:在第一层级利用CNN学习人脸外观特征,并利用多层感知机从人脸特征点学习几何特征;在第二层级利用RNN从连续帧学习时域上的关联;在第三层级将各网络的预测结果进行融合.He等人[88 ] 将双向LSTM与RNN结合起来学习时域特征.Song等人[89 ] 利用多个LSTM同时挖掘时域和空间域上的关联信息.Yang等人[90 ] 采用2D的CNN对每帧图像提取特征,同时采用3D的CNN捕捉图像序列的时空信息,从而实现AU识别.Yang等人[91 ] 利用单张图像及一张锚定图像来无监督地学习光流,从而捕捉时域信息,再将光流输入到AU识别网络进行AU预测,这里光流网络和AU识别网络被联合地训练,使得AU标签可以提供语义信息从而促进光流的学习.Zhang等人[92 ] 利用注意力机制实现特征融合和标签融合,其中前者用于捕捉人脸局部块间的空间关系,而后者用于捕捉时域动态关系. ...
Multi view facial action unit detection based on CNN and BLSTM-RNN
1
2017
... 当前采用时域关联学习的方法一般先提取视频中每帧人脸图像的空间特征,然后利用LSTM等时间序列模型对时域上帧间关联进行建模.Chu等人[86 ] 采用CNN提取各帧空间特征,并用LSTM 对帧间的时域信息进行建模,最后在CNN和LSTM的末端将时空特征进行融合.Bishay等人[87 ] 设计一个三层级的框架:在第一层级利用CNN学习人脸外观特征,并利用多层感知机从人脸特征点学习几何特征;在第二层级利用RNN从连续帧学习时域上的关联;在第三层级将各网络的预测结果进行融合.He等人[88 ] 将双向LSTM与RNN结合起来学习时域特征.Song等人[89 ] 利用多个LSTM同时挖掘时域和空间域上的关联信息.Yang等人[90 ] 采用2D的CNN对每帧图像提取特征,同时采用3D的CNN捕捉图像序列的时空信息,从而实现AU识别.Yang等人[91 ] 利用单张图像及一张锚定图像来无监督地学习光流,从而捕捉时域信息,再将光流输入到AU识别网络进行AU预测,这里光流网络和AU识别网络被联合地训练,使得AU标签可以提供语义信息从而促进光流的学习.Zhang等人[92 ] 利用注意力机制实现特征融合和标签融合,其中前者用于捕捉人脸局部块间的空间关系,而后者用于捕捉时域动态关系. ...
Dynamic probabilistic graph convolution for facial action unit intensity estimation
3
2021
... 当前采用时域关联学习的方法一般先提取视频中每帧人脸图像的空间特征,然后利用LSTM等时间序列模型对时域上帧间关联进行建模.Chu等人[86 ] 采用CNN提取各帧空间特征,并用LSTM 对帧间的时域信息进行建模,最后在CNN和LSTM的末端将时空特征进行融合.Bishay等人[87 ] 设计一个三层级的框架:在第一层级利用CNN学习人脸外观特征,并利用多层感知机从人脸特征点学习几何特征;在第二层级利用RNN从连续帧学习时域上的关联;在第三层级将各网络的预测结果进行融合.He等人[88 ] 将双向LSTM与RNN结合起来学习时域特征.Song等人[89 ] 利用多个LSTM同时挖掘时域和空间域上的关联信息.Yang等人[90 ] 采用2D的CNN对每帧图像提取特征,同时采用3D的CNN捕捉图像序列的时空信息,从而实现AU识别.Yang等人[91 ] 利用单张图像及一张锚定图像来无监督地学习光流,从而捕捉时域信息,再将光流输入到AU识别网络进行AU预测,这里光流网络和AU识别网络被联合地训练,使得AU标签可以提供语义信息从而促进光流的学习.Zhang等人[92 ] 利用注意力机制实现特征融合和标签融合,其中前者用于捕捉人脸局部块间的空间关系,而后者用于捕捉时域动态关系. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ,76 ] √ 0.52/0.29 CCNN-IT[76 ] √ 0.63/0.45 2DC[74 ] √ 0.66/0.50 KBSS[51 ] √ √ 0.67/0.36 ARL[24 ] √ √ 0.66/0.48 SCC[83 ] √ √ 0.72 /0.47G2RL[73 ] √ √ √ 0.69/0.52 DPG[89 ] √ √ 0.72 /0.56 注: 这里展示了每个方法原始文献所报告的在所有AU上的平均ICC ...
... (3)采用关联学习的工作如R-T1[65 ] ,D-PAttNet[71 ] 和DPG[89 ] 取得相比于其他工作更高的精度,表明AU间关联以及时域关联对AU识别具有重要意义. ...
FACS3D-NET: 3D convolution based spatiotemporal representation for action unit detection
1
2019
... 当前采用时域关联学习的方法一般先提取视频中每帧人脸图像的空间特征,然后利用LSTM等时间序列模型对时域上帧间关联进行建模.Chu等人[86 ] 采用CNN提取各帧空间特征,并用LSTM 对帧间的时域信息进行建模,最后在CNN和LSTM的末端将时空特征进行融合.Bishay等人[87 ] 设计一个三层级的框架:在第一层级利用CNN学习人脸外观特征,并利用多层感知机从人脸特征点学习几何特征;在第二层级利用RNN从连续帧学习时域上的关联;在第三层级将各网络的预测结果进行融合.He等人[88 ] 将双向LSTM与RNN结合起来学习时域特征.Song等人[89 ] 利用多个LSTM同时挖掘时域和空间域上的关联信息.Yang等人[90 ] 采用2D的CNN对每帧图像提取特征,同时采用3D的CNN捕捉图像序列的时空信息,从而实现AU识别.Yang等人[91 ] 利用单张图像及一张锚定图像来无监督地学习光流,从而捕捉时域信息,再将光流输入到AU识别网络进行AU预测,这里光流网络和AU识别网络被联合地训练,使得AU标签可以提供语义信息从而促进光流的学习.Zhang等人[92 ] 利用注意力机制实现特征融合和标签融合,其中前者用于捕捉人脸局部块间的空间关系,而后者用于捕捉时域动态关系. ...
Learning temporal information from a single image for au detection
2
2019
... 当前采用时域关联学习的方法一般先提取视频中每帧人脸图像的空间特征,然后利用LSTM等时间序列模型对时域上帧间关联进行建模.Chu等人[86 ] 采用CNN提取各帧空间特征,并用LSTM 对帧间的时域信息进行建模,最后在CNN和LSTM的末端将时空特征进行融合.Bishay等人[87 ] 设计一个三层级的框架:在第一层级利用CNN学习人脸外观特征,并利用多层感知机从人脸特征点学习几何特征;在第二层级利用RNN从连续帧学习时域上的关联;在第三层级将各网络的预测结果进行融合.He等人[88 ] 将双向LSTM与RNN结合起来学习时域特征.Song等人[89 ] 利用多个LSTM同时挖掘时域和空间域上的关联信息.Yang等人[90 ] 采用2D的CNN对每帧图像提取特征,同时采用3D的CNN捕捉图像序列的时空信息,从而实现AU识别.Yang等人[91 ] 利用单张图像及一张锚定图像来无监督地学习光流,从而捕捉时域信息,再将光流输入到AU识别网络进行AU预测,这里光流网络和AU识别网络被联合地训练,使得AU标签可以提供语义信息从而促进光流的学习.Zhang等人[92 ] 利用注意力机制实现特征融合和标签融合,其中前者用于捕捉人脸局部块间的空间关系,而后者用于捕捉时域动态关系. ...
... 关联学习
BP4D[26 ] /DISFA[27 ] DRML[68 ] √ 0.483/0.267 EAC-Net[61 ] √ √ √ 0.559/0.485 R-T1[65 ] √ √ √ √ 0.661 /0.513DSIN[77 ] √ √ 0.589/0.536 LP-Net[72 ] √ √ √ 0.610/0.569 MLCR[82 ] √ √ 0.598/— SRERL[79 ] √ √ √ 0.629/0.559 ARL[24 ] √ √ √ 0.611/0.587 PAttNet[70 ] √ 0.626/— D-PAttNet[71 ] √ √ 0.641/— TAE[60 ] √ √ 0.603/0.515 OF-Net[91 ] √ √ 0.597/0.537 AU R-CNN[64 ] √ √ 0.630/0.513 AU-GCN[81 ] √ √ 0.628/0.550 JÂA-Net[52 ] √ √ √ 0.624/0.635 UGN-B[84 ] √ √ 0.633/0.600 Transformer[78 ] √ √ √ 0.642/0.615 HMP-PS[85 ] √ √ 0.634/0.610 注: 表中展示了每个方法原始文献所报告的在所有AU上的平均F1分数 ...
Context-aware feature and label fusion for facial action unit intensity estimation with partially labeled data
1
2019
... 当前采用时域关联学习的方法一般先提取视频中每帧人脸图像的空间特征,然后利用LSTM等时间序列模型对时域上帧间关联进行建模.Chu等人[86 ] 采用CNN提取各帧空间特征,并用LSTM 对帧间的时域信息进行建模,最后在CNN和LSTM的末端将时空特征进行融合.Bishay等人[87 ] 设计一个三层级的框架:在第一层级利用CNN学习人脸外观特征,并利用多层感知机从人脸特征点学习几何特征;在第二层级利用RNN从连续帧学习时域上的关联;在第三层级将各网络的预测结果进行融合.He等人[88 ] 将双向LSTM与RNN结合起来学习时域特征.Song等人[89 ] 利用多个LSTM同时挖掘时域和空间域上的关联信息.Yang等人[90 ] 采用2D的CNN对每帧图像提取特征,同时采用3D的CNN捕捉图像序列的时空信息,从而实现AU识别.Yang等人[91 ] 利用单张图像及一张锚定图像来无监督地学习光流,从而捕捉时域信息,再将光流输入到AU识别网络进行AU预测,这里光流网络和AU识别网络被联合地训练,使得AU标签可以提供语义信息从而促进光流的学习.Zhang等人[92 ] 利用注意力机制实现特征融合和标签融合,其中前者用于捕捉人脸局部块间的空间关系,而后者用于捕捉时域动态关系. ...
Intraclass correlations: Uses in assessing rater reliability
1
1979
... 在BP4D和DISFA上按照文献[76 ,51 ,24 ]的设置,BP4D的训练集包含21个人脸身份,测试集包含20个人脸身份,在5个AU(6,10,12,14和17)上评估,DISFA的训练集包含18个人脸身份,测试集包含9个人脸身份,在12个AU(1,2,4,5,6,9,12,15,17,20,25和26)上评估.评价指标采用组内相关系数(Intra-Class Correlation,ICC(3,1))[93 ] . ...
Active self-paced learning for cost-effective and progressive face identification
1
2017
... (4)当前的AU数据集具有样本规模小且多样性低、标签稀缺且不均衡、缺乏非受控样本等不足.未来可以构建一个规模大、样本多样性丰富、AU标注全面的非受控环境数据集.由于对AU进行人工标注的成本很高,在标注的过程中,可以基于主动学习(Active Learning)[94 ~96 ] ,从一个具有人工标注的小训练集开始,训练模型并对未标注样本进行预测,然后基于预测结果选择信息最丰富、存在出现频率较低AU的未标注样本进行人工标注,再将新标注的样本加入训练集并更新模型,重复上述步骤直至被训练的模型在测试集上的性能已收敛或已满足精度要求,这样可以保证有限的标注成本用在最需要的样本上. ...
基于主动学习和否定选择的垃圾邮件分类算法
0
2018
基于主动学习和否定选择的垃圾邮件分类算法
0
2018
基于历史分类加权和分级竞争采样的多视角主动学习
1
2017
... (4)当前的AU数据集具有样本规模小且多样性低、标签稀缺且不均衡、缺乏非受控样本等不足.未来可以构建一个规模大、样本多样性丰富、AU标注全面的非受控环境数据集.由于对AU进行人工标注的成本很高,在标注的过程中,可以基于主动学习(Active Learning)[94 ~96 ] ,从一个具有人工标注的小训练集开始,训练模型并对未标注样本进行预测,然后基于预测结果选择信息最丰富、存在出现频率较低AU的未标注样本进行人工标注,再将新标注的样本加入训练集并更新模型,重复上述步骤直至被训练的模型在测试集上的性能已收敛或已满足精度要求,这样可以保证有限的标注成本用在最需要的样本上. ...
基于历史分类加权和分级竞争采样的多视角主动学习
1
2017
... (4)当前的AU数据集具有样本规模小且多样性低、标签稀缺且不均衡、缺乏非受控样本等不足.未来可以构建一个规模大、样本多样性丰富、AU标注全面的非受控环境数据集.由于对AU进行人工标注的成本很高,在标注的过程中,可以基于主动学习(Active Learning)[94 ~96 ] ,从一个具有人工标注的小训练集开始,训练模型并对未标注样本进行预测,然后基于预测结果选择信息最丰富、存在出现频率较低AU的未标注样本进行人工标注,再将新标注的样本加入训练集并更新模型,重复上述步骤直至被训练的模型在测试集上的性能已收敛或已满足精度要求,这样可以保证有限的标注成本用在最需要的样本上. ...