面向机器学习模型安全的测试与修复
张笑宇, 沈超, 蔺琛皓, 李前, 王骞, 李琦, 管晓宏

The Testing and Repairing Methods for Machine Learning Model Security
ZHANG Xiao-yu, SHEN Chao, LIN Chen-hao, LI Qian, WANG Qian, LI Qi, GUAN Xiao-hong
表4 模型算法测试与修复典型技术对比总结
功能描述方法类别应用领域方法描述效果相关工作
算法鲁棒性测评

鲁棒性评估与

测试准则

图像计算欺骗模型的最小扰动文献[83]
图像识别模型输入空间鲁棒区域文献[84]
文本利用对抗样本等多种范式评估模型文献[138]
算法鲁棒性修复对抗训练主要为图像使用对抗样本重训练模型文献[57]等
鲁棒优化主要为图像使用正则化方法处理并优化模型,削弱扰动影响文献[139]等
算法正确性测评模型差异测试图像通过白盒交叉验证方法测试流行模型的差异行为文献[140]
图像变异模糊测试并最大化原始与变异输入的差异文献[141]
模型蜕变测试数值数据利用蜕变测试的方法测试机器学习模型属性文献[142]
图像设计了多个通用蜕变关系测试机器学习系统特征文献[143]
文本针对NLP系统设计了蜕变关系并测试文献[144]
测试充分性评估图像基于覆盖率的模糊测试和基于属性的测试结合文献[26]
图像利用神经元覆盖率等覆盖率准则进行模糊测试文献[24]
模型调试图像分析模型差分状态并识别模型"故障神经元"文献[145]
算法正确性修复重训练图像生成并机器学习系统的异常行为样例并重训练文献[140]
图像基于神经风格转换学习故障样本并重训练模型文献[146]
图像/文本应用多种策略修复模型训练问题并重训练文献[25]
模型调试修复图像/文本构建影响模型描述网络中数据的状态并分析错误文献[147]
主要为数值数据调试机器学习模型算法故障并定位问题的原因文献[148]
算法公平性测评

公平性测试

工具/框架

数值数据结合了多个指标细粒度探索偏差并进行严格评估文献[149]
数值数据自动化生成包含敏感属性的输入并测试歧视问题文献[150]
数值数据在输入空间随机抽样歧视性样例并在邻域搜索文献[151]
数值数据通过分析模型行为以发现潜在的群体公平性问题文献[152]
算法公平性修复处理中修复数值数据将发掘的歧视性样例放入数据集并进行重训练文献[151]
数值数据将公平性作为机器学习模型优化目标性文献[113]
数值数据丢弃部分公平性与准确率优化方向矛盾神经元文献[27]
后处理修复数值数据拒绝对接近决策边界的输出样本文献[153]
文本自动检测并修复输出偏差结果并重构公平输出文献[154]
算法可解释性测评人工可解释性测评数值数据调研参与者在输入变化下给出模型预期输出变化文献[155]
自动化可解释性测评数值数据设计蜕变关系评测系统功能可解释性文献[156]
算法可解释性修复可解释性提升数值数据使用可解释性强的算法构建模型文献[157]
文本数据自动学习任务中重要文字并减少无关信息文献[158]
算法隐私性测评隐私性评估数值数据多次运行候选算法并统计对算法隐私的侵犯程度文献[159]
模型萃取攻击图像通过查询ReLU临界点的查询窃取模型参数信息文献[160]
算法隐私性修复基于加密的算法隐私保护

数值数据/

图像

基于同态加密等方法对模型组件设计加密算法文献[161]等

基于安全多方

计算隐私保护

数值数据/

图像

设计安全多方计算协议保障模型算法信息隐私性文献[80]等