面向机器学习模型安全的测试与修复
张笑宇, 沈超, 蔺琛皓, 李前, 王骞, 李琦, 管晓宏

The Testing and Repairing Methods for Machine Learning Model Security
ZHANG Xiao-yu, SHEN Chao, LIN Chen-hao, LI Qian, WANG Qian, LI Qi, GUAN Xiao-hong
表3 模型数据测试与修复典型技术对比总结
功能描述方法类别应用领域方法描述效果相关工作
数据鲁棒性测评对抗输入生成图像/文本/音频生成对抗样本直接测试模型文献[57]等
图像/文本/音频构建对抗输入生成库测试模型鲁棒性文献[58]等
数据鲁棒性修复随机化图像随机化变换调整输入数据文献[59]
图像/数值数据利用张量衰减调整模型内数据特征文献[60]
去噪图像压缩图像对输入数据进行去噪文献[61]
图像利用特征压缩的方法对数据去噪文献[62]
对抗输入检测图像基于模型变异检测对变异敏感的对抗样本文献[63]
图像评估数据的鲁棒性来区分对抗样本文献[64]
数据公平性测评数据偏差测试数值数据无监督聚类采样检测数据的类不平衡文献[65]
图像使用自动编码器学习数据特征并检测偏差文献[66]
数值数据检测数据分布与特征的倾斜问题文献[67]
数据公平性修复数据集修正主要为数值数据修复数据集标签或内容文献[68]等
良性数据生成图像生成非歧视性数据以解决训练数据不均衡文献[69]
文本构造良性数据集训练或微调模型文献[70]
修复框架与工具数值数据自动化诊断与修复框架文献[71]
数据正确性测评异常数据检测工具数值数据检查数据示例并识别特定模式的潜在问题文献[72]
主要为数值数据自动化异常数据检测方法搜索框架文献[73]
图像分析特征空间以识别异常数据并进行过滤文献[74]
数据正确性修复数据清理工具图像基于自动编码器对存在噪声数据进行清理文献[75]
图像/文本加入数据检测以在模型计算前剔除异常值文献[76]
主要为数值数据自动化搜索数据清理方法并清理异常数据文献[73]
数据隐私性测评私密信息窃取主要为数值数据构造私密数据窃取攻击以测试模型隐私性文献[77]等
数据隐私性修复基于差分隐私的数据隐私保护图像训练多个教师模型并聚合预测结果文献[78]
基于安全多方计算的数据隐私保护图像/数值数据基于安全多方计算协议交互私密数据文献[79]等
基于联邦学习的数据隐私保护图像/数值数据通过安全聚合等方法构建联邦学习训练模型文献[80]等