面向机器学习模型安全的测试与修复
|
张笑宇, 沈超, 蔺琛皓, 李前, 王骞, 李琦, 管晓宏
|
The Testing and Repairing Methods for Machine Learning Model Security
|
ZHANG Xiao-yu, SHEN Chao, LIN Chen-hao, LI Qian, WANG Qian, LI Qi, GUAN Xiao-hong
|
|
表4 模型算法测试与修复典型技术对比总结
|
|
|
功能描述 | 方法类别 | 应用领域 | 方法描述 | 效果 | 相关工作 |
---|
算法鲁棒性测评 | 鲁棒性评估与 测试准则 | 图像 | 计算欺骗模型的最小扰动 | 强 | 文献[83] | 图像 | 识别模型输入空间鲁棒区域 | 弱 | 文献[84] | 文本 | 利用对抗样本等多种范式评估模型 | 强 | 文献[138] | 算法鲁棒性修复 | 对抗训练 | 主要为图像 | 使用对抗样本重训练模型 | 强 | 文献[57]等 | 鲁棒优化 | 主要为图像 | 使用正则化方法处理并优化模型,削弱扰动影响 | 强 | 文献[139]等 | 算法正确性测评 | 模型差异测试 | 图像 | 通过白盒交叉验证方法测试流行模型的差异行为 | 弱 | 文献[140] | 图像 | 变异模糊测试并最大化原始与变异输入的差异 | 强 | 文献[141] | 模型蜕变测试 | 数值数据 | 利用蜕变测试的方法测试机器学习模型属性 | 弱 | 文献[142] | 图像 | 设计了多个通用蜕变关系测试机器学习系统特征 | 强 | 文献[143] | 文本 | 针对NLP系统设计了蜕变关系并测试 | 弱 | 文献[144] | 测试充分性评估 | 图像 | 基于覆盖率的模糊测试和基于属性的测试结合 | 弱 | 文献[26] | 图像 | 利用神经元覆盖率等覆盖率准则进行模糊测试 | 强 | 文献[24] | 模型调试 | 图像 | 分析模型差分状态并识别模型"故障神经元" | 强 | 文献[145] | 算法正确性修复 | 重训练 | 图像 | 生成并机器学习系统的异常行为样例并重训练 | 弱 | 文献[140] | 图像 | 基于神经风格转换学习故障样本并重训练模型 | 弱 | 文献[146] | 图像/文本 | 应用多种策略修复模型训练问题并重训练 | 强 | 文献[25] | 模型调试修复 | 图像/文本 | 构建影响模型描述网络中数据的状态并分析错误 | 强 | 文献[147] | 主要为数值数据 | 调试机器学习模型算法故障并定位问题的原因 | 弱 | 文献[148] | 算法公平性测评 | 公平性测试 工具/框架 | 数值数据 | 结合了多个指标细粒度探索偏差并进行严格评估 | 弱 | 文献[149] | 数值数据 | 自动化生成包含敏感属性的输入并测试歧视问题 | 弱 | 文献[150] | 数值数据 | 在输入空间随机抽样歧视性样例并在邻域搜索 | 强 | 文献[151] | 数值数据 | 通过分析模型行为以发现潜在的群体公平性问题 | 强 | 文献[152] | 算法公平性修复 | 处理中修复 | 数值数据 | 将发掘的歧视性样例放入数据集并进行重训练 | 弱 | 文献[151] | 数值数据 | 将公平性作为机器学习模型优化目标性 | 强 | 文献[113] | 数值数据 | 丢弃部分公平性与准确率优化方向矛盾神经元 | 强 | 文献[27] | 后处理修复 | 数值数据 | 拒绝对接近决策边界的输出样本 | 弱 | 文献[153] | 文本 | 自动检测并修复输出偏差结果并重构公平输出 | 弱 | 文献[154] | 算法可解释性测评 | 人工可解释性测评 | 数值数据 | 调研参与者在输入变化下给出模型预期输出变化 | 弱 | 文献[155] | 自动化可解释性测评 | 数值数据 | 设计蜕变关系评测系统功能可解释性 | 弱 | 文献[156] | 算法可解释性修复 | 可解释性提升 | 数值数据 | 使用可解释性强的算法构建模型 | 弱 | 文献[157] | 文本数据 | 自动学习任务中重要文字并减少无关信息 | 强 | 文献[158] | 算法隐私性测评 | 隐私性评估 | 数值数据 | 多次运行候选算法并统计对算法隐私的侵犯程度 | 弱 | 文献[159] | 模型萃取攻击 | 图像 | 通过查询ReLU临界点的查询窃取模型参数信息 | 强 | 文献[160] | 算法隐私性修复 | 基于加密的算法隐私保护 | 数值数据/ 图像 | 基于同态加密等方法对模型组件设计加密算法 | 强 | 文献[161]等 | 基于安全多方 计算隐私保护 | 数值数据/ 图像 | 设计安全多方计算协议保障模型算法信息隐私性 | 强 | 文献[80]等 |
|
|
|