电子学报 ›› 2022, Vol. 50 ›› Issue (9): 2181-2188.DOI: 10.12263/DZXB.20201374

• 学术论文 • 上一篇    下一篇

基于本地差分隐私的K-modes聚类数据隐私保护方法

张少波1,2, 原刘杰1, 毛新军2, 朱更明1   

  1. 1.湖南科技大学计算机科学与工程学院,湖南 湘潭 411201
    2.国防科技大学复杂系统软件工程重点实验室,湖南 长沙 410073
  • 收稿日期:2020-12-01 修回日期:2021-04-12 出版日期:2022-09-25
    • 作者简介:
    • 张少波 男,博士,1979年生于湖南邵东. 现为湖南科技大学副教授、硕士生导师. 主要研究方向为移动社交网络、大数据、人工智能、区块链的安全和隐私保护等.E-mail: shaobozhang@hnust.edu.cn
      原刘杰 男,1995年生于河南开封. 现为湖南科技大学硕士研究生. 主要研究方向为大数据隐私保护.E-mail: ljyuan@mail.hnust.edu.cn
      毛新军 男, 1970年生于浙江江山.博士, CCF杰出会员, 现为国防科学技术大学计算机学院教授,博士生导师. 主要研究领域为智能软件技术, 多智能体系统等.
      朱更明 男,1963年生于湖南邵阳. 现为湖南科技大学教授、硕士生导师. 主要研究方向为信息安全、智能设备机器视觉及控制等.E-mail: zhu.gm@163.com
    • 基金资助:
    • 湖南省自然科学基金面上项目 (2020JJ4317); 湖南省教育厅科学研究重点项目 (21A0318); 湖南省研究生科研创新项目 (CX20200999)

Privacy Protection Method for K-modes Clustering Data with Local Differential Privacy

ZHANG Shao-bo1,2, YUAN Liu-jie1, MAO Xin-jun2, ZHU Geng-ming1   

  1. 1.School of Computer Science and Engineering,Hunan University of Science and Technology,Xiangtan,Hunan 411201,China
    2.Key Laboratory of Software Engineering for Complex Systems,National University of Defense Technology,Changsha,Hunan 410073,China
  • Received:2020-12-01 Revised:2021-04-12 Online:2022-09-25 Published:2022-10-26

摘要:

分类型数据聚类是数据挖掘的重要研究内容,聚类数据中通常包含用户一些敏感信息. 为保护聚类数据中的用户隐私,当前主要采用基于可信第三方隐私保护模型,但现实中第三方也存在隐私泄露风险. 针对此问题,该文引入本地差分隐私技术,提出一种去可信第三方的K-modes聚类数据隐私保护方法. 该方法首先利用随机采样技术对数据进行采样,然后使用本地差分隐私技术对采样数据进行扰动,最后通过聚类服务端与用户的交互迭代完成聚类. 在聚类过程中,无需可信第三方对数据进行隐私预处理,避免了第三方泄露用户隐私的风险. 理论分析证明了该方法的隐私性和可行性,实验结果表明该方法在满足本地差分隐私机制的前提下保证了聚类结果的质量.

关键词: 隐私保护, 本地差分隐私, 数据挖掘, K-modes聚类, 去可信第三方

Abstract:

Categorical data clustering is an important research content for data mining, and clustering data usually contains some sensitive information of user. In order to protect user privacy in clustering data, the privacy protection model based on trusted third-party is currently mainly adopted. However, in reality, the third-party also has the risk of privacy leakage. In this paper, we propose a privacy protection method for K-modes clustering data without trusted third-party by introducing local differential privacy technology. Our method first uses random sampling technology to sample the data, then perturbs the sampled data by using local differential privacy technology, and finally complete the clustering through the interaction between the server and the user. In the clustering process, our method does not require a trusted third-party to perform privacy preprocessing on the data, which avoids the risk of the third-party disclosing the user's privacy. Theoretical analysis proves the privacy and feasibility of our method. Experimental results show that our method guarantees the quality of the clustering results under the premise of satisfying the local differential privacy mechanism.

Key words: privacy protection, local differential privacy, data mining, k-modes clustering, no trusted third-party

中图分类号: