电子学报 ›› 2014, Vol. 42 ›› Issue (12): 2527-2535.DOI: 10.3969/j.issn.0372-2112.2014.12.028

• 科研通信 • 上一篇    下一篇

基于偏斜t混合模型的流式数据自动聚类方法研究

王先文, 陈锋, 程智, 杜耀华, 暴洪涛, 吴太虎   

  1. 军事医学科学院卫生装备研究所, 天津 300161
  • 收稿日期:2014-02-21 修回日期:2014-06-26 出版日期:2014-12-25
    • 通讯作者:
    • 吴太虎
    • 作者简介:
    • 王先文 男,1987年1月出生于四川省绵阳市,现为军事医学科学院卫生装备研究所博士研究生,主要研究方向为模式识别与人工智能. E-mail:wangxianwen_work@126.com;陈 锋 男,1978年11月生,山东菏泽人,现为军事医学科学院卫生装备研究所副研究员,主要从事医用电子技术与智能装备的研究工作. E-mail:chenfenghj@163.com;程 智 男,1984年12月出生于河南郑州市,现为军事医学科学院卫生装备研究所助理研究员,主要从事测控技术与仪器方向研究工作. E-mail:chengzhitt@gmail.com;杜耀华 男,1978年7月出生于河北唐山市.于2000年和2006年在国防科技大学获得学士和博士学位,现为军事医学科学院卫生装备研究所助理研究员,主要研究方向为智能仪器与光机电综合集成技术. E-mail:qsyaohua@hotmail.com;暴洪涛 男,1990年05月出生于陕西省西安市,2012年毕业于西安交通大学应用物理专业,现为军事医学科学院卫生装备研究所硕士研究生,主要从事生物战剂侦检与医用电子设备研究工作. E-mail:bht4255@163.com
    • 基金资助:
    • 国家科技重大专项 (No.2012ZX10004801)

Auto Clustering Method Study of Flow Cytometry Data Based on Skew t-Mixture Models

WANG Xian-wen, CHEN Feng, CHENG Zhi, DU Yao-hua, BAO Hong-tao, WU Tai-hu   

  1. Institute of Medical Equipment, Academy of Military Medical Sciences, Tianjin 300161, China
  • Received:2014-02-21 Revised:2014-06-26 Online:2014-12-25 Published:2014-12-25
    • Supported by:
    • National Science and Technology Major Project of the Ministry of Science and Technology (No.2012ZX10004801)

摘要:

流式数据分析的主要过程是以设门的方式对样本数据中的细胞群进行类群划分.由于传统人工设门方式的缺点,提出了一种基于偏斜t混合模型的流式数据自动聚类方法.该方法采用有限混合模型形式,以偏斜t布为模型密度函数,并通过期望最大化方法估计模型参数.通过对两组不同类型实验数据进行分析,结果表明:相比于非基于模型的聚类方法,基于混合模型的聚类方法对于流式数据的分析具有更好的鲁棒性,能够降低数据中离群值对结果分析的影响;相比于高斯混合模型、偏斜正态混合模型、t混合模型,基于偏斜t分布的混合模型具有更好的灵活性,不仅能够拟合流式数据中椭圆对称分布的数据,而且对于高度非对称分布数据的分析也具有很好的效果.

关键词: 混合模型, 偏斜t分布, 流式细胞术, EM算法

Abstract:

A major component of flow cytometry data analysis involves gating,which is the process of identifying homogeneous groups of cells.As manual gating is error-prone,non-reproducible,nonstandardized,and time-consuming,we propose a flexible statistical model-based clustering approach to identifying cell populations in flow cytometry data based on skew t-mixture models.This approach,which employs a finite mixture model with the density function of skew t-distribution,estimates parameters via an expectation maximization algorithm.Data analysis from two different experiments prove that the model-based clustering methods give better results in terms of robustness against outliers than non model-based clustering methods.Compared to the Gaussian mixture models,skew normal mixture models and t-mixture models,the skew t-mixture models have more flexibility in clustering symmetric data and leads to lower misclassification rates when handling highly asymmetric data.

Key words: mixture models, skew t-distribution, flow cytometry, EM algorithm

中图分类号: