电子学报

• 学术论文 • 上一篇    下一篇

基于Memetic优化的智能DNA序列数据压缩算法

周家锐1,2,3, 纪震2,3, 朱泽轩2,3, 陈思平1,2,3   

  1. 1. 浙江大学生物医学工程与仪器科学学院, 浙江杭州 310027;
    2. 深圳大学计算机与软件学院, 广东深圳 518060;
    3. 深圳市嵌入式系统设计重点实验室, 广东深圳 518060
  • 收稿日期:2010-08-11 修回日期:2012-09-11 出版日期:2013-03-25
    • 作者简介:
    • 周家锐 男,1984年7月生于广东省韶关市,2010年获深圳大学模式识别与智能系统硕士学位,现为浙江大学生物医学工程与仪器科学学院博士研究生.主要研究方向包括计算智能、生物信息学等. E-mail:jrzhou@zju.edu.cn; 纪 震 男,1973年8月生于江苏省溧阳市,1999年毕业于西安交通大学,博士学位,2004年晋升为教授,曾赴英国利物浦大学任访问学者.主要研究方向包括智能信号处理、嵌入式系统、生物医学工程. E-mail:jizhen@szu.edu.cn
    • 基金资助:
    • 国家自然科学基金 (No.61171125,No.60872125,No.61001185,No.61211130120); 霍英东高等院校青年教师基金基础性研究课题; 教育部重点研究项目; 广东省自然科学基金 (No.10151806001000002); 深圳市杰青项目

Intelligent DNA Sequence Data Compression Using Memetic Algorithm

ZHOU Jia-rui1,2,3, JI Zhen2,3, ZHU Ze-xuan2,3, CHEN Si-ping1,2,3   

  1. 1. College of Biomedical Engineering and Instrument Science, Zhejiang University, Hangzhou, Zhejiang 310027, China;
    2. College of Computer Science and Software Engineering, Shenzhen University, Shenzhen, Guangdong 518060, China;
    3. Shenzhen Key Laboratory of Embedded System Design, Shenzhen, Guangdong 518060, China;
  • Received:2010-08-11 Revised:2012-09-11 Online:2013-03-25 Published:2013-03-25

摘要: 提出近似重复矢量(Approximate Repeat Vector,ARV)模型用于DNA序列冗余片段的描述.通过将数据生物信息学特征引入压缩预处理,并使用ARV矢量构造编码码本,提出了非对称DNA序列压缩算法BioLZMA-2.算法引入基于粒子群优化的Memetic改进方法CLIPSO-MA用于压缩码本的智能优化设计,有效提升了编码性能.在标准测试序列上的实验结果表明,BioLZMA-2可获得比现有DNA序列数据压缩方法更高的压缩率.

关键词: DNA序列数据压缩, 生物信息学, 近似重复矢量, Memetic算法

Abstract: A data model namely the approximate repeat vector (ARV) is introduced to describe the similar fragments in DNA sequences.By employing bioinformatics features in data preprocessing,and using ARVs in compression codebook's construction,we propose an asymmetric DNA sequence compression algorithm of biological Lempel-Ziv-Markov chain algorithm 2(BioLZMA-2).The particle swarm optimization (PSO) based memetic algorithm improvement namely the comprehensive learning intelligent particle swarm optimization memetic algorithm (CLIPSO-MA) is employed in the compression codebook's design.Experimental results on benchmark sequences demonstrate better performance of BioLZMA-2 than the original DNA sequence compression algorithms.

Key words: DNA sequence data compression, bioinformatics, approximate repeat vector, memetic algorithm

中图分类号: