电子学报 ›› 2012, Vol. 40 ›› Issue (2): 223-229.DOI: 10.3969/j.issn.0372-2112.2012.02.003
刘勇鹏1, 王锋1, 卢凯1, 刘勇燕2
LIU Yong-peng1, WANG Feng1, LU Kai1, LIU Yong-yan2
摘要: 在大规模并行计算系统中,并行检查点触发大量结点同时保存计算状态,造成巨大文件存储空间开销,以及对通信和存储系统的巨大访问压力.数据压缩可以缩小检查点文件尺寸,从而降低存储空间开销以及对通信和存储系统的访问压力.但是,它也带来额外的压缩计算开销.本文针对异构并行计算系统,提出流水线式并行压缩检查点技术,采用一系列优化技术来降低压缩引入的计算延时,包括:流水线式双重写缓存队列、文件写操作的合并、GPU加速的流水压缩算法和GPU资源的多进程调度,等等.本文介绍了该技术在天河一号系统中的实现,并对所实现的检查点系统进行综合评测.实验数据表明该方法在大规模异构并行计算系统中是可行、高效、实用的.
中图分类号: