电子学报 ›› 2015, Vol. 43 ›› Issue (4): 639-646.DOI: 10.3969/j.issn.0372-2112.2015.04.003

• 学术论文 • 上一篇    下一篇

流水行云:支持可扩展的并行分布式流处理系统

张鹏1,2, 刘庆云1,2, 谭建龙1,2, 李焱3, 杜华明2   

  1. 1. 中国科学院信息工程研究所, 北京 100093;
    2. 信息内容安全技术国家工程实验室, 北京 100093;
    3. 国家计算机网络应急技术处理协调中心, 北京 100029
  • 收稿日期:2013-09-30 修回日期:2014-03-30 出版日期:2015-04-25
    • 作者简介:
    • 张鹏 男,1984年出生,安徽淮南人.2013年在中国科学院计算技术研究所获工学博士学位.现为中国科学院信息工程研究所博士后,主要从事数据流处理及云计算方面的研究.E-mail:pengzhang@iie.ac.cn
    • 基金资助:
    • 国家863高技术研究发展计划 (No.2011AA010703); 中国科学院战略性先导专项 (No.XDA06030602); 国家自然科学基金 (No.61402464); 中国博士后基金 (No.2013M541076)

SPSPS:A Scalable Parallel-Distributed Stream Processing System

ZHANG Peng1,2, LIU Qing-yun1,2, TAN Jian-long1,2, LI Yan3, DU Hua-ming2   

  1. 1. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China;
    2. National Engineering Laboratory for Information Security Technologies, Beijing 100093, China;
    3. National Computer Network Emergency Response and Coordination Center, Beijing 100029, China
  • Received:2013-09-30 Revised:2014-03-30 Online:2015-04-25 Published:2015-04-25
    • Supported by:
    • National High-tech R&D Program of China  (863 Program) (No.2011AA010703); Strategic Pilot Project of Chinese Academy of Sciences (No.XDA06030602); National Natural Science Foundation of China (No.61402464); Post-doctoral Foundation of China (No.2013M541076)

摘要:

数据流处理系统,无论是集中式还是分布式,都需要克服单点瓶颈问题.不仅如此,如果数据流处理系统是静态配置的,那么还会出现处理节点供给不足或者过剩的情况,为此本文提出了一种支持可扩展的并行分布式数据流处理系统—流水行云,该系统根据有状态算子将查询拓扑划分为并行处理的子查询,并且通过有状态算子的分发器和收集器实现了数据流的保序,同时最大化减少并行处理的通信开销,不仅如此,结合负载均衡和重配置的可扩展技术使得该系统能够根据输入负载动态调整处理节点的负载和个数.60个节点组成的集群的实验证明了该系统的可扩展能力.

关键词: 流处理系统, 可扩展, 有状态算子, 负载均衡, 重配置

Abstract:

The stream processing systems,whether centralized or distributed,have to overcome the single-node bottleneck.Moreover,their static configurations also make them either shortage or surplus of resources.To this end,this paper proposes a scalable parallel-distributed stream processing system named SPSPS.The system splits a query into parallel sub-queries according to stateful query operators to minimize the communication overhead in parallel processing,and achieves order-preserving tuple processing through the stateful operator's distributor and collector.Moreover,the scalability techniques with load balancing and reconfiguration support effective adjustment of resources depending on the incoming load.The experiments on a cluster with 60 nodes prove the scalability.

Key words: stream processing system, scalability, stateful operator, load balancing, reconfiguration

中图分类号: