电子学报 ›› 2013, Vol. 41 ›› Issue (4): 751-756.DOI: 10.3969/j.issn.0372-2112.2013.04.021

• 学术论文 • 上一篇    下一篇

基于数据流的网页内容分析技术研究

王佰玲1,2, 曲芸1, 张永铮3, 田志宏1   

  1. 1. 哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨 150001;
    2. 北京大学信息科学与技术学院,北京 100871;
    3. 中国科学院计算技术研究所,北京 100190
  • 收稿日期:2011-09-10 修回日期:2012-09-20 出版日期:2013-04-25
    • 作者简介:
    • 王佰玲 博士,副教授,硕士生导师;哈尔滨工业大学(威海)网络技术研究所负责人;哈尔滨工业大学(威海)计算机学院院长助理;北京大学信息科学与技术学院博士后;北京邮电大学兼职副教授;计算机协会高级会员.研究领域包括计算机网络安全、信息内容安全、网络攻防对抗、信息穿透对抗、网络舆情技术等. E-mail:wbl@hit.edu.cn 张永铮 博士,副研究员,硕士生导师.研究领域包括计算机网络安全、信息内容安全、物联网技术等. 田志宏 博士,副研究员,硕士生导师.研究领域包括信息内容安全、网络信息搜索技术等.
    • 基金资助:
    • 国家自然科学基金 (No.61170262)

Research on Network-Traffic Based Web Traffic Computing Technology

WANG Bai-ling1,2, QU Yun1, ZHANG Yong-zheng3, TIAN Zhi-hong1   

  1. 1. School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China;
    2. School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China;
    3. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China
  • Received:2011-09-10 Revised:2012-09-20 Online:2013-04-25 Published:2013-04-25
    • Supported by:
    • National Natural Science Foundation of China (No.61170262)

摘要: 提出针对网络数据流中活跃信息进行话题相关数据采集与分析方法.首先给出面向论坛话题的定义;然后对网络数据流进行分析、对用户访问行为进行分类;并给出基于数据流的用户行为识别方法及话题相关数据抽取、存储算法;最后给出实验分析,结果表明,所提出的基于数据流的论坛话题数据采集方法能够很好地反映用户行为,并对基于数据流的网络舆情热点话题发现、突发事件检测与实时跟踪等应用提供有利的数据资源.

关键词: 网络舆情, 热点话题, 突发事件, 网络数据流

Abstract: In this paper,a network-traffic based topic extracting and analyzing method is introduced.The new topic definition for web2.0 and the classification of user behavior is given;the detecting method of user behavior,topic extracting method,and data storage algorithm is also proposed.At last,a prototype of topic collector based on network traffic is implemented;the testing results show that the user behavior and the hot topic can be collected and detected effectively and correctly,and the new method provides a new data channel for analyzing public opinion.

Key words: public opinion, hot topic, emergent event, network traffic

中图分类号: