电子学报 ›› 2017, Vol. 45 ›› Issue (6): 1375-1381.DOI: 10.3969/j.issn.0372-2112.2017.06.014

• 学术论文 • 上一篇    下一篇

一种融合用户关系的自适应微博话题跟踪方法

柏文言1,2, 张闯1, 徐克付1, 张志明3   

  1. 1. 中国科学院信息工程研究所, 北京 100093;
    2. 北京邮电大学计算机学院, 北京 100876;
    3. 北京英孚泰克信息技术股份有限公司, 北京 100089
  • 收稿日期:2015-07-24 修回日期:2016-01-08 出版日期:2017-06-25 发布日期:2017-06-25
  • 通讯作者: 张闯
  • 作者简介:柏文言 女,1990年5月出生于河北省唐山市.现为北京邮电大学计算机学院硕士研究生,主要研究方向为社交网络、信息安全.E-mail:baiwenyan@bupt.edu.cn;徐克付 男,1977年8月出生在湖北省随州市.博士,现为中国科学院信息工程研究所副研究员,硕士生导师.主要研究方向为分布式系统、网络与信息安全、智能信息处理等.E-mail:xukefu@iie.ac.cn;张志明 男,1987年12月出生在四川省广元市.现就职于北京英孚泰克信息技术股份有限公司,高级项目经理.主要业务方向为大数据、软件项目集成、软件安全和逆向工程等.E-mail:zhangzhiming@itcchina.com
  • 基金资助:

    国家自然科学基金(No.61602474)

A Self-Adaptive Microblog Topic Tracking Method by User Relationship

BAI Wen-yan1,2, ZHANG Chuang1, XU Ke-fu1, ZHANG Zhi-ming3   

  1. 1. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China;
    2. School of Computer Science, Beijing University of Posts and Telecommunications, Beijing 100876, China;
    3. Information Technologies Co, (Beijing)Ltd, Beijing 100089, China
  • Received:2015-07-24 Revised:2016-01-08 Online:2017-06-25 Published:2017-06-25

摘要:

针对微博口语化、文本短小等特点以及现有研究的不足,本文提出了一种融合用户关系的自适应微博话题跟踪方法.首先,在当前跟踪的时间窗内,推文被映射到特征空间,并作为候选推文集合.然后,针对推文的分布特点以及话题跟踪的目的,变换推文特征空间.在此基础上,利用改进的K-means聚类算法对候选推文集合进行二元聚类,从而划分出相关推文集合,即当前话题目标模型.本文通过Twitter平台获取数据进行实验,实验结果表明,该方法能够实时地跟踪话题热度的变化以及焦点的演变,并提高了微博中话题跟踪的稳定性.该方法为用户推荐、舆情分析等领域提供了有效的支撑.

关键词: 微博, 话题跟踪, 自适应, 用户关系, 极坐标, K-means算法

Abstract:

Considering the colloquial,short text and other characteristics of microblog and deficiencies in research of it,this article proposes a self-adaptive topic tracking method of microblog by user relationship.First of all,during the tracking time window,the candidate tweet set is mapped into feature space.Secondly,aiming at the characteristic of tweet distribution and the purpose of topic tracking,the paper converts the tweets' feature space.Based on this operation,a binary clustering on tweets set can be constructed by improved K-means clustering algorithm.The yielded relative collection is the target model of the current topic.The experiments with the data extracted from Twitter,show that this method can track down the trend of hot topics and the evolution of focuses in real time,and improve the stability of topic tracking in microblog.This method serves well for user recommendation and public opinion analysis.

Key words: microblog, topic tracking, self-adaptive, user relationship, polar coordinates, K-means algorithm

中图分类号: