电子学报 ›› 2016, Vol. 44 ›› Issue (10): 2522-2529.DOI: 10.3969/j.issn.0372-2112.2016.10.034

• 学术论文 • 上一篇    下一篇

基于兴趣偏好的微博用户性别推断研究

宋巍, 刘丽珍, 王函石   

  1. 首都师范大学信息工程学院, 北京 100048
  • 收稿日期:2015-06-01 修回日期:2015-10-26 出版日期:2016-10-25 发布日期:2016-10-25
  • 作者简介:宋巍,男,1983年1月出生,黑龙江哈尔滨人.讲师、中国计算机学会会员、中文信息学会会员.2006年、2008年和2013年在哈尔滨工业大学获得学士、工学硕士和工学博士学位.现在首都师范大学信息工程学院工作,主要从事社会计算、自然语言处理和信息检索有关研究.E-mail:wsong@cnu.edu.cn;刘丽珍,女.1966年7月出生,山西太原人.教授、中国人工智能学会教育工作委员会副秘书长,北京市人工智能学会理事,中国计算机学会高级会员.1986年、1994年、2003年分别在山西大学、西北大学和北京理工大学获工学学士、工学硕士和工学博士学位.现在首都师范大学信息工程学院工作,主要从事数据挖掘、社会计算、信息检索和自然语言处理等方面的研究工作.E-mail:liz_liu7480@cnu.edu.cn
  • 基金资助:

    国家自然科学基金(No.61402304,No.61303105);北京市自然科学基金(No.4154065);教育部人文社会科学规划项目(No.14YJAZH046);北京市教委科研支持项目(No.KM201610028015)

User Interest Preferences for Gender Inference on Microblog

SONG Wei, LIU Li-zhen, WANG Han-shi   

  1. College of Information Engineering, Capital Normal University, Beijing 100048, China
  • Received:2015-06-01 Revised:2015-10-26 Online:2016-10-25 Published:2016-10-25

摘要:

用户属性,如:性别、年龄等,是计算心理学、个性化搜索、社会化商业推广等研究和应用考察的核心因素.利用用户生成数据自动推断用户属性成为新兴的研究课题.本文提出基于用户兴趣偏好研究微博用户的性别推断问题.考察了用户内容偏好以及关注行为偏好对性别推断的作用.在新浪微博近万名用户的数据集上证明了用户偏好特征的有效性.与传统的语用特征相比,将用户内容偏好与关注偏好相结合能够显著提高推断准确率.关注偏好特征对推断非活跃用户的性别尤其有效.

关键词: 用户隐藏属性, 用户性别推断, 用户偏好建模, 社交媒体

Abstract:

User demographic attributes,such as gender and age,are the core factors to be considered for research and applications in computational psychology,personalized search and social commerce marketing.Automatic user latent attribute inference based on user generated data becomes an emerging research topic.This paper proposes a methed for user gender inference on Microblog by exploiting user content preferences and following behaviour preferences.The experiments on a dataset collected from Sina Weibo that consists of nearly 10000 users demonstrate the effectiveness of user preferences features.Comparing with the traditional language usage features,combining user content preferences and user following preferences features can improve the inference accuracy largely.The user following preferences features are especially effective for inferring the gender of inactive users.

Key words: user latent attribute, user gender inference, user preference modeling, social media

中图分类号: