电子学报 ›› 2016, Vol. 44 ›› Issue (8): 1887-1891.DOI: 10.3969/j.issn.0372-2112.2016.08.017

• 学术论文 • 上一篇    下一篇

基于TSCM模型的网络短文本情感挖掘

黄发良1, 李超雄1, 元昌安2, 汪焱1, 姚志强1   

  1. 1. 福建师范大学软件学院, 福建福州 350007;
    2. 广西师范学院计信学院, 广西南宁 530023
  • 收稿日期:2014-08-25 修回日期:2015-03-09 出版日期:2016-08-25 发布日期:2016-08-25
  • 作者简介:黄发良 男,1975年生于湖南永州.福建师范大学软件学院副教授.研究方向为数据挖掘、智能信息系统.E-mail:huangfl@fjnu.edu.cn;李超雄 男,1991年生于福建莆田.硕士研究生,研究方向为数据挖掘与知识发现.
  • 基金资助:
    国家自然科学基金(No.61370078,No.61363037);教育部人文社会科学研究青年基金项目(No.12YJCZH074);福建省教育厅科技项目(No.JA13077)

Mining Sentiment for Web Short Texts Based on TSCM Model

HUANG Fa-liang1, LI Chao-xiong1, YUAN Chang-an2, WANG Yan1, YAO Zhi-qiang1   

  1. 1. Faculty of Software, Fujian Normal University, Fuzhou, Fujian 350007, China;
    2. School of Computer and Information Engineering, Guangxi Teachers Education University, Nanning, Guangxi 530023, China
  • Received:2014-08-25 Revised:2015-03-09 Online:2016-08-25 Published:2016-08-25

摘要: 针对网络短文本情感挖掘问题,提出一种新的基于LDA和互联网短评行为理论的主题情感混合模型TSCM,TSCM模型中的整篇评论中每个句子的主题分布是不同的,TSCM产生词的流程是先确定词的情感极性,再确定词的主题,TSCM考虑了词与词之间的联系.真实数据集Movie与Amazon上的大量实验表明,与代表性算法JST、S-LDA、D-PLDA和SAS相比较,TSCM模型能对用户真实情感与讨论主题进行更加有效的分析建模.

关键词: 情感分析, 主题情感混合模型, LDA

Abstract: For sentiment analysis of web short texts,a topic sentiment combining model (TSCM) is proposed based on LDA and web review behavioral theory,which is founded on the assumption that topic distribution of each sentence in a review is unique and different from that of other sentences.Generative process of TSCM is to first determine sentiment orientation of each word and then topic of each sentence in a review while taking word relation into consideration.Extensive experiments on real-world datasets (Movie and Amazon) show that TSCM significantly outperforms JST,S-LDA,D-PLDA and SAS in terms of the accuracy of sentiment classification and topic detection.

Key words: sentiment analysis, topic sentiment mixture, latent dirichlet allocation (LDA)

中图分类号: