电子学报 ›› 2021, Vol. 49 ›› Issue (3): 605-613.DOI: 10.12263/DZXB.20200210

• 学术论文 • 上一篇    下一篇

Tr-SLDA:一种面向交叉领域的迁移主题模型

唐焕玲1,2,4, 郑涵2, 刘艳红1, 马思源2, 窦全胜1,3,4, 鲁明羽5   

  1. 1. 山东工商学院计算机科学与技术学院, 山东烟台 264005;
    2. 山东工商学院信息与电子工程学院, 山东烟台 264005;
    3. 山东省高等学校协同创新中心:未来智能计算, 山东烟台 264005;
    4. 山东省高校智能信息处理重点实验室(山东工商学院), 山东烟台 264005;
    5. 大连海事大学信息科学技术学院, 辽宁大连 116026
  • 收稿日期:2020-02-26 修回日期:2020-04-21 出版日期:2021-03-25 发布日期:2021-03-25
  • 作者简介:唐焕玲 女,教授,博士,硕士生导师,1970年生于山东龙口.2004年于清华大学获得工学硕士学位,2009年于大连海事大学大学获得工学博士学位.从事机器学习、人工智能、数据挖掘等方向的理论及应用研究.E-mail:thl01@163.com;郑涵 男,1997年生于河南商丘.山东工商学院硕士研究生,主要研究方向为机器学习、人工智能、数据挖掘.E-mail:zhenghan0503@163.com;刘艳红 女,1995年生于山东烟台.山东工商学院硕士研究生,研究方向为机器学习与数据挖掘.E-mail:2669349709@qq.com;马思源 女,1994年生于河南周口.山东工商学院硕士研究生,主要研究方向为计算机视觉.E-mail:masiyuan423@163.com;窦全胜 男,教授,博士,硕士生导师.1971年生于黑龙江大庆.2001年、2005年于吉林大学分别获得理学硕士学位、工学博士学位.从事人工智能、机器学习、演化计算等方向的理论及应用研究.E-mail:li_dou@163.com;鲁明羽 男,教授,博士生导师.1963年生于黑龙江鸡西.1988年、2002年于清华大学分别获得工学硕士和工学博士学位,从事机器学习、人工智能、数据挖掘等方向的理论及应用研究.E-mail:lumingyu@dlmu.edu.cn
  • 基金资助:
    国家自然科学基金(No.61976124,No.61976125,No.61773244,No.61772319,No.61873177,No.61972235);山东省高校科研计划(No.J18KA385),烟台市重点研发计划(No.2017ZH065,No.2019XDHZ081)

Tr-SLDA: A Transfer Topic Model for Cross-Domains

TANG Huan-ling1,2,4, ZHENG Han2, LIU Yan-hong1, MA Si-yuan2, DOU Quan-sheng1,3,4, LU Ming-yu5   

  1. 1. College of Computer Science and Technology, Shandong Technology and Business University, Yantai, Shandong 264005, China;
    2. College of Information and Electronic Engineering, Shandong Technology and Business University, Yantai, Shandong 264005, China;
    3. Co-innovation Center of Shandong Colleges and Universities:Future Intelligent Computing, Yantai, Shandong 264005, China;
    4. Key Laboratory of Intelligent Information Processing in Universities of Shandong(Shandong Technology and Business University), Shandong Yantai, 264005, China;
    5. Information Science and Technology College, Dalian Maritime University, Dalian Liaoning 116026, China
  • Received:2020-02-26 Revised:2020-04-21 Online:2021-03-25 Published:2021-03-25
  • Supported by:
     

摘要: 当目标领域缺少足够多的标注数据时,迁移学习利用相关源领域的标注数据,辅助提升目标域的学习性能,但是目标域与源域的数据通常不满足独立同分布,容易导致"负迁移"问题.本文在有监督主题模型(Supervised LDA,SLDA)的基础上,融合迁移学习方法提出一种共享主题知识的迁移主题模型(Transfer SLDA,Tr-SLDA),提出Tr-SLDA-Gibbs主题采样新方法,在类别标签的约束下对不同领域文档中的词采取不同的采样策略,且无需指定主题个数.辅助源域与目标域共享潜在主题空间,Tr-SLDA通过发现潜在共享主题与不同领域类别之间的语义关联从源域迁移知识,可以有效解决"负迁移"问题.基于Tr-SLDA迁移主题模型提出Tr-SLDA-TC (Tr-SLDA Text Categorization)文本分类方法.对比实验表明,该方法可有效利用源域知识来提高目标领域的分类性能.

 

关键词: 文本分类, 主题模型, 吉布斯采样, 迁移学习, 负迁移

Abstract: With enough labeled data lacking in the target domain,it works well for transfer learning to use the labeled data of the related source domain and help improve the learning performance of the target domain.However,the data of these two domains usually do not satisfy the independently identically distribution,which easily leads to the problem of "negative transfer".Tr-SLDA(Transfer SLDA),a novel transfer topic model based on supervised topic model (Supervised LDA,SLDA) is proposed,which shares topic knowledge by integrating transfer learning.A new Tr-SLDA-Gibbs sampling method is proposed,under the constraints of category labels,different sampling strategies are adopted for words in the documents of different domains without specifying the number of topics.The source domain and target domain share the potential topic space,Tr-SLDA can effectively solve the problem of "negative transfer" by discovering the semantic correlation between the potential shared topics and categories of different domains.The Tr-SLDA-TC (Tr-SLDA-Text Categorization) text classification method is proposed based on the Tr-SLDA model.The comprehensive experiments show that the proposed method can effectively improve the performance of the classification by utilizing the knowledge from the source domain.

Key words: text categorization, topic model, Gibbs sampling, transfer learning, negative transfer

中图分类号: