唐焕玲, 郑涵, 刘艳红, 马思源, 窦全胜, 鲁明羽
当目标领域缺少足够多的标注数据时,迁移学习利用相关源领域的标注数据,辅助提升目标域的学习性能,但是目标域与源域的数据通常不满足独立同分布,容易导致"负迁移"问题.本文在有监督主题模型(Supervised LDA,SLDA)的基础上,融合迁移学习方法提出一种共享主题知识的迁移主题模型(Transfer SLDA,Tr-SLDA),提出Tr-SLDA-Gibbs主题采样新方法,在类别标签的约束下对不同领域文档中的词采取不同的采样策略,且无需指定主题个数.辅助源域与目标域共享潜在主题空间,Tr-SLDA通过发现潜在共享主题与不同领域类别之间的语义关联从源域迁移知识,可以有效解决"负迁移"问题.基于Tr-SLDA迁移主题模型提出Tr-SLDA-TC (Tr-SLDA Text Categorization)文本分类方法.对比实验表明,该方法可有效利用源域知识来提高目标领域的分类性能.