1. 南京大学计算机软件新技术国家重点实验室,江苏,南京,210093
2. 南京师范大学计算机科学系,江苏,南京,210097
3. 南京大学计算机软件新技术国家重点实验室江苏南京,210093
4. 南京师范大学计算机科学系江苏南京,210097
纸质出版:2008
移动端阅览
戴新宇, 田宝明, 周俊生, 等. 一种基于潜在语义分析和直推式谱图算法的文本分类方法LSASGT[J]. 电子学报, 2008,36(8):1626-1630.
DAI Xin-yu, TIAN Bao-ming, ZHOU Jun-sheng, et al. LSASGT:an Approach to Text Categorization Based on Latent Semantic Analysis and Spectral Graph Transducer[J]. Acta Electronica Sinica, 2008, 36(8): 1626-1630.
戴新宇, 田宝明, 周俊生, 等. 一种基于潜在语义分析和直推式谱图算法的文本分类方法LSASGT[J]. 电子学报, 2008,36(8):1626-1630. DOI:
DAI Xin-yu, TIAN Bao-ming, ZHOU Jun-sheng, et al. LSASGT:an Approach to Text Categorization Based on Latent Semantic Analysis and Spectral Graph Transducer[J]. Acta Electronica Sinica, 2008, 36(8): 1626-1630. DOI:
本文针对训练数据较少以及在基于图的分类算法中的文本表示问题
提出了一种基于潜在语义分析技术和直推式谱图算法的文本分类方法LSASGT
该方法将潜在语义分析技术和直推式谱图算法这两种基于谱分析理论的技术有机地结合在一起
对所有训练数据和测试数据进行统一建模
挖掘数据中潜在的多种结构信息.LSASGT引入潜在语义分析技术用于构造文本图表示模型
在能够反映人的分类标准的潜在语义特征空间中
描述文本之间的语义相关性;基于这样的文本表示
利用半监督的直推式谱图算法进行文本分类.在基准英文文本分类数据集Reuters21578和中文文本分类数据集Tan-Corp上的实验结果表明
本文给出的LSASGT文本分类方法获得了较好的分类结果.
In this paper
an approach to text categorization named LSASGT is proposed
which combines Latent Semantic Analysis(LSA) with Spectral Graph Transducer(SGT) for the task of text categorization.For both LSA and SGT are originated from spectral analysis theory which can mine some latent structure information within all training and testing data
we integrate them tightly in one model.Firstly
according to the characteristic of natural language
LSA is used to represent documents in a latent semantic space in which documents and their semantic relationships can be reflected more pertinently.Then we construct a graph based on the latent concept-based subspace
and apply the graph into SGT for text categorization.The experiments demonstrate that LSASGT can improve classification performance on both English and Chinese datasets of Reuters21578 and TanCorp-12.
0
浏览量
1392
下载量
3
CSCD
关联资源
相关文章
相关作者
相关机构
京公网安备11010802024621