电子学报 ›› 2021, Vol. 49 ›› Issue (9): 1682-1690.DOI: 10.12263/DZXB.20200014

所属专题: 自然语言处理:技术与应用

• 学术论文 • 上一篇    下一篇

基于短语向量和主题加权的关键词抽取方法

孙新1,2, 盖晨1, 申长虹1, 张颖捷1   

  1. 1.北京理工大学计算机学院北京市海量语言信息处理与云计算应用工程技术研究中心,北京 100081
    2.北京理工大学东南信息技术研究院,福建 莆田 351100
  • 收稿日期:2019-12-23 修回日期:2020-11-24 出版日期:2021-10-21
    • 作者简介:
    • 孙新 女, 1975年4月生于吉林省长春市.现为北京理工大学计算机学院副教授,硕士生导师. 主要研究方向为人工智能,机器学习.E-mail: sunxin@bit.edu.cn
      盖晨 男,1996年5月生于河北省石家庄市.现为北京理工大学计算机学院硕士生研究生.主要研究方向为人工智能.E-mail: 851774342@qq.com
      申长虹 女,1995年3月生于河南省.北京理工大学计算机学院硕士生.主要研究方向为人工智能. E-mail: suishelly@foxmail.com
    • 基金资助:
    • 国家重点研发计划项目 (2017YFB0803300)

The Theme-Weighted Keyphrase Extraction Algorithm Based on Phrase Embedding

SUN Xin1,2, GE Chen1, SHEN Chang-hong1, ZHANG Ying-jie1   

  1. 1.Beijing Engineering Research Center of High Volume Language Information Processing and Cloud Computing Applications, School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081, China
    2.Beijing Institute of Technology Southeast Academy of Information Technology, Putian, Fujian 351100, China
  • Received:2019-12-23 Revised:2020-11-24 Online:2021-10-21 Published:2021-09-25
    • Supported by:
    • Program of National Key Research and Development Program of China (2017YFB0803300)

摘要:

现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息.

关键词: 短语向量, 自编码器, 主题加权, 关键词抽取

Abstract:

Keyword extraction is a key basic problem in the field of natural language processing. The keyphrase extraction algorithms(PhraseVecRank) is proposed based on phrase embedding. Firstly, a phrase vector construction model based on LSTM(Long Short-Term Memory) and CNN(Convolutional Neural Network) is designed to solve the semantic representation of complex phrases. Then, PhraseVecRank uses phrase embedding to calculate theme weight for each candidate phrase, and uses semantic similarity between candidate phrase embedding and co-occurrence information to calculate edge weight together, which can improve the extraction effect of keyphrases through topic weighted ranking. The experimental results verify that PhraseVecRank can effectively extract keyphrases covering the topic information of text, and the phrase embedding models we proposed can better represent the semantic information of phrases.

Key words: phrase embedding, auto-encoder, theme-weighted, keyphrases extraction

中图分类号: