%0 Journal Article %A 黄九鸣 %A 吴泉源 %A 张圣栋 %A 贾焰 %A 刘东 %A 周斌 %T 基于AC-Trie的在线社交网络文本流热点要素抽取 %D 2016 %R 10.3969/j.issn.0372-2112.2016.10.026 %J 电子学报 %P 2466-2470 %V 44 %N 10 %X

在线社交网络文本流中的热点短语能反映文本流中隐含的热点话题和突发事件.本文提出了一种无需分词并能支持多种热度度量函数的热点短语挖掘技术.首先用文本流的某个典型时段采样得到候选短语,构建AC-Trie前缀树.然后,基于该前缀树,单遍扫描后续的文本流,将候选短语的历史出现频率记录在Trie相应节点上,从而支持多种基于历史频率的热度计算方法.此外,为及时发现新的热点短语并减少AC-Trie的构建次数,本文通过分析Trie树各节点上的遗漏短语频率,动态确定候选短语的更新时机.新浪微博数据集上的实验验证了本文方法的有效性(准确率达89%)和高效性(时空开销仅为基准算法的2%).

%U https://www.ejournal.org.cn/CN/10.3969/j.issn.0372-2112.2016.10.026