电子学报 ›› 2023, Vol. 51 ›› Issue (3): 658-665.DOI: 10.12263/DZXB.20210628
隗昊1,2, 唐焕玲3, 周爱2, 张益嘉2, 陈飞2, 鲁明羽2
WEI Hao1,2, TANG Huan-ling3, ZHOU Ai2, ZHANG Yi-jia2, CHEN Fei2, LU Ming-yu2
摘要:
目前,生物医学领域的关系提取工作已经取得了长足的发展,但是在面对句式复杂的临床医学文本时,由于存在大量长句以及句中实体对的高密度分布,限制了当前关系抽取模型性能的进一步提升.本文提出了一种基于张量权重矩阵的双向门控循环单元网络(Tensor-based Bidirectional Gated Recurrent Unit, Tensor-BiGRU)和分段注意力机制的关系抽取模型,基于张量权重矩阵改进BiGRU网络的编码方式,提升神经网络捕获底层特征的能力,而后提出了两种分段注意力机制,以提高模型捕获长句特征的性能.此外,当句子中有多个实体对时,引入实体对的语义信息特征来克服模型的性能下降.本文进一步提出一种权重自适应的交叉熵损失函数,用于提升模型面对数据集中不同关系类别的样本分布不平衡问题的泛化性.实验结果表明,在不依赖任何特征工程和高性能运算环境的情况下,本文模型在2010 i2b2/VA临床关系抽取数据集上实现了先进的性能.
中图分类号: