钱肖, 蒋忠元, 陶梅悦, 刘柄呈, 李任翔, 高胜, 马建峰
预出版日期: 2025-05-22
针对各行各业海量文本文档的智能合约化需求,提取文本关键数据要素是首要基础.与传统命名实体识别(Named Entity Recognition,NER)相比,合约要素提取(Contract Element Extraction,CEE)技术旨在提取泛在较长、更多样、较冗余合约要素,然而目前面临着中文研究不足、对新颖大语言模型(Large Language Model,LLM)技术应用不够充分、对文本上下文关联特征感知不足等挑战.本文首先提出了新颖的上下文语义感知动态填充方法(Context-sensitive Dynamic Padding Method,CDPM)、三重注意力层和要素边缘加权损失函数模块,在不增加硬件需求的前提下,为模型提供额外上下文语义信息,增强对上下文关联特征的感知能力,从而提升基于序列标注范式的CEE训练效率;其次,融合上述模块和BERT(Bidirectional Encoder Representations from Transformers)嵌入模型构建了一种基于上下文感知的合约要素提取模型(Context-Aware Model for Contract Element Extraction,CAM-CEE),实现了面向智能合约化场景的高性能要素提取;最后,在本文自主构建的数据集以及相关公开数据集上进行了大量实验.结果表明:本文提出框架CAM-CEE在micro F 1、macro F 1等指标上的性能超越最佳基线模型,并具有高通用性.