%0 Journal Article %A 周东明 %A 张灿龙 %A 李志欣 %A 王智文 %T 基于多层级视觉融合的图像描述模型 %D 2021 %R 10.12263/DZXB.20191296 %J 电子学报 %P 1286-1290 %V 49 %N 7 %X

传统方法在视觉策略网络中只关注实体,不能够推理出实体和属性之间的联系,在语言策略网络存在暴露偏差和误差累计问题.为此,提出了一个基于强化学习的多层级视觉融合网络模型.在视觉策略网络中通过多层级神经网络模块将视觉特征转化为视觉知识的特征集.融合网络生成使描述语句更加流畅的虚词,用于视觉策略网络和语言策略网络的互动.在语言策略网络中使用基于强化学习的自批评策略梯度算法对视觉融合网络实现端到端的优化.实验结果表明,该模型在MS?COCO数据集取得不错效果,将Karpathy分割测试中的CIDEr值从120.1提高到124.3.

%U https://www.ejournal.org.cn/CN/10.12263/DZXB.20191296