电子学报 ›› 2019, Vol. 47 ›› Issue (10): 2134-2141.DOI: 10.3969/j.issn.0372-2112.2019.10.015

所属专题: 机器学习之图像处理 优秀论文(2022)

• 学术论文 • 上一篇    下一篇

基于核化双线性卷积网络的细粒度图像分类

葛疏雨, 高子淋, 张冰冰, 李培华   

  1. 大连理工大学信息与通信工程学院, 辽宁大连 116024
  • 收稿日期:2018-09-03 修回日期:2019-01-14 出版日期:2019-10-25
    • 通讯作者:
    • 李培华
    • 作者简介:
    • 葛疏雨 男,1994年2月出生于安徽宿州.大连理工大学信息与通信工程学院硕士研究生.主要研究方向为计算机视觉、深度学习.E-mail:gsy@mail.dlut.edu.cn;高子淋 女,1995年6月出生于黑龙江哈尔滨.大连理工大学信息与通信工程学院硕士研究生.主要研究方向为深度学习、计算机视觉.E-mail:gzl@mail.dlut.edu.cn;张冰冰 女,1990年5月生于辽宁沈阳.大连理工大学信息与通信工程学院博士研究生.主要研究方向为深度学习、视频行为识别.E-mail:icyzhang@mail.dlut.edu.cn
    • 基金资助:
    • 国家自然科学基金 (No.61471082)

Kernelized Bilinear CNN Models for Fine-Grained Visual Recognition

GE Shu-yu, GAO Zi-lin, ZHANG Bing-bing, LI Pei-hua   

  1. School of Information and Communication Engineering, Dalian University of Technology, Dalian, Liaoning 116024, China
  • Received:2018-09-03 Revised:2019-01-14 Online:2019-10-25 Published:2019-10-25
    • Corresponding author:
    • LI Pei-hua
    • Supported by:
    • National Natural Science Foundation of China (No.61471082)

摘要: 双线性卷积网络(Bilinear CNN,B-CNN)在计算机视觉任务中有着广泛的应用.B-CNN通过对卷积层输出的特征进行外积操作,能够建模不同通道之间的线性相关,从而增强了卷积网络的表达能力.由于没有考虑特征图中通道之间的非线性关系,该方法无法充分利用通道之间所蕴含的更丰富信息.为了解决这一不足,本文提出了一种核化的双线性卷积网络,通过使用核函数的方式有效地建模特征图中通道之间的非线性关系,进一步增强卷积网络的表达能力.本文在三个常用的细粒度数据库CUB-200-2011、FGVC-Aircraft以及Cars上对本文方法进行了验证,实验表明本文方法在三个数据库上均优于同类方法.

关键词: 核化双线性聚合, 双线性卷积网络, 端到端学习, 细粒度图像分类

Abstract: The bilinear convolutional neural network(B-CNN) has been widely used in computer vision. B-CNN can capture the linear correlation between different channels by performing the outer product operation on the features of the convolutional layer output, thus enhancing the representative ability of the convolutional network. Since the non-linear relationship between the channels in the feature map is not taken account of, this method cannot make full use of the richer information contained between the channels. In order to solve this problem, this paper proposes a kernelized bilinear convolutional neural network employing the kernel function to effectively capture the non-linear relationship between the channels in the feature map, and further enhancing the representative ability of the convolutional network. In this paper, the method is evaluated on three common fine-grained benchmarks CUB-200-2011, FGVC-Aircraft and Cars. Experiments show that our method is superior to its counterparts on all three benchmarks.

Key words: kernelized bilinear pooling, bilinear convolution neural network, end to end learning, fine-grained visual recognition

中图分类号: