电子学报 ›› 2021, Vol. 49 ›› Issue (7): 1428-1438.DOI: 10.12263/DZXB.20200570
程旭1, 宋晨1, 史金钢2, 周琳3, 张毅锋3, 郑钰辉1
收稿日期:
2020-06-15
修回日期:
2021-01-15
出版日期:
2021-07-25
发布日期:
2021-08-11
作者简介:
基金资助:
Xu CHENG1, Chen SONG1, Jin-gang SHI2, Lin ZHOU3, Yi-feng ZHANG3, Yu-hui ZHENG1
Received:
2020-06-15
Revised:
2021-01-15
Online:
2021-07-25
Published:
2021-08-11
摘要:
目标检测是计算机视觉领域中最基础且最重要的任务之一,是行为识别与人机交互等高层视觉任务的基础.随着深度学习技术的发展,目标检测模型的准确率和效率得到了大幅提升.与传统的目标检测算法相比,深度学习利用强大的分层特征提取和学习能力使得目标检测算法性能取得了突破性进展.与此同时,大规模数据集的出现及显卡计算能力的极大提高也促成了这一领域的蓬勃发展.本文对基于深度学习的目标检测现有研究成果进行了详细综述.首先回顾传统目标检测算法及其存在的问题,其次总结深度学习下区域提案和单阶段基准检测模型.之后从特征图、上下文模型、边框优化、区域提案、类别不平衡处理、训练策略、弱监督学习和无监督学习这八个角度分类总结当前主流的目标检测模型,最后对目标检测算法中待解决的问题和未来研究方向做出展望.
中图分类号:
程旭, 宋晨, 史金钢, 周琳, 张毅锋, 郑钰辉. 基于深度学习的通用目标检测研究综述[J]. 电子学报, 2021, 49(7): 1428-1438.
Xu CHENG, Chen SONG, Jin-gang SHI, Lin ZHOU, Yi-feng ZHANG, Yu-hui ZHENG. A Survey of Generic Object Detection Methods Based on Deep Learning[J]. Acta Electronica Sinica, 2021, 49(7): 1428-1438.
数据集 | 图像数量 | 图像尺寸 | 图像总类 | 提出年份 | 特点 |
---|---|---|---|---|---|
PASCAL VOC(2012)[ | 11540 | 470×380 | 20 | 2012 | 包含日常生活中常见20种分类物体 图像接近于真实世界,拥有完整注释 |
ImageNet[ | 14000000+ | 500×400 | 21841 | 2009 | 充足的图像数量和丰富的物体种类 提供200种分类,共计50万张图像的训练集 |
MS COCO[ | 328,000+ | 640×480 | 80 | 2014 | 更加精细的图像注释和轮廓信息 提供多测试指标如 APS、APM和 APL |
Objects365[ | 630000 | / | 365 | 2019 | 图像数量、种类、物体标注框多 规模大、质量高和泛化能力强 |
Open Images v6[ | 9000000+ | / | 19957 | 2020 | 掩码级的物体轮廓更加精细 新增局部叙事,人类动作等视觉关系标注 |
表1 通用目标检测数据集
数据集 | 图像数量 | 图像尺寸 | 图像总类 | 提出年份 | 特点 |
---|---|---|---|---|---|
PASCAL VOC(2012)[ | 11540 | 470×380 | 20 | 2012 | 包含日常生活中常见20种分类物体 图像接近于真实世界,拥有完整注释 |
ImageNet[ | 14000000+ | 500×400 | 21841 | 2009 | 充足的图像数量和丰富的物体种类 提供200种分类,共计50万张图像的训练集 |
MS COCO[ | 328,000+ | 640×480 | 80 | 2014 | 更加精细的图像注释和轮廓信息 提供多测试指标如 APS、APM和 APL |
Objects365[ | 630000 | / | 365 | 2019 | 图像数量、种类、物体标注框多 规模大、质量高和泛化能力强 |
Open Images v6[ | 9000000+ | / | 19957 | 2020 | 掩码级的物体轮廓更加精细 新增局部叙事,人类动作等视觉关系标注 |
检测模型 | 提出年份 | 网络架构 | 模型优点 | 模型缺点 |
---|---|---|---|---|
RCNN[ | 2014 | AlexNet | 提出区域提案目标检测模型新范式 | 正负样本失衡、模型复杂度高 分阶段训练时间长且效率低 |
SPPNet[ | 2014 | ZFNet | 解决输入图像尺寸固定问题 提高基准检测模型准确率 | 中间特征需要磁盘存储 网络不能通过反向传播更新卷积层参数 |
Fast RCNN[ | 2015 | VGG | 提出ROI Pooling优化区域特征选择 | 模型训练时间长,正负样本失衡 不能满足实时检测需求 |
Faster RCNN[ | 2015 | VGG | 提出RPN替代SS算法 极大地缩短检测时间 | 锚框数量多且锚框正负样本失衡 训练分阶段进行且时间长 |
RFCN[ | 2016 | ResNet | 使用位置敏感得分图减少物体的平移不变性 | 训练时正负样本失衡 不能满足实时检测需求 |
Mask RCNN[ | 2016 | ResNet | 双线性插值填补非整数位置像素,使用额外分支输出候选区域的掩码预测,实现更准确检测 | 训练时正负样本失衡且训练时间长 不能满足实时检测需求 |
表2 区域提案目标检测基准模型
检测模型 | 提出年份 | 网络架构 | 模型优点 | 模型缺点 |
---|---|---|---|---|
RCNN[ | 2014 | AlexNet | 提出区域提案目标检测模型新范式 | 正负样本失衡、模型复杂度高 分阶段训练时间长且效率低 |
SPPNet[ | 2014 | ZFNet | 解决输入图像尺寸固定问题 提高基准检测模型准确率 | 中间特征需要磁盘存储 网络不能通过反向传播更新卷积层参数 |
Fast RCNN[ | 2015 | VGG | 提出ROI Pooling优化区域特征选择 | 模型训练时间长,正负样本失衡 不能满足实时检测需求 |
Faster RCNN[ | 2015 | VGG | 提出RPN替代SS算法 极大地缩短检测时间 | 锚框数量多且锚框正负样本失衡 训练分阶段进行且时间长 |
RFCN[ | 2016 | ResNet | 使用位置敏感得分图减少物体的平移不变性 | 训练时正负样本失衡 不能满足实时检测需求 |
Mask RCNN[ | 2016 | ResNet | 双线性插值填补非整数位置像素,使用额外分支输出候选区域的掩码预测,实现更准确检测 | 训练时正负样本失衡且训练时间长 不能满足实时检测需求 |
检测模型 | 提出年份 | 网络架构 | 模型优点 | 模型缺点 |
---|---|---|---|---|
YOLOv1[ | 2016 | GoogLeNet | 提出单阶段目标检测模型新范式 | 模型难以预测密集目标和小物体 检测准确率不高 |
YOLOv2[ | 2017 | DarkNet | 采取K⁃means聚类数据集边框信息 可预测1000类物体 | 模型复杂度高且训练步骤多 检测准确率不高 |
YOLOv3[ | 2018 | DarkNet | 独立的逻辑回归支持多标签预测 | 模型训练时间长,泛化性差 |
YOLOv4[ | 2020 | CSPDarkNet | 结合多种策略、方法与模型 检测速度快且准确率高 | 预测框误检率高 |
SSD[ | 2016 | VGG | 分层特征图预测不同尺度物体 | 模型对小物体检测准确率不高 锚框多且正负样本失衡 |
CornerNet[ | 2018 | Hourglass | 转换边界框检测为角点检测 模型训练代价小 | 预测框误检率高 检测准确率不高 |
表3 单阶段目标检测基准模型
检测模型 | 提出年份 | 网络架构 | 模型优点 | 模型缺点 |
---|---|---|---|---|
YOLOv1[ | 2016 | GoogLeNet | 提出单阶段目标检测模型新范式 | 模型难以预测密集目标和小物体 检测准确率不高 |
YOLOv2[ | 2017 | DarkNet | 采取K⁃means聚类数据集边框信息 可预测1000类物体 | 模型复杂度高且训练步骤多 检测准确率不高 |
YOLOv3[ | 2018 | DarkNet | 独立的逻辑回归支持多标签预测 | 模型训练时间长,泛化性差 |
YOLOv4[ | 2020 | CSPDarkNet | 结合多种策略、方法与模型 检测速度快且准确率高 | 预测框误检率高 |
SSD[ | 2016 | VGG | 分层特征图预测不同尺度物体 | 模型对小物体检测准确率不高 锚框多且正负样本失衡 |
CornerNet[ | 2018 | Hourglass | 转换边界框检测为角点检测 模型训练代价小 | 预测框误检率高 检测准确率不高 |
检测模型 | 提出年份 | 卷积架构 | 基准架构 | 模型亮点 |
---|---|---|---|---|
结合多层特征图单层预测的检测模型 | ||||
ION [ | 2016 | VGG16 | Fast RCNN | 跳跃连接和循环神经网络分别用于提取多层特征 |
HyperNet[ | 2016 | VGG16 | Faster RCNN | 融合从粗糙到精细的多个特征图 |
分层预测的检测模型 | ||||
MSCNN [ | 2016 | VGG16 | Faster RCNN | 区域提案和分类同时在多层进行 |
SSD [ | 2016 | VGG16 | / | 分层特征图预测不同尺度物体 |
RFBNet [ | 2018 | VGG16 | SSD | 采取类似Inception模块的多分支卷积块 |
TridentNet[ | 2019 | ResNet101 | Faster RCNN | 提出三分支权重共享且多扩张参数的卷积层 |
结合多层特征图分层预测的检测模型 | ||||
FPN [ | 2017 | ResNet101 | Faster RCNN | 结合浅中深层特征图用于预测 |
DSSD [ | 2017 | ResNet101 | SSD | 提出反卷积层和跳跃连接传递更多语义信息 |
STDN [ | 2018 | DenseNet169 | SSD | 提出尺度迁移模块用于获得不同分辨率特征 |
DetNet [ | 2018 | DetNet59 | Faster RCNN | 引入扩张卷积获得不同分辨率的特征图 |
M2Det [ | 2019 | ResNet101 | SSD | 提出多分支模块用于更精确地分层预测 |
FCOS [ | 2019 | ResNet101 | RetinaNet | 无锚框、无区域提案、对像素点预测 |
EfficientDet[ | 2020 | EfficientNet | / | 提出加权双向特征金字塔网络学习特征 |
表4 融合特征图的目标检测模型
检测模型 | 提出年份 | 卷积架构 | 基准架构 | 模型亮点 |
---|---|---|---|---|
结合多层特征图单层预测的检测模型 | ||||
ION [ | 2016 | VGG16 | Fast RCNN | 跳跃连接和循环神经网络分别用于提取多层特征 |
HyperNet[ | 2016 | VGG16 | Faster RCNN | 融合从粗糙到精细的多个特征图 |
分层预测的检测模型 | ||||
MSCNN [ | 2016 | VGG16 | Faster RCNN | 区域提案和分类同时在多层进行 |
SSD [ | 2016 | VGG16 | / | 分层特征图预测不同尺度物体 |
RFBNet [ | 2018 | VGG16 | SSD | 采取类似Inception模块的多分支卷积块 |
TridentNet[ | 2019 | ResNet101 | Faster RCNN | 提出三分支权重共享且多扩张参数的卷积层 |
结合多层特征图分层预测的检测模型 | ||||
FPN [ | 2017 | ResNet101 | Faster RCNN | 结合浅中深层特征图用于预测 |
DSSD [ | 2017 | ResNet101 | SSD | 提出反卷积层和跳跃连接传递更多语义信息 |
STDN [ | 2018 | DenseNet169 | SSD | 提出尺度迁移模块用于获得不同分辨率特征 |
DetNet [ | 2018 | DetNet59 | Faster RCNN | 引入扩张卷积获得不同分辨率的特征图 |
M2Det [ | 2019 | ResNet101 | SSD | 提出多分支模块用于更精确地分层预测 |
FCOS [ | 2019 | ResNet101 | RetinaNet | 无锚框、无区域提案、对像素点预测 |
EfficientDet[ | 2020 | EfficientNet | / | 提出加权双向特征金字塔网络学习特征 |
检测模型 | 提出年份 | 卷积架构 | 基准架构 | 模型亮点 |
---|---|---|---|---|
结合全局上下文的检测模型 | ||||
DeepIDNet[ | 2015 | ZFNet | RCNN | 在放大区域中提取特征作为附加信息 |
CPF[ | 2016 | VGG16 | Faster RCNN | 语义分割用于上下文推理和迭代反馈 |
结合局部上下文的检测模型 | ||||
MR-CNN[ | 2015 | VGG16 | SPPNet | 多区域特征与语义特征辅助检测 |
GBDNet[ | 2016 | ResNet269 | Fast RCNN | 双向门控卷积神经网络用于传递信息 |
ACCNN[ | 2017 | VGG16 | Fast RCNN | 提出注意力上下文子网和多尺度本地子网 |
CoupleNet[ | 2017 | ResNet101 | RFCN | 提取区域提案周围多尺度上下文区域特征 |
边框优化模型 | ||||
MRCNN[ | 2016 | VGG16 | Fast RCNN | 利用迭代边框优化的方式选取预测框 |
CascadeRCNN[ | 2018 | ResNet101 | FPN | 使用一系列递增IOU阈值级联训练 |
Grid RCNN[ | 2018 | ResNet101 | FPN | 采取网格引导本地化精确目标检测机制 |
Soft NMS[ | 2017 | ResNet101 | RFCN | 新设一个置信度阈值用于处理候选预测框 |
Softer NMS[ | 2018 | ResNet50 | FPN | 提出新的边框回归损失函数KL Loss |
表5 上下文模型和边框优化模型
检测模型 | 提出年份 | 卷积架构 | 基准架构 | 模型亮点 |
---|---|---|---|---|
结合全局上下文的检测模型 | ||||
DeepIDNet[ | 2015 | ZFNet | RCNN | 在放大区域中提取特征作为附加信息 |
CPF[ | 2016 | VGG16 | Faster RCNN | 语义分割用于上下文推理和迭代反馈 |
结合局部上下文的检测模型 | ||||
MR-CNN[ | 2015 | VGG16 | SPPNet | 多区域特征与语义特征辅助检测 |
GBDNet[ | 2016 | ResNet269 | Fast RCNN | 双向门控卷积神经网络用于传递信息 |
ACCNN[ | 2017 | VGG16 | Fast RCNN | 提出注意力上下文子网和多尺度本地子网 |
CoupleNet[ | 2017 | ResNet101 | RFCN | 提取区域提案周围多尺度上下文区域特征 |
边框优化模型 | ||||
MRCNN[ | 2016 | VGG16 | Fast RCNN | 利用迭代边框优化的方式选取预测框 |
CascadeRCNN[ | 2018 | ResNet101 | FPN | 使用一系列递增IOU阈值级联训练 |
Grid RCNN[ | 2018 | ResNet101 | FPN | 采取网格引导本地化精确目标检测机制 |
Soft NMS[ | 2017 | ResNet101 | RFCN | 新设一个置信度阈值用于处理候选预测框 |
Softer NMS[ | 2018 | ResNet50 | FPN | 提出新的边框回归损失函数KL Loss |
检测模型 | 提出年份 | 卷积架构 | 基准架构 | 模型亮点 |
---|---|---|---|---|
OHEM[ | 2016 | VGG16 | Fast RCNN | 有选择地反向传播困难样本区域梯度 |
RetinaNet[ | 2017 | ResNet101 | FPN | Focal Loss取代常用标准的交叉熵损失 在单阶段检测模型上有效处理类别不平衡 |
MegNet[ | 2018 | ResNet50 | Faster RCNN | 大批量样本训练方法; 跨GPU批量归一化 |
LargeDet[ | 2020 | ResNet50 | FPN | 提出一种周期性动量衰减层级自适应动量优化器 采取同步批处理标准化快速收敛模型 |
SNIP[ | 2018 | DCN | RFCN | 选择性传播不同尺寸物体的梯度作为损失 |
SNIPER[ | 2018 | ResNet101 DCN | Faster RCNN | 多尺度训练策略 采取Negative chip sampling策略 |
DSOD[ | 2017 | DenseNet | SSD | 无需预训练,只在检测数据集上训练模型 |
ScratchDet[ | 2019 | ResNet34 | SSD | BatchNorm、Root⁃ResNet变种网络 |
表6 类别不平衡处理模型和训练策略方法
检测模型 | 提出年份 | 卷积架构 | 基准架构 | 模型亮点 |
---|---|---|---|---|
OHEM[ | 2016 | VGG16 | Fast RCNN | 有选择地反向传播困难样本区域梯度 |
RetinaNet[ | 2017 | ResNet101 | FPN | Focal Loss取代常用标准的交叉熵损失 在单阶段检测模型上有效处理类别不平衡 |
MegNet[ | 2018 | ResNet50 | Faster RCNN | 大批量样本训练方法; 跨GPU批量归一化 |
LargeDet[ | 2020 | ResNet50 | FPN | 提出一种周期性动量衰减层级自适应动量优化器 采取同步批处理标准化快速收敛模型 |
SNIP[ | 2018 | DCN | RFCN | 选择性传播不同尺寸物体的梯度作为损失 |
SNIPER[ | 2018 | ResNet101 DCN | Faster RCNN | 多尺度训练策略 采取Negative chip sampling策略 |
DSOD[ | 2017 | DenseNet | SSD | 无需预训练,只在检测数据集上训练模型 |
ScratchDet[ | 2019 | ResNet34 | SSD | BatchNorm、Root⁃ResNet变种网络 |
弱监督学习下的目标检测方法 | 提出年份 | 模型亮点 |
---|---|---|
弱监督学习下基于分割的目标检测方法 | ||
Liu[ | 2011 | 提出利用条件随机场表征图像视觉特征 |
CCNN[ | 2015 | 转化任务为线性条件约束下的训练模型最优化 |
SDCN[ | 2019 | 采取协作循环的方式指导分割模块与检测模块 |
弱监督学习下基于多示例学习的目标检测方法 | ||
Arun[ | 2019 | 提出利用相异系数概率学习图像位置特征信息 |
OIM[ | 2020 | 提出在空间和外观图中引入信息传播检测对象实例 |
Ren[ | 2020 | 引入示例空间多样化约束计算预测与真实标签差异 |
弱监督学习下基于深度学习的目标检测方法 | ||
WSDDN[ | 2016 | 利用深度神经网络极强的非线性映射能力描述特征 |
ContextLocNet[ | 2016 | 引入图像目标的上下文语义信息实现目标精确定位 |
WSOD2[ | 2019 | 联合考虑低维特征与分类置信分预测目标提案 |
表7 基于弱监督学习的通用目标检测方法
弱监督学习下的目标检测方法 | 提出年份 | 模型亮点 |
---|---|---|
弱监督学习下基于分割的目标检测方法 | ||
Liu[ | 2011 | 提出利用条件随机场表征图像视觉特征 |
CCNN[ | 2015 | 转化任务为线性条件约束下的训练模型最优化 |
SDCN[ | 2019 | 采取协作循环的方式指导分割模块与检测模块 |
弱监督学习下基于多示例学习的目标检测方法 | ||
Arun[ | 2019 | 提出利用相异系数概率学习图像位置特征信息 |
OIM[ | 2020 | 提出在空间和外观图中引入信息传播检测对象实例 |
Ren[ | 2020 | 引入示例空间多样化约束计算预测与真实标签差异 |
弱监督学习下基于深度学习的目标检测方法 | ||
WSDDN[ | 2016 | 利用深度神经网络极强的非线性映射能力描述特征 |
ContextLocNet[ | 2016 | 引入图像目标的上下文语义信息实现目标精确定位 |
WSOD2[ | 2019 | 联合考虑低维特征与分类置信分预测目标提案 |
无监督学习下的目标检测方法 | 提出年份 | 模型亮点 |
---|---|---|
无监督学习下基于分割的目标检测方法 | ||
Asako[ | 2018 | 提出利用超像素分割的方法预测图像像素点类别 |
Croitoru[ | 2019 | 提出一种双路径下的无监督对象学习方法 |
无监督学习下基于领域自适应的目标检测方法 | ||
DA Faster RCNN[ | 2018 | 提出基于H-散度理论的域自适应组件学习域间差异 |
Kim[ | 2019 | 提出弱自训练和对抗背景正则化方法用于减弱偏移 |
Hsu[ | 2020 | 提出利用中间域弥补源域与目标域间数据分布差异 |
表8 基于无监督学习的通用目标检测方法
无监督学习下的目标检测方法 | 提出年份 | 模型亮点 |
---|---|---|
无监督学习下基于分割的目标检测方法 | ||
Asako[ | 2018 | 提出利用超像素分割的方法预测图像像素点类别 |
Croitoru[ | 2019 | 提出一种双路径下的无监督对象学习方法 |
无监督学习下基于领域自适应的目标检测方法 | ||
DA Faster RCNN[ | 2018 | 提出基于H-散度理论的域自适应组件学习域间差异 |
Kim[ | 2019 | 提出弱自训练和对抗背景正则化方法用于减弱偏移 |
Hsu[ | 2020 | 提出利用中间域弥补源域与目标域间数据分布差异 |
1 | Fischler M A, et al. The representation and matching of pictorial structures[J]. IEEE Transactions on Computers, 1973, 100(1): 67 - 92. |
2 | Everingham M, Van Gool L, Williams C K I, et al. The PASCAL visual object classes (VOC) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303 - 338. |
3 | Felzenszwalb P F, Girshick R B, McAllester D, et al. Object detection with discriminatively trained part‑based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 32(9): 1627 - 1645. |
4 | Dalal N, Triggs B. Histograms of oriented gradients for human detection[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2005. 886 - 893. |
5 | Lowe D G. Object recognition from local scale‑invariant features[A]. Jim Little. IEEE International Conference on Computer Vision[C]. New York: IEEE, 1999. 1150 - 1157. |
6 | Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[A]. L Bottou. Advances in Neural Information Processing Systems[C]. CA: Morgan Kaufmann, 2012. 1097 - 1105. |
7 | Chen C, Seff A, Kornhauser A, et al. Deepdriving: Learning affordance for direct perception in autonomous driving[A]. Jim Little. IEEE International Conference on Computer Vision[C]. New York: IEEE, 2015. 2722 - 2730. |
8 | Chen X, Ma H, Wan J, et al. Multi‑view 3D object detection network for autonomous driving[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2017. 1907 - 1915. |
9 | Deng J, Dong W, Socher R, et al. Imagenet: A large‑ scale hierarchical image database[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2009. 248 - 255. |
10 | Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: Common objects in context[A]. Vittorio Ferrari. European Conference on Computer Vision[C]. Berlin: Springer, 2014. 740 - 755. |
11 | Kuznetsova A, Rom H, Alldrin N, et al. The Open Images Dataset v4: Unified Image Classification, Object Detection, and Visual Relationship Detection at Scale[EB/OL]. arXiv preprint arXiv:, 2018. |
12 | Shao S, Li Z, Zhang T, et al. Objects365: A large⁃scale, high⁃quality dataset for object detection[A]. Jim Little. IEEE International Conference on Computer Vision[C]. New York: IEEE, 2019. 8430 - 8439. |
13 | Uijlings J R R, Van De Sande K E A, Gevers T, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154 - 171. |
14 | Zitnick C L, Dollár P. Edge boxes: locating object proposals from edges[A]. Vittorio Ferrari. European Conference on Computer Vision[C]. Berlin: Springer, 2014. 391 - 405. |
15 | Ren S, He K, Girshick R, et al. Faster R‑CNN: Towards real‑time object detection with region proposal networks[A]. Advances in Neural Information Processing Systems[C]. CA: Morgan Kaufmann, 2015. 91 - 99. |
16 | Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2014. 580 - 587. |
17 | He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(9): 1904 - 1916. |
18 | Girshick R. Fast R‑CNN[A]. Jim Little. IEEE International Conference on Computer Vision[C]. New York: IEEE, 2015. 1440 - 1448. |
19 | Dai J, Li Y, He K, et al. R‑FCN: Object detection via region‑based fully convolutional networks[A]. U. |
Luxburg. Advances in Neural Information Processing Systems[C]. CA: Morgan Kaufmann, 2016. 379 - 387. | |
20 | He K, Gkioxari G, Dollár P, et al. Mask R‑CNN[A]. Jim Little. IEEE International Conference on Computer Vision[C]. New York: IEEE, 2017. 2961 - 2969. |
21 | Hearst M A, Dumais S T, Osuna E, et al. Support vector machines[J]. IEEE Intelligent Systems and Their Applications, 1998, 13(4): 18 - 28. |
22 | Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real‑time object detection[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2016. 779 - 788. |
23 | Redmon J, Farhadi A. YOLO9000: better, faster, stron‑ ger[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2017. 7263 - 7271. |
24 | Redmon J, Farhadi A. Yolov3: An Incremental Improvement[EB/OL]. arXiv preprint arXiv:, 2018. |
25 | Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection[EB/OL]. arXiv preprint arXiv:, 2020. |
26 | Wang C Y, Mark Liao H Y, Wu Y H, et al. CSPNet: A new backbone that can enhance learning capability of cnn[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2020. 390 - 391. |
27 | Misra D. Mish: A Self Regularized Non‑monotonic Neural Activation Function[EB/OL]. arXiv preprint arXiv:, 2019. |
28 | Ghiasi G, Lin T Y, Le Q V. Dropblock: A regularization method for convolutional networks[A]. H. |
Wallach. Advances in Neural Information Processing Systems[C]. CA: Morgan Kaufmann, 2018. 10727 - 10737. | |
29 | Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[A]. Vittorio Ferrari. European Conference on Computer Vision[C]. Berlin: Springer, 2016. 21 - 37. |
30 | Fu C Y, Liu W, Ranga A, et al. DSSD: Deconvolutional Single Shot Detector[EB/OL]. arXiv preprint arXiv:, 2017. |
31 | Law H, Deng J. Cornernet: Detecting objects as paired keypoints[A]. Vittorio Ferrari. European Conference on Computer Vision[C]. Berlin: Springer, 2018. 734 - 750. |
32 | Duan K, Bai S, Xie L, et al. Centernet: Keypoint triplets for object detection[A]. Jim Little. IEEE International Conference on Computer Vision[C]. New York: IEEE, 2019. 6569 - 6578. |
33 | Bell S, Lawrence Zitnick C, Bala K, et al. Inside‑outside net: detecting objects in context with skip pooling and recurrent neural networks[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2016. 2874 - 2883. |
34 | Kong T, Yao A, Chen Y, et al. Hypernet: Towards accurate region proposal generation and joint object detection[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2016. 845 - 853. |
35 | Cai Z, Fan Q, Feris R S, et al. A unified multi‑scale deep convolutional neural network for fast object detection[A]. Vittorio Ferrari. European Conference on Computer Vision[C]. Berlin: Springer, 2016. 354 - 370. |
36 | Liu S, Huang D. Receptive field block net for accurate and fast object detection[A]. Vittorio Ferrari. European Conference on Computer Vision[C]. Berlin: Springer, 2018. 385 - 400. |
37 | Li Y, Chen Y, Wang N, et al. Scale‑aware trident networks for object detection[A]. Jim Little. IEEE International Conference on Computer Vision[C]. New York: IEEE, 2019. 6054 - 6063. |
38 | Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2017. 2117 - 2125. |
39 | Zhou P, Ni B, Geng C, et al. Scale‑transferrable object detection[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2018. 528 - 537. |
40 | Li Z, Peng C, Yu G, et al. DetNet: Design backbone for object detection[A]. Vittorio Ferrari. European Conference on Computer Vision[C]. Berlin: Springer, 2018. 334 - 350. |
41 | Zhao Q, Sheng T, Wang Y, et al. M2Det: A single‑shot object detector based on multi‑level feature pyramid network[A]. Yang Q. American Association for Artificial Intelligence[C]. New York: IEEE, 2019. 9259 - 9266. |
42 | Tian Z, Shen C, Chen H, et al. FCOS: Fully convolutional one‑stage object detection[A]. Jim Little. IEEE International Conference on Computer Vision[C]. New York: IEEE, 2019. 9627 - 9636. |
43 | Tan M, Pang R, Le Q V. Efficientdet: scalable and efficient object detection[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2020. 10781 - 10790. |
44 | Ouyang W, Wang X, Zeng X, et al. DeepID‑Net: Deformable deep convolutional neural networks for object detection[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2015. 2403 - 2412. |
45 | Shrivastava A, Gupta A. Contextual priming and feedback for faster R‑CNN[A]. Vittorio Ferrari. European Conference on Computer Vision[C]. Berlin: Springer, 2016. 330 - 348. |
46 | Gidaris S, Komodakis N. Object detection via a multi‑ region and semantic segmentation‑aware CNN model[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2015. 1134 - 1142. |
47 | Zeng X, Ouyang W, Yan J, et al. Crafting GBD‑net for object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(9): 2109 - 2123. |
48 | Li J, Wei Y, Liang X, et al. Attentive contexts for object detection[J]. IEEE Transactions on Multimedia, 2016, 19(5): 944 - 954. |
49 | Zhu Y, Zhao C, Wang J, et al. Couplenet: Coupling global structure with local parts for object detection[A]. Jim Little. IEEE International Conference on Computer Vision[C]. New York: IEEE, 2017. 4126 - 4134. |
50 | Zagoruyko S, Lerer A, Lin T Y, et al. A Multipath Network for Object Detection[EB/OL]. arXiv preprint arXiv:, 2016. |
51 | Cai Z, Vasconcelos N. Cascade R‑CNN: Delving into high quality object detection[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2018. 6154 - 6162. |
52 | Lu X, Li B, Yue Y, et al. Grid R‑CNN[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2019. 7363 - 7372. |
53 | Rosenfeld A, Thurston M. Edge and curve detection for visual scene analysis[J]. IEEE Transactions on computers, 1971, 100(5): 562 - 569. |
54 | Bodla N, Singh B, Chellappa R, et al. Soft‑NMS—improving object detection with one line of code[A]. Jim Little. IEEE International Conference on Computer Vision[C]. New York: IEEE, 2017. 5561 - 5569. |
55 | He Y, Zhu C, Wang J, et al. Bounding box regression with uncertainty for accurate object detection[A]: Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2019. 2888 - 2897. |
56 | Kuo W, Hariharan B, Malik J. Deepbox: Learning objectness with convolutional networks[A]. Jim Little. IEEE International Conference on Computer Vision[C]. New York: IEEE, 2015. 2479 - 2487. |
57 | Ghodrati A, Diba A, Pedersoli M, et al. Deep proposal: Hunting objects by cascading deep convolutional layers[A]. Jim Little. IEEE International Conference on Computer Vision[C]. New York: IEEE, 2015. 2578 - 2586. |
58 | Sung K K. Learning and Example Selection for Object and Pattern Detection[D]. Massachusetts, USA: MIT AI Lab, 1995. |
59 | Shrivastava A, Gupta A, Girshick R. Training region‑ based object detectors with online hard example mining[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2016. 761 - 769. |
60 | Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[A]. Jim Little. IEEE International Conference on Computer Vision[C]. New York: IEEE, 2017. 2980 - 2988. |
61 | Peng C, Xiao T, Li Z, et al. MegDet: A large mini‑ batch object detector[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2018. 6181 - 6189. |
62 | Wang T, Zhu Y, Zhao C, et al. Large batch optimization for object detection: training coco in 12 minutes [A]. Vittorio Ferrari. European Conference on Computer Vision[C]. Berlin: Springer, 2020. 481 - 496. |
63 | Singh B, Davis L S. An analysis of scale invariance in object detection snip[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2018. 3578 - 3587. |
64 | Singh B, Najibi M, Davis L S. Sniper: Efficient multi‑scale training[A]. H Wallach. Advances in Neural Information Processing Systems[C]. CA: Morgan Kaufmann, 2018. 9310 - 9320. |
65 | Shen Z, Liu Z, Li J, et al. Dsod: Learning deeply supervised object detectors from scratch[A]. Jim Little. IEEE International Conference on Computer Vision[C]. New York: IEEE, 2017. 1919 - 1927. |
66 | Zhu R, Zhang S, Wang X, et al. ScratchDet: Training single‑shot object detectors from scratch[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2019. 2268 - 2277. |
67 | Liu T, Yuan Z, Sun J, et al. Learning to detect a salient object[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 33(2): 353 - 367. |
68 | Li J, Li X, Yang B, et al. Segmentation‑based image copy‑move forgery detection scheme[J]. IEEE Transactions on Information Forensics and Security, 2014, 10(3): 507 - 518. |
69 | Li X, Kan M, Shan S, et al. Weakly supervised object detection with segmentation collaboration[A]. Jim Little. IEEE International Conference on Computer Vision[C]. New York: IEEE, 2019. 9735 - 9744. |
70 | Arun A, Jawahar C V, Kumar M P. Dissimilarity coefficient based weakly supervised object detection[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2019. 9432 - 9441. |
71 | Lin C, Wang S, Xu D, et al. Object instance mining for weakly supervised object detection[A]. Yang Q. American Association for Artificial Intelligence[C]. New York: IEEE, 2020. 11482 - 11489. |
72 | Ren Z, Yu Z, Yang X, et al. Instance‑aware, context‑ focused, and memory‑efficient weakly supervised object detection[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2020. 10598 - 10607. |
73 | Bilen H, Vedaldi A. Weakly supervised deep detection networks[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2016. 2846 - 2854. |
74 | Kantorov V, Oquab M, Cho M, et al. ContextLocNet: Context‑aware deep network models for weakly supervised localization[A]. Vittorio Ferrari. European Conference on Computer Vision[C]. Berlin: Springer, 2016. 350 - 365. |
75 | Zeng Z, Liu B, Fu J, et al. WSOD2: Learning bottom‑ up and top‑down objectness distillation for weakly‑supe‑ rvised object detection[A]. Jim Little. IEEE International Conference on Computer Vision[C]. New York: IEEE, 2019. 8292 - 8300. |
76 | Kanezaki A. Unsupervised image segmentation by backpropagation[A]. IEEE International Conference on Aco‑ ustics, Speech and Signal Processing[C]. New York: IEEE, 2018. 1543 - 1547. |
77 | Croitoru I, Bogolin S V, Leordeanu M. Unsupervised learning of foreground object segmentation[J]. International Journal of Computer Vision, 2019, 127(9): 1279 - 1302. |
78 | Chen Y, Li W, Sakaridis C, et al. Domain adaptive faster R‑CNN for object detection in the wild[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2018. 3339 - 3348. |
79 | Zhu X, Pang J, Yang C, et al. Adapting object detectors via selective cross‑domain alignment[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2019. 687 - 696. |
80 | Hsu H K, Yao C H, Tsai Y H, et al. Progressive domain adaptation for object detection[A]. Satya Nadella. IEEE Conference on Computer Vision and Pattern Recognition[C]. New York: IEEE, 2020. 749 - 757. |
[1] | 廖勇, 李玉杰. 一种轻量化低复杂度的FDD大规模MIMO系统CSI反馈方法[J]. 电子学报, 2022, 50(5): 1211-1217. |
[2] | 张云, 化青龙, 姜义成, 徐丹. 基于混合型复数域卷积神经网络的三维转动舰船目标识别[J]. 电子学报, 2022, 50(5): 1042-1049. |
[3] | 冀振燕, 韩梦豪, 宋晓军, 冯其波. 面向激光光条图像修复的循环相似度映射网络[J]. 电子学报, 2022, 50(5): 1234-1242. |
[4] | 潘敏婷, 王韫博, 朱祥明, 高思宇, 龙明盛, 杨小康. 基于无标签视频数据的深度预测学习方法综述[J]. 电子学报, 2022, 50(4): 869-886. |
[5] | 杨曦, 张鑫, 郭浩远, 王楠楠, 高新波. 基于不变特征的多源遥感图像舰船目标检测算法[J]. 电子学报, 2022, 50(4): 887-899. |
[6] | 张浩, 胡昌华, 杜党波, 裴洪, 张建勋. 多状态影响下基于Bi‑LSTM网络的锂电池剩余寿命预测方法[J]. 电子学报, 2022, 50(3): 619-624. |
[7] | 崔亚奇, 何友, 唐田田, 熊伟. 一种深度学习航迹关联方法[J]. 电子学报, 2022, 50(3): 759-763. |
[8] | 肖进胜, 张舒豪, 陈云华, 王元方, 杨力衡. 双向特征融合与特征选择的遥感影像目标检测[J]. 电子学报, 2022, 50(2): 267-272. |
[9] | 伍邦谷, 张苏林, 石红, 朱鹏飞, 王旗龙, 胡清华. 基于多分支结构的不确定性局部通道注意力机制[J]. 电子学报, 2022, 50(2): 374-382. |
[10] | 骈纬国, 吴映波, 陈蒙, 蔡俊鹏. 一种基于时空动态图注意力网络的共享出行需求预测方法[J]. 电子学报, 2022, 50(2): 432-439. |
[11] | 李居朋, 王颖慧, 李刚. 医学图像关键点检测深度学习方法研究与挑战[J]. 电子学报, 2022, 50(1): 226-237. |
[12] | 张聿远, 张立民, 闫文君. 基于深度多级残差网络的低信噪比下空频分组码识别方法[J]. 电子学报, 2022, 50(1): 79-88. |
[13] | 赵琰, 赵凌君, 匡纲要. 基于注意力机制特征融合网络的SAR图像飞机目标快速检测[J]. 电子学报, 2021, 49(9): 1665-1674. |
[14] | 管永明, 王刚, 骆凯波, 吕梁, 吕晓雯, 史玉良. 基于极端不平衡学习的泛化低压异常箱表关系识别研究与应用[J]. 电子学报, 2021, 49(8): 1507-1514. |
[15] | 席亮, 刘涵, 樊好义, 张凤斌. 基于深度对抗学习潜在表示分布的异常检测模型[J]. 电子学报, 2021, 49(7): 1257-1265. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||