基于前景优化的视觉目标跟踪算法

谢青松; 刘晓庆; 安志勇; 李博

doi:10.12263/DZXB.20210641

PDF(1261 KB)

电子学报 ›› 2022, Vol. 50 ›› Issue (7) : 1558-1566. DOI: 10.12263/DZXB.20210641

学术论文

基于前景优化的视觉目标跟踪算法

作者信息 +

Visual Object Tracking Algorithm Based on Foreground Optimization

Author information +

文章历史 +

本文亮点

将目标分割技术引入跟踪领域是当前的研究热点.目前，基于分割的跟踪算法往往根据分割结果计算最小外接矩形，以此作为跟踪框，但复杂的目标运动使得跟踪框内包含较多背景，从而导致精度下降.针对该问题，本文提出了一种基于前景优化的视觉目标跟踪算法，将跟踪框的尺度和角度优化统一于前景优化框架中.首先评估跟踪框内的前景比例，若小于设定阈值，则对跟踪框分别进行尺度和角度优化；在尺度优化模块中，结合回归框计算跟踪框的条件概率，根据条件概率的结果分情形进行尺度优化；角度优化模块中，针对跟踪框设定多个偏移角度，利用前景IoU（Intersection over Union）极大策略选择最优跟踪框角度.结果证明，将本文方法应用于SiamMask算法，精度在VOT2016，VOT2018和VOT2019数据集分别提升约3.2%，3.7%和3.6%，而EAO分别提升约1.8%，1.9%和1.6%.另外，本文的方法针对基于分割的跟踪算法具有一定的普适性.

HeighLight

The introduction of object segmentation technology into the tracking field is a current research hotspot. At present, the tracking algorithm based on segmentation often calculates the minimum bounding rectangle as the bounding box according to the segmentation result. However, the complex target movement makes the bounding box contain more background, which leads to a decrease in accuracy. In response to the problem, this paper proposes a visual object tracking algorithm based on foreground optimization, which unifies the optimization of the scale and angle in the bounding box into the foreground optimization frame. First, the foreground ratio in the bounding box is evaluated. If it is less than the set threshold, the scale and angle of the bounding box are optimized; in the scale optimization module, the conditional probability of the bounding box is calculated in combination with the regression box, and the scale is optimized according to the results of the conditional probability; in the angle optimization module, many deviation angles are set for the bounding box, and the optimal bounding box angle is chosen by the foreground IoU (Intersection over Union) maximum strategy. The proposed method is applied to the SiamMask algorithm. Results show that the accuracy is improved by about 3.2%, 3.7% and 3.6% in the VOT2016, VOT2018 and VOT2019 data sets, respectively, while EAO is increased by about 1.8%,1.9% and 1.6%, respectively. Moreover, our method has a certain universality for segmentation-based tracking algorithms.

导出引用

谢青松 , 刘晓庆 , 安志勇 , 李博. 基于前景优化的视觉目标跟踪算法[J]. 电子学报, 2022, 50(7): 1558-1566. https://doi.org/10.12263/DZXB.20210641

XIE Qing-song , LIU Xiao-qing , AN Zhi-yong , LI Bo. Visual Object Tracking Algorithm Based on Foreground Optimization[J]. Acta Electronica Sinica, 2022, 50(7): 1558-1566. https://doi.org/10.12263/DZXB.20210641

中图分类号： TP391.4

1 引言

目标跟踪是根据初始帧目标计算其在后续帧的位置，该技术在智能视频监控^［1，2］、人机交互^［3］、虚拟现实^［4］和视觉导航^［5］等领域得到广泛应用，成为计算机视觉领域的重要分支^［6~8］.目前的跟踪方法主要分为生成式和判别式两大类.早期方法主要以生成式为主，如光流法^［9，10］，粒子滤波^［11］，Meanshift^［12］，Camshift^［13］，但是该类方法只依赖目标信息进行跟踪，而目标变化存在多样性和复杂性，因此很容易跟丢目标.与生成式不同，判别式方法通过训练分类器来区分目标和背景，在精度上存在较大优势，目前主要以相关滤波和深度学习为主.相关滤波中，Bolme等^［14］提出了最小平方和滤波器算法，但该方法存在不稳定性，同时缺乏目标尺度估计和多通道等问题.Danelljan等^［15］提出了DSST跟踪算法，利用岭回归算法对相关滤波进行改进，同时增加了尺度滤波器估计目标尺度，然而该方法仅在尺度窗口增加和降低的趋势估计上容易产生漂移，导致小尺度的震荡，检测性能有待提高.目前，更多的是基于深度学习的方法^{［16，17］}，DLT算法^［18］将深度学习方法应用到目标跟踪中.它针对在线训练时正样本缺失的问题，提出了一种离线训练与在线调整相结合的方法.

然而，目前的跟踪方法大都使用轴对齐的水平框跟踪目标，相比水平框，旋转框能够更紧凑的包围目标，并且可提供目标的运动方向，方向信息可以进一步解决如动作分类等诸多计算机视觉问题.虽然旋转框存在较大的优势，但对其角度和尺度的准确估计却是一个难题，相关文献［19，20］对此进行了研究，然而这些算法在跟踪速度和精度方面都有局限性.孪生网络中的SiamMask^［21］算法将目标分割^{［22，23］}引入了跟踪领域兼顾了这些问题，该算法能够预测目标的分割掩码，并且实时适应最小外接矩形作为跟踪框.尽管该网络在跟踪性能上取得了很大进展，但是当非刚性目标运动时，实时生成的最小外接矩形的准确度较低，框内包含较多背景.而本文认为，这些背景主要是由于跟踪框尺度和角度的不准确引入的.因此本文将SiamMask作为基准算法，提出了一种基于前景优化的视觉目标跟踪算法，设计了尺度优化和角度优化两个模块，来提升跟踪性能.本文主要贡献总结如下：

（1）针对分割导致的跟踪框尺度不准确，提出了尺度优化策略.该策略不仅保证了目标运动时尺度的稳定性，并且在不丢失目标信息的前提下，较大的提升了跟踪框内的前景比例.

（2）针对分割导致的跟踪框角度不准确，提出了角度优化策略.优化后的跟踪框可适应目标不同程度的旋转且与目标角度保持一致，进一步提升了跟踪框内的前景比例.

（3）在VOT2016^［24］、VOT2018^［25］和VOT2019 ^［26］三个旋转框标记的数据集上进行大量实验证明，本文提出的前景优化策略具有较高的精度，在一定程度上改进了分割与跟踪结合存在的缺陷.

2 相关工作

近年来，基于深度学习的孪生网络系列跟踪算法^［27~33］取得了优异的成绩.其中，SiamFC^［27］是早期孪生网络的代表，受到广泛关注，运行速度可达到58fps，然而该网络在跟踪时需要进行多尺度测试，跟踪精度很不理想.SiamRPN^［28］在此基础上借鉴了Faster R-CNN^［34］的区域建议网络，使用边框回归替代多尺度测试，得到最大响应的回归框，准确度显著超于SiamFC.Li等提出SiamRPN++^［29］解决了孪生网络中的平移不变性问题，并提出了一种新的模型来执行分层和深度聚合，提高精度的同时降低了模型的尺度规模.

SiamMask^［21］算法与他们不同，该算法与分割技术相结合，跟踪框可旋转.但是由于SiamMask直接对分割掩码拟合最小外接矩形作为跟踪框，在目标发生运动时跟踪框精度往往较低.之后，Chen等提出SiamMask-E^［35］算法优化了SiamMask的跟踪框拟合过程，该算法首先采用最小二乘法对分割掩码的轮廓进行椭圆拟合，再进一步得到椭圆的最小外接矩形.该方式在一定程度上提升了跟踪框的准确性，但是在目标运动幅度较大时，该方法的跟踪框稳定性较差，精度并不高.

因此，本文在第三节针对SiamMask跟踪框存在的问题，在尺度和角度上分别进行了优化，来提升跟踪框内的前景比例，抑制背景的干扰.

3 基于前景优化的视觉目标跟踪算法

本文的整体流程如图1所示，共分为三个部分.第一部分为SiamMask网络工作，f_θ 为孪生网络，分支网络中包含回归网络r_σ 、分割网络h_ϕ 、分类网络c_φ .其中，分类损失使用交叉熵损失，记为L_cls；回归损失采用归一化坐标的smooth _L₁损失，记为L_reg；分割部分的损失函数记为L_mask，具体计算在3.1节.第二部分为尺度优化模块，在优化之前先对SiamMask输出的跟踪框内前景比例进行计算，从而判断是否需要优化，不需要直接输出原跟踪框，否则进行尺度优化，包含两种优化情形（M∩

R'

，AS/MS）.第三部分为角度优化模块，该模块针对跟踪框的原始角度设定了多个偏移，依次与前景计算IoU（Intersection over Union），选择最高的进行输出.具体实施细节在3.3和3.4节.

图1 基于前景优化的视觉目标跟踪算法整体流程框架.图中的R为回归分支输出的回归框,R′为旋转后的回归框,F为目标分割掩码,M为掩码的最小外接矩形,T为尺度优化后输出的跟踪框, ${\hat{T}}_{i}$ 为角度优化后输出的最终跟踪框,AS(Adaptive Strategy)为自适应策略,MS(Mean Strategy)为均值策略,AOS(Angle Offset Strategy)为角度偏移策略.

Full size|PPT slide

3.1 损失函数

特征提取时，模板帧z和搜索帧x两个分支经过相同的卷积神经网络f_θ，分别生成特征图f_θ （z）和f_θ （x），两个特征图进行深度互相关确定目标位置：

g_{θ} (z, x) = f_{θ} (z) * f_{θ} (x)

（1）

其中*为深度互相关操作，g_θ （z，x）为f_θ （z）和f_θ （x）互相关后生成的响应图，响应图中每个空间元素记为一个RoW（Response of a candidate Window）.

在三个分支中，分类损失^［28］为交叉熵损失，记为L_cls.回归分支中，由神经网络r_σ 进行回归，损失函数采用归一化坐标的smooth _L₁损失，因此回归损失^［28］L_reg为

L_{r e g} = \sum_{i = 0}^{3} s m o o t h_{L_{1}} (δ [i], σ)

（2）

δ［0］~δ［3］分别表示为锚框与真实框回归后得到的平移量（δ［0］，δ［1］）和尺度缩放（δ［2］，δ［3］）.分割网络中，由神经网络h_ϕ 对响应图g中的每个RoW预测成w×h的二元掩码，损失函数^［21］为

L_{m a s k} (θ, ϕ) = \sum_{n} (\frac{1 + y_{n}}{2 w h} \sum_{i j} l o g (1 + e^{- c_{n}^{i j} m_{n}^{i j}}))

（3）

每个RoW标记为一个二元标签y_n，如果RoW的一个锚框与真实框的IoU值≥0.6，则y_n =1；否则y_n =-1.m_n 表示第n个RoW预测的二元掩码，

c_{n}^{i j}

为m_n 中位置（i，j）处所对应的二元标签，前景值为1，背景值为-1.因此，本文主干网络损失函数为

L_{l o s s} = λ_{1} L_{m a s k} + λ_{2} L_{c l s} + λ_{3} L_{r e g}

（4）

损失函数L_loss中，分别使用参数λ₁、λ₂、λ₃对三个分支进行加权.网络训练完成后，在跟踪阶段会输出当前帧的回归框，目标的分割掩码及其最小外接矩形作为跟踪框.在3.3节和3.4节分别对该跟踪框进行尺度和角度的优化.

3.2 前景比例计算

前景即为目标的分割掩码部分，表示为F；跟踪框即为分割掩码的最小外接矩形，表示为M，旋转角度记为θ.M的顶点坐标表示为

M = [(x_{A}, y_{A}), (x_{B}, y_{B}), (x_{C}, y_{C}), (x_{D}, y_{D})]

（5）

最小外接矩形即采用面积最小的旋转矩形对前景进行包围，因此前景属于最小外接矩形内.在跟踪框M内，将前景F所占的比例记为M_F ：

M_{F} = \frac{F_a r e a}{M_a r e a}

（6）

F_area和M_area分别为前景F的面积和跟踪框M的面积.M_area可通过勾股定理得到，前景是一个二值矩阵，记为 A_FPI∈｛0，1｝，矩阵面积为

F_a r e a = A_{F P I} [\sum_{x = 1}^{X} \sum_{y = 1}^{Y} H (x, y)]

（7）

X，Y为矩阵的行和列，H（x，y）为矩阵中坐标（x，y）处的值.本文发现当M_F >ρ时，跟踪框M内前景所占的比例较高，因此直接输出跟踪框M不需要进行优化.否则，对跟踪框的尺度和角度分别进行优化.

3.3 尺度优化策略

尺度优化策略是一种基于前景的紧凑跟踪框优化方法，即通过优化跟踪框的尺度使它更加紧凑的包围目标，避免引入过多背景.经过观察，边框回归得到的回归框在目标发生运动时，尺度更加稳定.因此在本节中，本文结合了回归框来进行尺度优化.首先，需要对回归框进行旋转预处理，成为与跟踪框M一致的角度：

\begin{array}{l} x_{i} = (x_{j} - x_{0}) \times c o s (θ) - (y_{j} - y_{0}) \times s i n (θ) + x_{0} \\ y_{i} = (x_{j} - x_{0}) \times s i n (θ) + (y_{j} - y_{0}) \times c o s (θ) + y_{0} \end{array}

（8）

该操作将回归框R围绕中心点（x₀，y₀ ）旋转了θ度，旋转后记为R′.（x_j，y_j ）为R的顶点坐标，对应的（x_i，y_i ）为R′的顶点坐标，记为：

R^{'} = [(x_{a}, y_{a}), (x_{b}, y_{b}), (x_{c}, y_{c}), (x_{d}, y_{d})]

（9）

此时，两者旋转角度一致，通过条件概率计算两者的相似性与差异性，根据结果分为两种优化情形.在这里，将目标搜索区域｛（x₁，y₁ ），（x₂，y₂ ），…，（x_n，y_n ）｝记为样本空间S.当某个样本点出现在矩形M内即为跟踪框A发生，出现在矩形R′内即为跟踪框B发生.

首先，通过条件概率公式计算在跟踪框A发生的条件下，跟踪框B也发生的概率，记为P1：

P 1 = P (B | A) = \frac{P (A ⋂ B)}{P (A)}

（10）

其次，计算在跟踪框B发生的条件下，跟踪框A不发生的概率，记为P0：

P 0 = P (\bar{A} | B) = \frac{P (\bar{A} ⋂ B)}{P (B)}

（11）

其中，P（A）、P（B）、P（A

⋂ B

）、P（

\bar{A}

⋂ B

）分别为跟踪框A发生的概率、跟踪框B发生的概率、跟踪框A和B同时发生的概率、跟踪框B发生但A不发生的概率，任意概率计算公式为：

P (X) = \frac{X 的 样 本 数 目}{S 的 样 本 数 目}

（12）

条件概率P1反映了M和R′两框在位置和尺度的相似性，P0反映了两者的差异性.当P1越大同时P0越小时，表明两者相似性越大，说明跟踪框M的准确性较高；相反，当P1越小或者P0越大时，此时跟踪框M的可靠性较低.定义阈值α，β分别评估条件概率P0和P1，将尺度优化分为两种情形.

情形1：当同时满足P1>β和P0<α时，此时M的可靠性较高，尺度优化为：

T = M ⋂ R^{'}

（13）

此时M的准确性较高，框内的背景像素较少，目标通常为刚性物体或者运动幅度不大的非刚性物体，取两者交集部分作为尺度优化后的跟踪框T，跟踪框T相较M向目标的中心位置处进行了缩小，过滤掉了目标四周的干扰背景，因此跟踪框内前景比例得到了提高.

情形2：当P1≤β或者P0≥α时，该情形的两框差异较大，若采用式（13）进行优化，可能会发生局部标记或者偏移标记的情况，从而丢失目标信息.因此针对情形2，本文提出了两种优化策略：均值策略（Mean Strategy，MS）和自适应策略（Adaptive Strategy，AS），在消融实验中本文会对两种策略的性能进行比较分析.

（1）均值策略（Mean Strategy，MS）

均值策略即不考虑目标的运动方向，对两框在高度和宽度方向均采用平均策略，即：

\{\begin{matrix} T_w = 0.5 \times (R^{'}_w + M_w) \\ T_h = 0.5 \times (R^{'}_h + M_h) \end{matrix}

（14）

其中，R′_w和R′_h分别为R′的宽高，M_w和M_h分别为M的宽高（在任意矩形中，宽≤高）.为了避免计算的复杂以及主观的倾向性，均值策略直接对M和R′两个框的宽度和高度分别取均值，作为优化后跟踪框T的宽和高，记为T_w和T_h，中心坐标和旋转角度不变.

（2）自适应策略（Adaptive Strategy，AS）

经过分析，情形2中跟踪框M包含的干扰背景较多，这些背景一般是由目标的剧烈运动引入，这种目标以人物等非刚体为主，因为四肢的变化很容易引入背景.当人物在水平方向运动时，由于四肢的摆动在目标宽度方向引入背景的可能性极大；而在垂直方向运动时，在目标的高度方向引入背景的可能性较小.

由于目标运动方向的不同，引入背景的可能性也不一样.然而均值策略并没有考虑到该问题，因此本文通过判断目标的运动方向提出了自适应策略，根据目标中心位置变化判断垂直方向和水平方向是否有快速移动状态，然后分别设置不同的优化方式.

首先，根据SiamMask算法计算目标中心位置，将前一帧的目标中心记为（x₁，y₁），当前帧中心记为（x₂，y₂）.因此，通过目标中心的移动路径与x轴形成的角度来判断目标运动方向，角度计算如下：

\{\begin{matrix} δ = a r c t a n (\frac{| y_{2} - y_{1} |}{| x_{2} - x_{1} |}) \times \frac{180}{π}, \begin{matrix}  \end{matrix} | y_{2} - y_{1} | > ε \\ δ = 0 º, \begin{matrix} \begin{matrix}  \end{matrix} \end{matrix} \begin{matrix} \begin{matrix}  \end{matrix} \end{matrix} \begin{matrix}  \end{matrix} \begin{matrix}  \end{matrix} | y_{2} - y_{1} | \leq ε \end{matrix}

（15）

|y₂-y₁|>

ε

代表了目标在y轴上的移动距离大于阈值

ε

，因此当角度δ≥γº时，判断为目标在垂直方向快速运动.而如果在y轴上移动距离小于阈值，则无需计算角度，将δ记为0º.由于水平方向引入背景的可能性更大，所以垂直方向快速运动还需要限制M和R′两框的宽度差w小于阈值ε，即|M_w-R′_w|=w<ε.反之，判断为目标在水平方向的快速运动.因此，自适应策略的优化公式为：

\{\begin{matrix} T_w = \{\begin{matrix} 0.5 \times (R^{'}_w + M_w), \begin{matrix} \begin{matrix} δ \geq γ ° a n d w \end{matrix} < ε \end{matrix} \\ m i n (R^{'}_w, M_w), \begin{matrix} \begin{matrix} e l s e \end{matrix} \end{matrix} \end{matrix} \\ T_h = 0.5 \times (R^{'}_h + M_h) \begin{matrix}  \end{matrix} \begin{matrix}  \end{matrix} \end{matrix}

（16）

在该策略中，当目标移动与x轴形成的角度δ≥γº且w小于阈值ε，即满足目标在高度上快速运动，并且水平方向变化不大，此时跟踪框在高度和宽度引入背景的可能性相同，从而对跟踪框M和回归框R′两者的宽度和高度分别取均值作为新跟踪框的宽和高，宽记为T_w，高记为T_h，中心坐标和旋转角度不变.

若角度δ<γº或者宽度差w≥

ε

，即说明了目标在水平方向发生显著运动.此时，跟踪框在水平方向的边往往会被运动的四肢拉伸，导致了跟踪框M的宽度与目标宽度差距较大，而高度与目标不会产生太大的偏差.因此，在不丢失目标信息并且保证更高前景比例的基础上，对稳定性较差的宽度设置两者最小值，记为T_w，而高度设置两者均值，记为T_h，中心坐标和旋转角度不变.

总之，均值策略MS相对保守，直接对两框宽高取均值避免了计算的复杂性，而自适应策略AS则根据目标快速移动方向选择不同的优化方式，得到的跟踪框更准确.

最终，跟踪器在情形1和2中选择最符合当前帧情形的策略进行优化，然后输出优化后的跟踪框T，坐标记为：

T = [(x_{1}, y_{1}), (x_{2}, y_{2}), (x_{3}, y_{3}), (x_{4}, y_{4})]

（17）

本节的尺度优化是一种基于前景的紧凑跟踪框优化方法，即通过优化跟踪框的尺度提升其前景比例.该策略在目标剧烈运动时依然能够保证跟踪框的准确性与稳定性，消融实验表明，该策略提升了跟踪的精度以及整体性能.在3.4节将尺度优化后的跟踪框T进行角度优化.

3.4 角度优化策略

本节在尺度优化基础上，对角度存在缺陷进行改进，进一步提升了跟踪框内前景所占的比例.具体为：（1）对尺度优化后的跟踪框T角度设定多个偏移，包含顺时针和逆时针.（2）将各角度的旋转框处理成二值矩阵，与前景矩阵进行点乘.（3）根据结果计算两的交集与并集比，即IoU.最终，选择IoU值最高的旋转框输出.

跟踪框T的原始角度为θ，对其顺时针和逆时针分别设置n个偏移阈值，间隔为μ.即生成了不同角度的旋转框集合｛T₁（θ-nμ），…，T_n （θ-μ），T_n₊₁（θ），T_n₊₂（θ+μ），…，T₂_n₊₁（θ+nμ）｝，由T_i （i=1，2，…，n，…，2n+1）表示任意一个角度的旋转框.

前景F为二值矩阵 A_FPI，因此需要将旋转框T_i 部分处理为二值矩阵才能得到两者的交集，记为

A_{T_{i} P I}

∈｛0，1｝.交集矩阵为

A_{I P I} = A_{F P I} \otimes A_{T_{i} P I}

（18）

其中，

\otimes

为矩阵中对应元素点乘， A_IPI即为两者的交集矩阵.矩阵面积计算方式如式（7）得到，记为I_area.因此，两者的IoU为

I o U (T_{i}) = \frac{I_a r e a}{T_{i}_a r e a + F_a r e a - I_a r e a}

（19）

T_i_area为T_i 面积与T相等，F_area为前景面积.IoU（T_i ）即为T_i 与前景的IoU，跟踪器输出令IoU最大的旋转框T_i .因此，角度偏移策略表示为：

{\hat{T}}_{i} = \underset{i}{a r g m a x} (I o U (T_{1}), I o U (T_{2}) \dots I o U (T_{n}) \dots I o U (T_{2 n + 1}))

（20）

角度优化策略通过调整跟踪框的角度来避免角度不准确带来的损失.IoU常被用在目标检测中衡量预测框与真实框的差异，本节采用IoU策略准确的评估了前景与不同角度旋转框之间的差异，因此当IoU最大时，该角度相对其他角度更准确.消融实验表明，本文的角度优化策略增强了跟踪的鲁棒性以及整体性能.

4 实验与分析

本文的实验是在单目标跟踪的测试平台VOT（Visual Object Tracking）数据集上进行的，分别是VOT2016、VOT2018和VOT2019，均是旋转框标记.评价指标包含精度A，鲁棒性R，EAO（Expected Average Overlap）.精度采用预测框与真实框的IoU值进行评估，值越大精度越高；鲁棒性根据跟踪失败次数来计算（当前帧精度为零时判定为跟踪失败），失败的次数越多鲁棒性越差；EAO是评估跟踪性能的综合性指标，被认为是VOT数据集中最重要的评价参数.

4.1 实验配置

实验环境：64位的Windows 10操作系统，CPU：Intel（R） Xeon（R） Gold 5218，GPU：GeForce RTX 2080 Ti.Python 3.7实验，Matlab R2018b绘图.实验参数：3.1节中，设置损失函数的权重参数λ₁=32，λ₂=λ₃=1.3.3节中，2016数据集设定阈值β=0.85；2018和2019数据集设定阈值β=0.8；在三个数据集中设定共同参数：ρ=0.9，α=0.2，

ε

=8，γ=50.3.4节中，n=1，μ=20°.

4.2 消融实验

为了测试每个模块的有效性，本文对3.3节的尺度优化和3.4节的角度优化两模块进行了消融实验，结果如表1所示.这里，SO（Scale Optimization）为本文尺度优化模块，SO（MS）为均值策略优化尺度，SO（AS）为自适应策略优化尺度.AO（Angle Optimization）为本文角度优化模块.

表1 三个数据集下消融实验结果(粗体为最佳性能)

	VOT2016			VOT2018			VOT2019			平均速度(fps)
	A↑	R↓	EAO↑	A↑	R↓	EAO↑	A↑	R↓	EAO↑	平均速度(fps)
SiamMask	0.620	0.214	0.436	0.597	0.248	0.406	0.596	0.467	0.283	88
SiamMask_E	0.645	0.210	0.452	0.627	0.248	0.427	0.625	0.482	0.298	—
SiamMask+SO(MS)	0.644	0.228	0.437	0.623	0.267	0.410	0.622	0.487	0.294	88
SiamMask+SO(AS)	0.654	0.233	0.439	0.634	0.276	0.417	0.633	0.502	0.298	88
SiamMask+SO(MS)+AO	0.642	0.219	0.443	0.622	0.258	0.415	0.619	0.482	0.294	75
SiamMask+SO(AS)+AO	0.652	0.224	0.454	0.634	0.267	0.425	0.632	0.497	0.299	75

首先，表1分析了SiamMask+SO（MS）和SiamMask+SO（AS）两种策略的性能，实验表明两种策略在精度和EAO上均优于基准算法SiamMask，特别是SiamMask+SO（AS）优于SiamMask+SO（MS）的结果.同时，表1分析了SiamMask+SO（MS）+AO和SiamMask+SO（AS）+AO 的结果，显然SiamMask +SO（AS）+AO算法在精度和EAO上具有更高的性能.因此，自适应策略（AS）比均值策略（MS）的准确度更高，整体性能更佳.在三个数据集上，SiamMask+SO（AS）+AO算法相比SiamMask算法精度上分别提升约3.2%、3.7%、3.6%，EAO分别提升了1.8%，1.9%和1.6%.另外，本文提出的SiamMask+SO（AS）+AO在三个数据集的精度方面均优于SiamMask_E算法，同时EAO指标在VOT2016和VOT2019上均优于SiamMask_E算法.

其次，本文对比了使用自适应策略的SiamMask+SO（AS）以及SiamMask+SO（AS）+AO的结果，在SiamMask+SO（AS）基础上进行角度优化AO后，在VOT2016、VOT2018和VOT2019数据集上，EAO分别提升1.5%、0.8%、0.1%，同时鲁棒性在三个数据集上得到普遍得到增强，因此角度优化AO具有一定的有效性.

另外，表1分析发现本文的优化策略会降低鲁棒性的性能，主要原因是优化后的跟踪框更加紧凑的包围目标，某些情况下跟踪框变小会导致目标丢失，使得重启次数增加，从而整体鲁棒性相比基准算法变差.在运行速度方面，表1统计了三个数据集上的平均速度，SiamMask算法速度为88fps，SiamMask+SO（MS）和SiamMask+SO（AS）也均为88fps，即尺度优化策略对速度没有影响；但增加角度优化后的SiamMask+SO（MS）+AO和SiamMask+SO（AS）+AO的速度为75fps，由于角度优化需要计算多个角度与前景的IoU值，速度有所降低，但仍然能够保持跟踪的实时性.

4.3 与国际前沿算法的比较

在尺度优化中本文采用了自适应策略（AS），因此图2~图4中标注的Ours均为SiamMask+SO（AS）+AO的跟踪结果.本文在VOT2016，VOT2018，VOT2019三个数据集中共与12个国际前沿算法进行了整体性能的比较.分别是SiamMask^［21］，Siam-RPN^［28］，SiamRPN++^［29］，DaSiamRPN^［36］，SPM^［37］，Siam R-CNN^［38］，SiamDW^［39］，TADT^［40］，ASRCF^［41］，Meta-Tracker^［42］，UpdateNet^［43］，ROAM++^［44］.Siam-Mask的结果数据是在本文的机器测试得到的，其余各算法的结果文件均来自文献［24~26］或者原作者的项目网页中.

图2 VOT2016 EAO得分图

Full size|PPT slide

图3 VOT2018 EAO得分图

Full size|PPT slide

图4 部分视频跟踪效果

Full size|PPT slide

图2为六个跟踪器在VOT2016的EAO得分图，图3为VOT2018得分图.左侧为跟踪器EAO得分排序，如图所示，本文的EAO得分最高.在VOT2018数据集中，采用本文优化策略后的SiamMask算法超过了SiamRPN++和Siam R-CNN两个前沿的算法.

4.4 讨论

本文在相机移动、丢失、光照、运动、遮挡、尺度变化六个干扰属性下分别进行了测试.结果表示，本文算法在相机移动、运动和尺度变化三个属性下，相比SiamMask算法精度得到很大的提升，并且远高于其他国际前沿算法.在其他属性下，也依然可以保持较高的精度与稳定的性能.

图4为部分帧的跟踪效果，四个目标均为非刚性物体，都发生了不同程度的运动、旋转和尺度变化.如图所示，SiamMask网络的跟踪框偏大并且旋转角度与目标不一致，引入了过多的干扰背景.相比之下，本文跟踪框的尺度和角度都更加接近真实框，框内的前景比例更高.因此，本文的优化策略在目标运动，尺度变化，旋转等复杂场景时有较好的稳定性和准确性.

5 结论

针对基于分割的跟踪方法得到的跟踪框不准确的问题，本文提出了一种基于前景优化的视觉目标跟踪算法.设计了尺度和角度两个优化模块，来分别提升跟踪框内的前景比例，抑制背景干扰.本文在一定程度上融合和优化了目标分割与跟踪技术，在VOT2016，VOT2018和VOT2019三个数据集上，与SiamMask算法相比，精度平均提升约3.5%，EAO平均提升约1.76%，与其他国际前沿的算法相比具有较好的跟踪性能，特别是在相机移动、尺度变化和运动变化等复杂场景下都保持较高的精度.然而本文算法的鲁棒性会有所下降，针对基于分割的跟踪算法鲁棒性优化将是我们的进一步研究方向.

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

1	MATHURG, SOMWANSHID, BUNDELEM. Intelligent video surveillance based on object tracking[C]//Proceedings of the 2018 3rd International Conference and Workshops on Recent Advances and Innovations in Engineering. Jaipur, India: IEEE Press, 2018: 1-6. 本文引用 [1]

2	GAJJARV, KHANDHEDIYAY, GURNANIA. Human detection and tracking for video surveillance: A cognitive science approach[C]//Proceedings of the IEEE International Conference on Computer Vision Workshops. Venice, Italy: IEEE Press, 2017: 2805-2809. 本文引用 [1]

3	CHENB, SAHDEVR, TSOTSOSJ, et al. Person following robot using selected online ada-boosting with stereo camera[C]//Proceedings of the 2017 14th Conference on Computer and Robot Vision. Edmonton, Canada: IEEE Press, 2017: 48-55. 本文引用 [1]

4	张爱梅. 目标跟踪瞄准系统的虚拟现实研究[D].西安: 西安电子科技大学, 2004. ZHANGAi-mei. Virtual Reality Research of Target Tracking and Aiming System[D]. Xi'an: Xidian University, 2004. (in Chinese) 本文引用 [1]

5	AGARWALN, CHIANGC, SHARMAA. A study on computer vision techniques for self-driving cars[C]//Proceedings of the International Conference on Frontier Computing. Singapore: Springer, 2019: 629-634. 本文引用 [1]

6	孟琭, 杨旭. 目标跟踪算法综述[J]. 自动化学报, 2019, 45(7): 1244-1260. MENGLu, YANGXu. A survey of object tracking algorithms[J]. Acta Automatica Sinica, 2019, 45(7): 1244-1260. (in Chinese) 本文引用 [1]

7	WUY, LIM J, YANGM H. Online object tracking: A benchmark[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE Press, 2013: 2411- 2418.

8	李玺, 查宇飞, 张天柱, 等. 深度学习的目标跟踪算法综述[J]. 中国图象图形学报, 2019, 24(12): 2057-2080. LIXi, ZHAYu-fei, ZHANGTian-zhu, et al. Survey of visual object tracking algorithms based on deep learning[J]. Journal of Image and Graphics, 2019, 24(12): 2057-2080. (in Chinese) 本文引用 [1]

9	SUND Q, ROTHS, BLACKM J. Secrets of optical flow estimation and their principles[C]//Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, CA: IEEE, 2010: 2432-2439. 本文引用 [1]

10	XUL, JIAJ Y, MATSUSHITAY. Motion detail preserving optical flow estimation[C]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010: 1293-1300. 本文引用 [1]

11	NUMMIAROK, KOLLER-MEIERE, VAN GOOLL. An adaptive color-based particle filter[J]. Image and Vision Computing, 2003, 21(1): 99-110. 本文引用 [1]

12	DUK, JUY F, JINY L, et al. Object tracking based on improved MeanShift and SIFT[C]//Proceedings of the 2nd International Conference on Consumer Electronics, Communications and Networks. Yichang, China: IEEE, 2012: 2716-2719. 本文引用 [1]

13	EXNERD, BRUNSE, KURZD, et al. Fast and robust CAMShift tracking[C]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010: 9-16. 本文引用 [1]

14	BOLMED, BEVERIDGEJ, DRAPERB, LUI Y. Visual object tracking using adaptive correlation filters[C]//Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010: 2544-2550. 本文引用 [1]

15	DANELLJANM, et al. Discriminative scale space tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(8): 1561-1575. 本文引用 [1]

16	丁新尧, 张鑫. 基于显著性特征的选择性目标跟踪算法[J]. 电子学报, 2020, 48(1): 118-123. DINGXin-yao, ZHANGXin. Visual tracking with salient features and selective mechanism[J]. Acta Electronica Sinica, 2020, 48(1): 118-123. (in Chinese) 本文引用 [1]

17	王治丹, 蒋建国, 齐美彬, 等. 基于最大池图匹配的形变目标跟踪方法[J]. 电子学报, 2017, 45(3): 704-711. WANGZhi-dan, JIANGJian-guo, QIMei-bin, et al. Deformable object tracking based on max-pooling graph matching[J]. Acta Electronica Sinica, 2017, 45(3): 704-711. (in Chinese) 本文引用 [1]

18	WANGN Y, YEUNGD Y. Learning a deep compact image representation for visual tracking[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: Curran Associates Inc, 2013: 809-817. 本文引用 [1]

19	ROUTL, MISHRAD, et al. Rotation adaptive visual object tracking with motion consistency[C]//Proceedings of the 2018 IEEE Winter Conference on Applications of Computer Vision(WACV). Lake Tahoe, USA: IEEE, 2018: 1047-1055. 本文引用 [1]

20	HUAY, ALAHARIK, SCHMIDC. Online object tracking with proposal selection[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 3092-3100. 本文引用 [1]

21	WANGQ, ZHANGL, BERTINETTOL, et al. Fast online object tracking and segmentation: A unifying approach[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE Press, 2019: 1328-1338. 本文引用 [4]

22	PINHEIROP O, COLLOBERTR, DOLLARP. Learning to segment object candidates[C]//Proceedings of the Neural Information Processing Systems. Montreal, Canada:ACM, 2015: 1990-1998. 本文引用 [1]

23	PINHEIROP O, LINT, COLLOBERTR, et al. Learning to refine object segments[C]//Proceedings of the European Conference on Computer Vision. Amsterdam: Springer, 2016: 75-91. 本文引用 [1]

24	KRISTANM, LEONARDISA, MATASJ, et al. The visual object tracking vot2016 challenge results[C]//Proceedings of the European Conference on Computer Vision. Amsterdam: Springer, 2016: 777-823. 本文引用 [2]

25	KRISTANM, LEONARDISA, MATASJ, et al. The sixth visual object tracking vot2018 challenge results[C]//Proceedings of the European Conference on Computer Vision. Munich, Germany: Springer,2018: 3-53. 本文引用 [1]

26	KRISTANM, LEONARDISA, MATASJ, et al. The seventh visual object tracking vot2019 challenge results[C]//Proceedings of the IEEE International Conference on Computer Vision Workshop. Seoul, Korea: IEEE, 2019: 2206-2241. 本文引用 [2]

27	BERTINETTOL, VALMADREJ, HENRIQUESJ F, et al. Fully-convolutional Siamese networks for object tracking[C]//Proceedings of the European Conference on Computer Vision. Amsterdam: Springer,2016: 850-865. 本文引用 [2]

28	LIB, YANJ, WUW, et al. High performance visual tracking with Siamese region proposal network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake, USA: IEEE Press, 2018: 8971-8980. 本文引用 [4]

29	LIB, WUW, WANGQ, et al. SiamRPN++: Evolution of Siamese visual tracking with very deep networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE Press, 2018: 4277-4286.

30	GUOD, WANGJ, CUIY, et al. SiamCAR: Siamese fully convolutional classification and regression for visual tracking[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020: 6268-6276.

31	CHENZ, ZHONGB, LIG, et al. Siamese box adaptive network for visual tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020: 6667-6676.

32	HEA, LUOC, TIANX, et al. A twofold Siamese network for real-time object tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018:4834-4843.

33	DUY, LIUP, ZHAOW, et al. Correlation-guided attention for corner detection based visual tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020: 6835-6844. 本文引用 [1]

34	RENS, HEK, GIRSHICKR, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137- 1149. 本文引用 [1]

35	CHENB, TSOTSOS JOHNK. Fast visual object tracking using ellipse fitting for rotated bounding boxes[C]//2019 IEEE/CVF International Conference on Computer Vision Workshop(ICCVW). Seoul: IEEE, 2019: 2281-2289. 本文引用 [1]

36	ZHUZ, WANGQ, LIB, et al. Distractor-aware Siamese networks for visual object tracking[C]//Proceedings of the IEEE European Conference on Computer Vision. Munich, Germany: Springer, 2018:103-119. 本文引用 [1]

37	WANGG, LUOC, XIONGZ, et al. SPM-tracker: Series-parallel matching for real-time visual object tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019: 3638-3647. 本文引用 [1]

38	VOIGTLAENDERP, LUITENETJ, et al. Siam R-CNN: Visual tracking by re-detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020: 6577-6587. 本文引用 [1]

39	ZHANGZ, PENGH. Deeper and wider Siamese networks for real-time visual tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019: 4586-4595. 本文引用 [1]

40	LIX, MAC, WUB, et al. Target-aware deep tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019:1369-1378. 本文引用 [1]

41	DAIK, WANGD, LUH, et al. Visual tracking via adaptive spatially- regularized correlation filters[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019:4665-4674. 本文引用 [1]

42	PARKE, BERGA C. Meta-tracker: Fast and robust online adaptation for visual object trackers[C]//Proceedings of the IEEE European Conference on Computer Vision. Munich, Germany: Springer, Cham, 2018:587-604. 本文引用 [1]

43	ZHANGL, GONZALEZ-GARCIAA, WEIJERJ, et al. Learning the model update for Siamese trackers[C]//Proceedings of the IEEE International Conference on Computer Vision. Seoul, Korea: IEEE, 2019:4010-4019. 本文引用 [1]

44	YANGT, XUP, HUR, et al. ROAM: Recurrently optimizing tracking model[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020: 6717-6726.

基金

国家自然科学基金(62072285)

山东省自然科学基金(ZR202102230438)

山东省重点研发计划（软科学）(2020RKB01017)

山东工商学院校级教学改革项目(11688202023)

PDF(1261 KB)

2232

Accesses

Citation

Detail

段落导航

本文亮点
HeighLight
关键词
Key words
引用本文
1 引言
2 相关工作
3 基于前景优化的视觉目标跟踪算法
图1 基于前景优化的视觉目标跟踪算法整体流程框架.图中的R为回归分支输出的回归框,R′为旋转后的回归框,F为目标分割掩码,M为掩码的最小外接矩形,T为尺度优化后输出的跟踪框,T̂i为角度优化后输出的最终跟踪框,AS(Adaptive Strategy)为自适应策略,MS(Mean Strategy)为均值策略,AOS(Angle Offset Strategy)为角度偏移策略.
3.1 损失函数
3.2 前景比例计算
3.3 尺度优化策略
（1）均值策略（Mean Strategy，MS）
（2）自适应策略（Adaptive Strategy，AS）
3.4 角度优化策略
4 实验与分析
4.1 实验配置
4.2 消融实验
表1 三个数据集下消融实验结果(粗体为最佳性能)
4.3 与国际前沿算法的比较
图2 VOT2016 EAO得分图
图3 VOT2018 EAO得分图
图4 部分视频跟踪效果
4.4 讨论
5 结论
参考文献
基金

收稿日期	修回日期	出版日期
2021-05-19	2021-10-07	2022-07-25
在线预览日期	发布日期
2022-05-11	2022-07-30

选择文件类型/文献管理软件名称

选择包含的内容

本文亮点

HeighLight

关键词

Key words

引用本文

1 引言

2 相关工作

3 基于前景优化的视觉目标跟踪算法

3.1 损失函数

3.2 前景比例计算

3.3 尺度优化策略

（1）均值策略（Mean Strategy，MS）

（2）自适应策略（Adaptive Strategy，AS）

3.4 角度优化策略

4 实验与分析

4.1 实验配置

4.2 消融实验

表1 三个数据集下消融实验结果(粗体为最佳性能)

4.3 与国际前沿算法的比较

图2 VOT2016 EAO得分图

图3 VOT2018 EAO得分图

图4 部分视频跟踪效果

4.4 讨论

5 结论

{{custom_sec.title}}

{{custom_sec.title}}

参考文献

{{custom_fnGroup.title_cn}}

脚注

基金

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

本文亮点

HeighLight

关键词

Key words

引用本文

1 引言

2 相关工作

3 基于前景优化的视觉目标跟踪算法

3.1 损失函数

3.2 前景比例计算

3.3 尺度优化策略

（1） 均值策略（Mean Strategy，MS）

（2） 自适应策略（Adaptive Strategy，AS）

3.4 角度优化策略

4 实验与分析

4.1 实验配置

4.2 消融实验

表1 三个数据集下消融实验结果(粗体为最佳性能)

4.3 与国际前沿算法的比较

图2 VOT2016 EAO得分图

图3 VOT2018 EAO得分图

图4 部分视频跟踪效果

4.4 讨论

5 结论

{{custom_sec.title}}

{{custom_sec.title}}

参考文献

{{custom_fnGroup.title_cn}}

脚注

基金

（1）均值策略（Mean Strategy，MS）

（2）自适应策略（Adaptive Strategy，AS）