End-to-end Active Object Trackin

作者: Junr_0926 | 来源:发表于2018-08-18 17:15 被阅读0次

End-to-end Active Object Trackin
SA-Siam:A Twofold Siamese Networ
SA-Siam文章阅读笔记
ACTIVE OBJECT 模式
Active Object模式
Active Object 模式
调试时出现的问题
一些论文的记录
利用Transformer来进行目标检测和语义分割
js-预编译

End-to-end active object tracking and its real-world deployment via Reinforcement Learning

对于以往的追踪来说，都会假设在镜头内总有感兴趣的物体，作者称之为 passive tracker（消极追踪），这样的追踪不会去控制摄像头的运动。在这篇论文中，作者提出了一种端到端（end-to-end）的追踪方案，通过增强学习来进行active tracker（积极追踪）。具体来说，作者使用了ConvNet-LSTM，将原始的视频作为输入，输出摄像头的运动（e.g., move forward, turn left 等）
作者使用模拟器来模拟摄像头的运动和运动后得到的图像，算法采用了A3C。同时，作者采用了一种环境增强的方法(environment augmentation)来增加追踪器的泛化性能。为了实现环境增强（随机地改变环境），作者花费了很多时间在准备不同的环境，不同物体的apperances，不同的背景，物体不同的运动轨迹。

our approach

在环境的模拟上，作者使用ViZDoom，在虚拟环境中建立一个怪物作为被跟踪对象，这个怪物会根据设定好的路径进行运动，由于ViZDoom无法提供真实的环境景象，作者还使用了Unreal Engine来组建接近真实的虚拟环境。

增强学习算法

$t$ 时刻的观察到的图像为 $o_t$ ，它就是摄像机在该时刻拍摄的原始图像，状态 $s_t$ 是一直到该时刻累计的观察经验， $s_t = (o_1, o_2, ..., o_t)$ 。在时刻 $t$ ，agent收到来自摄像机的原始图像 $o_t$ ，同时也收到来自环境的reward $r_t \in R$ ， $r_t$ 根据reward function计算得到 $r_t=g(s_t)$ 。接下来，agent根据当前的策略 $a_t \sim t(\cdot|s_t)$ 来选择动作 $a_t \in A$ 。根据当前的状态 $s_t$ 和动作 $a_t$ ，就会根据环境得到下一个状态 $s_{t+1}=f(s_t, a_t)$ ，也就能够得到一个三元组的序列，称之为trajectory, $\tau = \{..., (s_t, a_t, r_t), (s_{t+1}, a_{t+1}, r_{t+1}), ...\}$ 。
用 $R_{t:\infty}=r_t+\gamma r_{t+1} + ...$ 表示discounted accumulated reward，价值函数就可以表示为它的加权平均，也就是说状态 $s_t$ 在策略 $\pi$ 的价值为 $V^{\pi}(s) = E[R_{t:\infty}|s_t=s]$ ，action-value 函数表示为 $Q^\pi(s, a)=E[R_{t:\infty}|s_t=s, a_t=a, \pi]$ ， advantage function就可以表示为两者的差 $A^\pi(s,a)=Q^\pi(s, a)-V^\pi(s)$ ，它表示了每一个action的相对价值。

Actor-Critic算法
$\pi(a|s_t;\theta)$
$\theta \leftarrow \theta + \alpha\nabla_\theta \log \pi(a_t|s_t;\theta)A(s_t, a_t) + \beta \nabla_\theta H(\pi(a|s_t; \theta))$

$V(s_t;\theta^{'})$
$\theta^{'} \leftarrow \theta{'} - \alpha \nabla_{\theta^{'}} 1/2 (R_{t:t+n-1}+\gamma^{n}V(s_{t+n};\theta^{'-})-V(s_t:\theta{'}))^2$

其中 $H$ 是entropy regularizer， $\beta$ 是regularizer factor， $\theta^{'-}$ 是前一次更新后的参数，因为更新是在每 $n$ 步之后进行的，也就是利用这 $n$ 步的trajectory来进行参数的更新。

Network Architecture

整个网络包含三个主要部分：一个obervation encoder, 一个sequence decoder，一个actor-critic 网络，如下图

网络结构

Observation Encoder

类似于大多数encoder，作者这里使用一个encoder $f_o(s_t)$ 来讲原始输入的像素图像转换为一个特征向量 $\phi_t$

Sequence Encoder

Sequence encoder $\varphi_t = f_s(\phi_1, \phi_2, ...\phi_t)$ 将所有观察历史的信息组合起来，用于actor-critic网络。因此， $\varphi_t$ 具备了存储预测物体运动的能力，因为它将物体在之前时刻的信息都利用了起来，相对地 $\phi_t$ 就仅仅只是包含了物体的what, where信息。自然地，作者也就使用了RNN来作为Encoder。

Actor-Critic 网络

Actor网络和Critic网络使用了相同的输入： $\varphi_t$ ，其中critic估计value function： $V(s_t)$ ，actor输出策略：policy distribution $\pi(\cdot;s_t)$ ，使用这两个网络的输出 $V(s_t)， \pi(\cdot;s_t)$ 就可以根据之前的更新公式来进行网络的训练。

Reward Function

reward function 的设计应该能够鼓励agent紧紧地盯住物体，因此作者设计了一个二维的local坐标系，如下图：

坐标系

公式如下:

公式

End-to-end Active Object Trackin
End-to-end active object tracking and its real-world depl...
SA-Siam:A Twofold Siamese Networ
标题：A Twofold Siamese Network for Real-Time Object Trackin...
SA-Siam文章阅读笔记
论文：A Twofold Siamese Network for Real-Time Object Trackin...
ACTIVE OBJECT 模式
ACTIVE OBJECT 模式一.概述主动对象模式基于命令模式，是实现多线程控制的一项古老的技术。该模式有多...
Active Object模式
别名 Actor Concurrent Object 适用的情况 actor是一个很抽象多线程模式, 每一个act...
Active Object 模式
Active Object 模式 0. 描述了什么事？该章节为前几章节的综合运用。 1. 程序示例 1. Mai...
调试时出现的问题
_ OBJECT_$$ *****Build Active Architecture Only 改成yes或者no
一些论文的记录
Entropy-Based Active Learning for Object Recognition(2008...
利用Transformer来进行目标检测和语义分割
介绍这次介绍的是Facebook AI的一篇文章“End-to-End Object Detection wit...
js-预编译
函数声明整体提升变量声明提升 function 创建AO对象（Active Object）寻找形参与变量声明，...