admin管理员组文章数量:1589758
GraphTCN: Spatio-Temporal Interaction Modeling for Human Trajectory Prediction
- 摘要
- 1 引言
- 2 相关工作
- 3 GraphTCN
- 4 实验
- 5. Conclusion
GraphTCN:用于人类轨迹预测的时空交互建模
作者:Chengxin Wang, Shaofeng Cai, and Gary Tan
论文地址:https://openaccess.thecvf/content/WACV2021/html/Wang_GraphTCN_Spatio-Temporal_Interaction_Modeling_for_Human_Trajectory_Prediction_WACV_2021_paper.html
发表时间:WACV2021
备注:恭喜作者的这篇文章收录于WACV,我都看好久了
论文解析
代码开源
代码解析
摘要
准确、及时地预测行人邻居的未来路径是自动避碰应用的核心。
传统的方法,例如基于lstm的模型,在预测中需要相当大的计算成本,特别是对于长序列预测。
为了支持更有效和更准确的轨迹预测,我们提出了一种新的基于cnn的时空图框架GraphTCN,该框架将空间相互作用建模为社会图,并通过改进的时间卷积网络捕捉时空相互作用。
与传统模型相比,我们的模型的空间和时间建模都是在每个当地时间窗口内计算的。因此,它可以以更高的效率并行执行,同时具有与最佳性能方法相媲美的准确性。
实验结果表明,在各种轨迹预测基准数据集上,我们的模型在效率和精度方面都优于最先进的模型。
1 引言
轨迹预测是一项基本且具有挑战性的任务,它需要预测自动应用程序中的代理程序的未来路径,例如自动驾驶汽车,符合社会要求的机器人,模拟器中的代理程序,以便在共享环境中导航。
在这些应用程序中使用多代理交互时,要求代理及时准确地对环境做出响应,以避免冲突。因此,因此非常需要代理以有效和准确的方式预测其邻居的未来路径的能力。尽管最近的工作[25、33、17、28]在对代理商之间复杂的社会互动进行建模以生成准确的未来路径方面取得了很大的进步,但是轨迹预测仍然是一项艰巨的任务,在现实应用中部署预测模型主要受制于其高计算成本和长推理时间。例如,某些小型机器人仅配备了有限的计算设备,而这些设备无法用现有解决方案承担高昂的推理成本。
特别地,通常在两个维度中对轨迹预测建模,即,时间维度和空间维度,其在图1中示出。
时间维度对每个代理的历史运动动力学进行建模。由于RNN专为序列建模而设计,因此大多数最新技术[1、12、25、17、19、34]都集中在递归神经网络(RNN)上,以捕获此类序列动态。
然而,除了在长序列数据建模中梯度消失和爆炸的训练困难[30]之外,与前馈模型(例如卷积神经网络)相比,RNN模型的训练和推理都非常缓慢。这主要是由于RNN的每个隐藏状态都取决于先前的输入和隐藏状态。结果,RNN的预测是顺序产生的,因此是不可并行的。
空间
空间维度模拟了人与人之间的互动,即主体与其邻居之间的互动。提出了三种主要的捕获空间相互作用的方法,包括基于距离的方法[1、12、25],基于注意力的方法[33、7、42、19]和基于图的方法[17、21、51、28]。
基于距离的方法引入了一个社会汇总层来总结人群交互,
而基于注意力的方法则使用软注意力动态地产生了邻居的重要性。
基于图的方法使用图对代理的表示进行建模,并利用图神经网络(例如GCN [20 Semi-supervised 、51 Sr-lstm、28 Social-stgcnn]或GAT [41Graph Attention])来捕获代理的空间交互特征,从经验上讲更直观并且有效地模拟了复杂的社交互动。
但是,现有的基于图的方法主要基于相邻要素的简单聚集或其绝对几何距离,而在空间建模中忽略了主体之间的相对关系。(文章重点再空间域的处理)
为了提高有效性和效率,我们提出了一种新颖的基于图的时间卷积网络(GraphTCN),以捕获时空相互作用以进行轨迹预测。
两个维度的创新
在时间维度上,与基于RNN的方法不同,我们采用了改进的门控卷积网络(TCN)来捕获每个代理的时间动态。 CNN中引入的 gated highway mechanism通过关注更多显着特征来动态地调节信息流,而CNN的前馈特性使其在训练中更易于处理,并且可以并行化,从而在训练和推理上都具有更高的效率。
在空间维度上,我们提出了一个基于边缘特征的图注意力网络(EFGAT),该网络具有跳过连接和每个时间步的门机制,以对代理之间的空间交互进行建模。具体而言,图中的节点表示代理,代理之间的边表示它们的相对空间关系。 EFGAT自适应地学习图的邻接矩阵,即空间交互。在一起,GraphTCN的空间和时间模块支持对代理之间的每个时间步长内以及每个代理的整个时间步内交互进行更有效的建模。
我们将主要贡献总结如下:
•我们提出了一种基于边缘特征的图注意力网络(EFGAT),该网络引入了相对空间关系作为先验知识,以吸引注意力来自适应地捕获空间交互作用。
•我们建议使用**门控卷积网络(TCN)**对时间交互进行建模,这在经验上被证明更加有效。
•与性能最佳的方法相比,我们的时空框架可实现更好的性能。
具体来说,我们将平均位移误差降低了19.4%,将最终位移误差降低了13.6%,且预测路径减少了5倍,并且与现有解决方案相比,壁钟时间加速达到了5.22倍。
我们将本文组织如下:
在第二部分中,我们介绍了背景并详细讨论了相关工作。
第3节介绍了我们的GraphTCN框架。
然后在第4节中,将以准确性和效率衡量的GraphTCN结果与最新方法进行了比较。
最后,第5节总结了论文。
2 相关工作
2.1 Human-Human Interactions(人-人互动)
人群交互模型的研究可以追溯到社会力量模型[14],该模型采用非线性耦合的Langevin方程来表示在拥挤的场景中人类运动的吸引力和排斥力。相似的手工方法[39,2,44]在人群模拟[16,32],人群行为检测[27]和轨迹预测[47]中被证明是成功的。
相反,最近的工作研究了深度学习技术,以捕获代理与邻居之间的交互。
基于距离的方法[1、12、26]要么采用基于网格的合并方法,要么采用对称函数来聚合来自邻居的隐藏状态,或者对代理之间的几何关系进行编码。
基于注意力的方法[33、42、7、51]提供了更好的人群模型,因为它们通过软注意力或门控机制来区分邻居的重要性。
采用基于图的网络,最近的工作[17、21、28]通过与邻接矩阵自适应地聚集邻域特征来学习社交互动,从而提供了一种在共享空间中表示行人拓扑的有效方法。
Social-STGCNN [28]通过在加权邻接矩阵上引入核函数来捕获空间关系。
STGAT [17,21]直接在LSTM隐藏状态上采用GAT来捕获行人之间的空间相互作用。
但是,Social-STGCNN仅关注代理之间的距离特征,而STGA T简单聚合邻居特征。
EGNN [9]将边缘特征整合到图注意力机制中,以利用更丰富的图信息。但是,EGNN忽略了行人之间的相对关系。
我们建议用一个新颖的基于边缘特征的图网络对行人交互进行建模,该网络将相对距离特征集成到图注意力中,以学习针对最显着交互信息的自适应邻接矩阵。
2.2Pattern-based Sequence Prediction(基于模式的序列预测)
序列预测是指使用历史信息预测未来序列的问题。
最近,基于模式的方法普遍用于许多序列预测任务,例如
速度识别[40,4,11],
活动识别[6,18]和
自然语言处理[3,37,8]。
特别地,可以将轨迹预测表述为序列预测任务,该序列预测任务使用代理的历史运动模式来预测未来路径。
大多数轨迹预测方法都采用递归神经网络(RNN),例如长短期记忆(LSTM)网络[15]来捕获时空运动。但是,基于RNN的模型在训练中会遇到梯度消失和爆炸的问题,并且在预测过程中会更多地关注最新输入,尤其是对于长输入序列而言。
许多序列预测工作[40Wavenet,45Graph wavenet]而是采用卷积神经网络(CNN)。卷积网络可以有效地捕获长期依赖关系,并大大提高预测效率。基于CNN的方法的优越性在很大程度上可归因于卷积运算,该运算独立于先前的时间步长,因此可以并行处理。最近的工作[29Convolutional neural network for trajectory prediction]提出了一种紧凑的CNN模型来捕获时间信息,并且结果证实了基于CNN的模型可以在轨迹预测中产生竞争性能。但是,它无法对行人之间的空间互动进行建模。在这项工作中,我们建议捕获与EFGAT的空间交互作用,并引入门控卷积网络以更好地捕获时间动态。
2.3 Graph Networks for Trajectory Prediction.(用于轨迹预测的图网络)
许多研究将**时空图神经网络(STGNN)**用于序列预测任务,例如动作识别[48,35],出租车需求预测[50]和交通预测[49]。
具体地,该序列可以被表述为节点和边缘的图的序列,其中节点对应于代理并且边缘表示它们的相互作用。然后可以使用时空图网络对序列进行有效建模。
同样,可以使用时空图网络[42Social attention、43、17Stgat、24The garden of forking paths、28Social-stgcnn]对轨迹预测任务进行建模。
特别地,预测任务需要在两个维度上建模,即,空间维度和时间维度。
空间维度对主体及其邻居之间的交互进行建模,而时间维度对每个主体的历史轨迹进行建模。具体而言,图中的每个节点代表一个场景的行人,并且两个节点之间的每个边都捕获了两个相应行人之间的交互。
例如,
social attention[42]使用代理的位置对每个节点进行建模,并用行人之间的距离对边缘进行建模,其中空间关系通过注意力模块进行建模,然后使用RNN进行时间建模。
Pedestrian trajectory prediction with graph neural networks.[43]基于位置构造带有边缘RNN和节点RNN的STGNN。
STGAT [17]采用GAT通过为邻居分配不同的重要性来捕获空间交互,并采用额外的LSTM来捕获时间信息。
这些方法的主要局限在于捕获沿时间维度的空间交互作用。值得注意的是,agent的未来之路不仅取决于当前的位置,而且还取决于邻居的位置。
但是,在使用基于RNN的模型沿时间维度对节点特征进行聚合期间,此类空间交互的信息可能会丢失。与基于RNN的方法不同,Social-STGCNN [28]和Graph WaveNet [45]采用CNN缓解参数效率低下的问题,并证明了CNN在长序列的时间建模中的功能。
在本文中,我们提出了一个增强的时间卷积网络,以集成代理的时间动态和空间相互作用。
3 GraphTCN
轨迹预测的目标是共同预测场景中存在的所有代理的未来路径。
代理的未来路径取决于其历史轨迹,即时间相互作用,
还受邻近代理的轨迹,即空间相互作用的影响。
因此,在为预测建模时空相互作用时,应该将轨迹预测模型考虑到这两个特征。
3.1. Problem Formulation
我们假设在场景中观察到的N个行人的Tobs(观察时间)的轨迹长。
单个行人的位置i∈{1,…, N}在时间步长t∈{1,…, Tobs}: X i t X_{i}^{t} Xit
行人Xi的观察位置:
X
i
1
:
T
o
b
s
=
X
i
1
,
X
i
2
,
…
,
X
i
T
o
b
s
X_{i}^{1: T_{o b s}}=X_{i}^{1}, X_{i}^{2}, \ldots, X_{i}^{T_{o b s}}
Xi1:Tobs=Xi1,Xi2,…,XiTobs
轨迹预测的目标是预测所有的未来位置:
Y
^
i
t
(
t
∈
{
T
o
b
s
+
1
,
…
,
T
pred
}
)
\hat{Y}_{i}^{t}\left(t \in\left\{T_{o b s+1}, \ldots, T_{\text {pred }}\right\}\right)
Y^it(t∈{Tobs+1,…,Tpred })
3.2. Overall Framework
图2:
(a)GraphTCN的概述:EFGAT基于历史轨迹嵌入,捕获每个时间步之间代理之间的空间交互。
TCN进一步捕获跨时间步长的时间交互。
解码器模块同时为所有代理生成多个社交可接受的轨迹。
(b)EFGAT通过图注意力层(GAL)和跳过连接来捕获空间显着信息。
如图2(a)所示:
GraphTCN包括三个关键模块:
1.边缘特征图关注度(EFGAT)模块
2.时间卷积(TCN)模块
3.解码器
首先,我们将每个行人的绝对位置和相对位置嵌入固定长度的隐藏空间中,并将这些轨迹特征输入到EFGAT模块中。
剩余的学习机制和跳过连接[13]被合并到网络中,以促进梯度反向传播并鼓励中间特征的重用。 TCN模块是具有门控激活单元[40]的前馈一维卷积网络,用于捕获最显着的特征。
最终,解码器模块产生所有行人的未来轨迹。在以下各节中,我们将详细介绍GraphTCN的每个模块。
3.2. EFGAT Module for Spatial Interaction(EFGAT空间互动模块)
图2(b)的EFGAT模块:用于对具有图注意力层和图残差连接的行人之间的空间交互进行编码。
同一时间步长内的行人公式化为有向图:
G
=
(
V
t
,
E
t
)
\mathcal{G}=\left(\mathcal{V}^{t}, \mathcal{E}^{t}\right)
G=(Vt,Et)
每个节点:对应第i个行人,
v
i
t
∈
V
t
,
i
∈
{
1
,
…
,
N
}
v_{i}^{t} \in \mathcal{V}^{t}, i \in\{1, \ldots, N\}
vit∈Vt,i∈{1,…,N}
加权边:表示行人i和j之间的人与人之间的相互作用,
(
v
i
t
,
v
j
t
)
∈
E
t
\left(v_{i}^{t}, v_{j}^{t}\right) \in \mathcal{E}^{t}
(vit,vjt)∈Et
g 的邻接矩阵:行人之间的空间关系,
A
t
∈
R
N
×
N
of
G
A^{t} \in \mathbb{R}^{N \times N} \text { of } \mathcal{G}
At∈RN×N of G
此任务中,将节点的空间关系表示为不对称,非负矩阵。
因为行人之间的影响应基于它们的相对运动行为而有所不同。代替构造具有无向空间距离的图,我们引入相对空间位置作为邻接矩阵的先验边缘特征知识
A
^
i
j
t
=
ϕ
s
(
x
i
t
−
x
j
t
,
y
i
t
−
y
j
t
;
W
s
)
\hat{A}_{i j}^{t}=\phi_{s}\left(x_{i}^{t}-x_{j}^{t}, y_{i}^{t}-y_{j}^{t} ; W_{s}\right)
A^ijt=ϕs(xit−xjt,yit−yjt;Ws)
ϕ
s
(
⋅
)
\phi_{s}(\cdot)
ϕs(⋅):通过线性变换将相对距离特征嵌入到较高维度F1中
W
s
\mathbf{W}_{s}
Ws:嵌入权重
将边缘权重和节点特征输入图3,计算空间相互作用:
即通过自我关注机制动态地赋予邻居j对行人i的重要权重:
α
i
j
t
=
exp
(
σ
(
W
1
h
^
i
t
+
W
2
h
^
j
t
+
A
^
i
j
t
)
)
∑
k
∈
N
i
exp
(
σ
(
W
1
h
^
i
t
+
W
2
h
^
k
t
+
A
^
i
j
t
)
)
\alpha_{i j}^{t}=\frac{\exp \left(\sigma\left(\mathbf{W}_{1} \hat{h}_{i}^{t}+\mathbf{W}_{2} \hat{h}_{j}^{t}+\hat{A}_{i j}^{t}\right)\right)}{\sum_{k \in \mathcal{N}_{i}} \exp \left(\sigma\left(\mathbf{W}_{1} \hat{h}_{i}^{t}+\mathbf{W}_{2} \hat{h}_{k}^{t}+\hat{A}_{i j}^{t}\right)\right)}
αijt=∑k∈Niexp(σ(W1h^it+W2h^kt+A^ijt))exp(σ(W1h^it+W2h^jt+A^ijt))
h
^
i
t
∈
R
F
1
\hat{h}_{i}^{t} \in \mathbb{R}^{F_{1}}
h^it∈RF1:行人i在时间步t的节点输入特征(即行人x,y坐标等)
F1:节点特征的维数,
Ni:图中节点i的邻居集,
σ(·):LeakyReLU激活,
W1,W2:可学习的权重
我们采用门控激活单元来动态调节信息流并选择显着特征:
g
i
t
=
g
(
W
h
h
^
i
t
+
b
h
)
⊙
(
W
h
h
^
i
t
+
b
h
)
g_{i}^{t}=g\left(\mathbf{W}_{h} \hat{h}_{i}^{t}+b_{h}\right) \odot\left(\mathbf{W}_{h} \hat{h}_{i}^{t}+b_{h}\right)
git=g(Whh^it+bh)⊙(Whh^it+bh)
g(·):tanh激活函数
Wh:仿射变换参数
bh:偏差
⚪:逐元素乘法,(可理解为乘法跳过连接,它有助于梯度流过图层[5])。
为了稳定自我注意过程[41,45],我们采用了多注意机制:
h
i
t
=
∥
k
=
1
K
σ
(
∑
j
∈
N
i
α
k
i
j
t
g
j
t
)
+
R
(
h
^
i
t
;
W
r
)
h_{i}^{t}=\|_{k=1}^{K} \sigma\left(\sum_{j \in \mathcal{N}_{i}} \alpha_{k i j}^{t} g_{j}^{t}\right)+\mathbf{R}\left(\hat{h}_{i}^{t} ; \mathbf{W}_{\mathbf{r}}\right)
hit=∥k=1Kσ⎝⎛j∈Ni∑αkijtgjt⎠⎞+R(h^it;Wr)
Wr:可学习的参数
||:串联
K:关注头的数量。
R(·):图的残差项[40、41、45]
我们将提议的多头图注意层命名为GAL,可以将其堆叠多次以更好地建模空间关系(例如,图2(b)中的两倍)。
随后,我们可以获得h = {h1,h2,… ,hN}的最终节点表示
h
i
∈
R
T
o
b
s
×
(
K
⋅
F
1
)
h_{i} \in \mathbb{R}^{T_{o b s} \times\left(K \cdot F_{1}\right)}
hi∈RTobs×(K⋅F1):捕获行人i与所有邻居在每个时间步长之间的聚合空间相互作用
EFGAT模块可以学习一个自适应邻接矩阵,该矩阵捕获不同行人的相对重要性。
3.3. TCN for Spatial and Temporal Interaction Modeling(TCN用于时空交互建模)
总结:
输入:EFGAT模块获得的空间嵌入和方程8获得的时间上下文嵌入
输出:空间和时间的相互作用
行人的运动方式在很大程度上受历史轨迹和邻近行人的运动方式影响。
因此,我们建议使用修改后的时间卷积网络(TCN)来捕获行人之间的时空交互,如图4所示。
图4(a):视为短期和长期编码器,其中较低的卷积层专注于本地短期交互,而在较高的层中,较大的捕获长期交互作用接受领域。
例如,如果TCNisk的内核大小,则第l层中的接收字段大小为
(
k
−
1
)
⋅
l
+
1
(k-1) \cdot l+1
(k−1)⋅l+1,这会线性增加层。
因此,TCN的顶层捕获了较长时间范围内的交互。
由于输入的顺序在序列预测任务中很重要,因此我们对卷积采用大小为k − 1的左填充,而不是对称填充,其中每个卷积输出在相应时间步长和前一个k的输入上进行卷积− 1个时间步长。然后每个卷积的输出大小与输入相同。
在图4(b)中的TCN 的每一层中,门控激活单元利用两个非线性功能来动态调节信息流,形成为:
h
(
l
+
1
)
=
g
(
W
g
(
l
)
∗
h
(
l
)
)
⊙
σ
(
W
f
(
l
)
∗
h
(
l
)
)
\mathbf{h}^{(l+1)}=g\left(\mathbf{W}_{g}^{(l)} * \mathbf{h}^{(l)}\right) \odot \sigma\left(\mathbf{W}_{f}^{(l)} * \mathbf{h}^{(l)}\right)
h(l+1)=g(Wg(l)∗h(l))⊙σ(Wf(l)∗h(l))
h(0):是EFGAT模块的输出h
h(l)∈RN×Tobs×F2,Wg和Wf:可学习的一维卷积参数
σ(·):S型函数。
TCN模块的最终输出可以表示为
h
→
∈
R
N
×
T
o
b
s
×
F
ˉ
2
\overrightarrow{\mathbf{h}} \in \mathbb{R}^{N \times T_{o b_{s}} \times \bar{F}_{2}}
h
这样,嵌入向量hi捕获了第i个行人及其邻居之间的所有时空交互。
我们注意到,TCN可以使用膨胀卷积处理更长的输入序列[40],这比基于RNN的方法更有效。
3.4. Future Trajectory Prediction(未来轨迹预测)
在现实世界的应用中,根据历史轨迹,未来的运动有多种可能的路径。我们也在我们的解码模块中为轨迹预测建模这种最终运动的不确定性。
按照STGAT [17],解码器模块通过引入共享的随机噪声
:
z
∈
R
o
b
s
⊤
×
F
3
: z \in \mathbb{R}^{\top}_{o b s} \times F_{3}
:z∈Robs⊤×F3
来产生多个社会可接受的轨迹,该噪声与时空嵌入
h
→
\overrightarrow{\mathrm{h}}
h
具体地,解码器的输入可以被表示为
h
~
∈
R
N
×
T
o
b
s
×
(
F
2
+
F
3
)
\tilde{\mathbf{h}} \in \mathbb{R}^{N} \times T_{o b s} \times\left(F_{2}+F_{3}\right)
h~∈RN×Tobs×(F2+F3)
我们采用规范的MLP层来生成相对未来位置
Δ
Y
^
∈
R
N
×
T
ˇ
pred
×
i
\Delta \hat{Y} \in \mathbb{R}^{N \times \check{T}_{\text {pred }} \times i}
ΔY^∈RN×Tˇpred ×i
并表示采用GraphTCN这样的MLP解码器的体系结构。
预测的相对位置 Δ Y ^ \Delta \hat{Y} ΔY^是所有行人与原点的相对位置。然后我们将相对位置转换为绝对位置 Y ^ \hat{Y} Y^,采用多样性损失作为训练的损失函数,计算 M M M 个可能轨迹中的最小损失:
Y
Y
Y 是地面真值,
Y
^
(
1
)
,
…
,
Y
^
(
M
)
\hat{Y}^{(1)}, \ldots, \hat{Y}^{(M)}
Y^(1),…,Y^(M)是预测的
M
M
M 合理轨迹。尽管这种损失函数可能会导致概率密度函数稀释,但我们发现它有助于更好地预测未来的多种发展轨迹。
我们进一步集成了在多模式预测中广泛采用的深度生成策略[36、19、26],以增强GraphTCN的解码器。
具体来说,在训练过程中,我们将
h
→
\overrightarrow{\mathrm{h}}
h
然后用 mlp 对这两个特征进行编码,得到噪声分布
z
^
=
N
(
μ
,
σ
)
,
z
^
∈
R
N
×
F
4
\hat{z}=\mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\sigma}), \hat{\boldsymbol{z}} \in \mathbb{R}^{N \times F_{4}}
z^=N(μ,σ),z^∈RN×F4,循循CVAE [36,26]。
注意,在推理过程中,
z
^
\hat{z}
z^是从
N
(
0
,
I
)
\mathcal{N}(\mathbf{0}, \mathbf{I})
N(0,I)分布中随机抽取的。对于最终的相对位置预测,我们再次将
z
^
\hat{z}
z^ with
h
→
\overrightarrow{\mathbf{h}}
h
L = λ 1 L variety + λ 2 D K L ( N ( μ , σ ) ∥ N ( 0 , I ) ) \mathcal{L}=\lambda_{1} \mathcal{L}_{\text {variety }}+\lambda_{2} D_{K L}(\mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\sigma}) \| \mathcal{N}(\mathbf{0}, \mathbf{I})) L=λ1Lvariety +λ2DKL(N(μ,σ)∥N(0,I))
在以下实验中,使用这种解码器的 graphtcn 被称为 GraphTCN-G
4 实验
在本节中,我们在两个世界坐标轨迹预测数据集,即ETH[31]和UCY[23]上评估我们的GraphTCN,并将GraphTCN的性能与最先进的方法进行比较。
4.1. Datasets and Evaluation Metrics ETH和UCY数据集中的带注释的轨迹作为全局坐标提供。在这些数据集中,行人表现出复杂的行为,包括非线性轨迹,从不同方向移动,一起行走,不可预测地行走,避免碰撞,站立等。这些数据集包括从固定的俯视图记录的五个独特的室外环境。 ETH和Hotel属于ETH数据集,而UCY数据集由UNIV,ZARA1和ZARA2组成。每个环境中单个场景的人群密度是不同的,每帧的行人密度在0到51之间。所有视频的每秒帧数(FPS)为25,行人轨迹以2.5 FPS提取。
根据报告惯例[1,14,24],采用的评估指标包括平均位移误差(ADE)和最终位移误差(FDE)。方程12中定义了ADE,它是预测轨迹和地面真实总预测时间步长之间的平均欧几里得距离,而FDE是预测位置和最终时间步长Tpred处地面真实位置之间的欧几里得距离。该模型采用“留一法”策略进行训练,并相应地报告结果。根据3.2秒(即8个时间步长)的观察结果,在接下来的4.8秒(即12个时间步长)中产生预测。
4.2. Implementation Details
我们用 Adam 优化器训练50个 epochs,学习率为0.0001。
节点特征嵌入大小设置为64。
EFGAT模块包含两个图形注意层,注意头K = 2,1,输出维度F1 = 16,32,分别用于第一GAL和第二GAL。
F2也设置为16,噪声z的维数为F3 = 4。
对于GraphTCN-G解码器,将训练过程中的ground truth轨迹编码为F4的64维。
M设为4和20,分别预测4和20条样本路径。
我们模型中所有的LeakyReLU的斜率都是负的0.2。
GraphTCN-G设置λ1为1,前15个周期λ2为0.5,其余周期为0.2。
4.3. Baselines
Linear是一种线性回归模型,可以根据上一个输入点预测下一个坐标。
LSTM采用vanilla LSTM编解码器模型来预测每个行人的顺序。
Social LSTM [1]建立在LSTM之上,并引入了一个社交池层来捕获行人之间的空间互动。
我们进一步将GraphTCN与三种最先进的方法进行比较:
Social GAN [14]在Social LSTM和社交生成GAN的基础上进行了改进,以生成多个合理的轨迹。
Social Attention[39]为STGNN采用RNN混合模型来捕获空间互动和时间动态。
STGAT [19]还采用GAT对空间信息进行建模,并采用LSTM捕获时间相互作用。
4.4. Quantitative Results
表 1 中的结果表明,与这些基准数据集上的现有模型相比,GraphTCN 始终获得更好的性能。我们的模型一次为未来的轨迹生成多个轨迹。
我们可以注意到,GraphTCN 比其他基线实现了更好的预测性能,只有 4 个预测,而不是大多数基线中的 20 个,例如 STGA T [17],平均 ADE 为 0.36,FDE 为 0.72。这些结果证实,我们的 GraphTCN 即使在预测准确性方面与以前的方法相比生成的路径更少,也能产生有竞争力的结果,尤其是在更复杂的数据集 UNIV、ZARA1 和 ZARA2 上。
表1:与基线方法相比,GraphTCN定量结果。
评价指标以ADE / FDE表示,单位为米(数值越低越好)。标记表示确定性模型,其余基线方法均为随机模型,M = 20个预测样本。
Ablation Study.
表2:GraphTCN的消融研究
Ablation Study.
我们通过表 2 中的消融研究评估 GraphTCN 的每个模块。
w/o EGNN 是指没有空间模块的模型。
vanilla GAT是指以GAT为空间模块的模型,在空间建模中忽略了行人之间的相对关系。
GraphTCN-G 是指集成了 VAE 用于多模态未来路径预测的模型。
结果表明,在框架中引入图神经网络(GNN)可以减少 ADE 和 FDE,在 GNN 中添加边相对关系可以进一步提高。然而,这些空间相互作用只能温和地提高性能。我们进一步检查数据集并将这些发现归因于行人很少突然改变路径以避开他们的邻居的事实。
因此,时间特征已经包含了预测的部分空间交互。因此,空间信息在预测中的重要性较低。同时,与基于 RNN 的方法相比,GraphTCN 可以更好地对整个观察到的序列进行建模,而不会丢失重要的时间信息。
Inference Speed.
表3:与基线方法相比,GraphTCN的推断时间和加速。
推理时间是每个行人的总推理步骤的平均值。
在英特尔酷睿i9-9880H处理器上报道了这一结果。
4.5. Qualitative Analysis
我们通过可视化和比较预测轨迹来研究我们的GraphTCN的预测结果,使用图5中表现最好的方法STGAT。我们选择三种不同的场景,在这些场景中发生复杂的交互作用。复杂的交互作用包括行人站立、行人合并、行人跟随和行人回避。
图5:我们的GraphTCN (M=4)和STGAT预测与地真轨迹的比较。
为了更好地说明结果,只给出了部分行人轨迹。
红线实线、蓝实线、黄虚线分别表示观测轨迹、ground truth未来轨迹和预测轨迹。
Social attention(社交注意力)
图6:EFGAT注意力权重图。
绿色/红色实心线是轨迹,箭头表示轨迹方向。
圆圈的颜色表示每个时间步的注意力,圆圈的大小对应着注意力的权重。
不带圆圈的绿色轨迹表示目标行人。
Diverse trajectory predictions.(多样轨迹预测)
图7:各种预测轨迹的可视化。
(a)和(b)显示由GraphTCN和GraphTCN- g生成的四个轨迹,©显示由STGAT生成的20个轨迹
图7是不同预测的可视化。结果表明,即使样本数较少,graphtcn 也可以生成更接近地面真实情况的预测,并能对行人有相对意想不到的行为作出较好的预测。在这种情况下,一个行人有意改变观测方向,graphtcn 可以为它生成正常和意外的预测。而对于其他观察更一致的行人,模型可以生成具有正常行为的未来路径。此外,从图7(b)和© ,图的预测区域比20个预测轨迹的 stgat 更小和精确。
5. Conclusion
在本文中,我们提出了用于轨迹预测的GraphTCN,它通过整合EFGAT来有效地捕捉行人之间的空间和时间交互,而TCN则可以同时对行人的空间和时间交互进行建模。
所提出的GraphTCN完全基于前馈网络,在训练过程中更易于处理,与现有的基于rnn的解决方案相比,具有更好的预测精度和更高的推理速度。
实验结果证实,我们的GraphTCN在各种基准数据集上优于最先进的方法。
版权声明:本文标题:论文翻译:GraphTCN: Spatio-Temporal Interaction Modeling for Human Trajectory Prediction(行人轨迹预测2020) 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dianzi/1728077068a1144617.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论