视频表示学习已用于场景预测或基于视觉的计划。首先,将图像编码为潜在场景表示。然后,预测未来的帧。基于神经网络的模型无需解释物理量(例如质量,位置或速度)即可学习此表示形式。因此,这样的模型可能具有有限的解释性,并且很难针对新任务和场景进行概括。
最近的一项研究提出了一种从视频中识别对象物理参数的方法。图像被编码为物理状态,并借助可区分的物理引擎预测未来的场景。模拟了诸如将块推到平面上,块与另一个块碰撞,或块自由下落并在倾斜平面上向下滑动等场景。使用监督学习和自我监督学习都获得了令人满意的视频预测结果。
2021-08-13
2021-08-13
2021-08-13
2021-08-13
2021-08-13
2021-08-13
2021-08-13
2021-08-13