Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environment
来自 澳大利亚阿德莱德大学,Vision-and-Language Navigation(VLN) 的一篇工作,发表在CVPR 2018。
- 提出了Matterport3D Simulator,一个基于真实场景图的大规模强化学习环境。和之前的合成的强化学习环境相比,真实图像的环境更加具有视觉和语义多样性,可以最大化智能体迁移到真实场景应用的潜力。
- 基于提出的Matterport3D环境,本文提供了第一个基准数据集,Room-to-Room(R2R),在真实建筑中VLN。该数据集包含21,567个词汇,平均句长29词的航行指令。和之前的vision-language任务相关的数据集相比,本数据集第一次考虑了agent的可移动和可控制摄像头这一点。而且本文使用的是全景图,而不是textured meshed纹理网格图,可以保留几何尤其是窗户和玻璃。
- 本文还提供了seq2seq的网络建立了baseline。