R2R: Room-to-Room（R2R 数据集）

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environment
来自澳大利亚阿德莱德大学，Vision-and-Language Navigation(VLN) 的一篇工作，发表在CVPR 2018。

提出了Matterport3D Simulator，一个基于真实场景图的大规模强化学习环境。和之前的合成的强化学习环境相比，真实图像的环境更加具有视觉和语义多样性，可以最大化智能体迁移到真实场景应用的潜力。
基于提出的Matterport3D环境，本文提供了第一个基准数据集，Room-to-Room(R2R)，在真实建筑中VLN。该数据集包含21,567个词汇，平均句长29词的航行指令。和之前的vision-language任务相关的数据集相比，本数据集第一次考虑了agent的可移动和可控制摄像头这一点。而且本文使用的是全景图，而不是textured meshed纹理网格图，可以保留几何尤其是窗户和玻璃。
本文还提供了seq2seq的网络建立了baseline。

罗宇成的博客

R2R: Room-to-Room（R2R 数据集）

Gridea博客搭建流程