Image Goal Navigation

LZY

有个问题，in real scene 是怎样收集数据进行fine tuning，然后在现实中使用。

# Motivation

深度强化学习中存在两个问题：

对于新的目标泛化能力不足（actor-critic）
缺少数据，模型需要多个episodes 收敛（开发AI2-THOR框架，一套物理引擎）

# Contribution

提出了DRL方法（在模拟器中进行训练）在没见过的target和scenes上取得了不错的泛化性能
提出了AI-THOR框架
在真机上验证
Mapless
不使用三维重建或者SLAM
与其他RL方法相比，不需要对于新游戏重新进行训练，可泛化

# 模拟器

AI2THOR 模拟器，两个目的

物理引擎和DL framework直接交流（Online decision-making）
尽可能去模仿真实物体的外观（影响模型的泛化能力）

# 模拟器的结果

四类场景：kitchen, living room, bedroom, and bathroom

一共32个场景，平均每个场景68个物体

# 问题的定义

给定目标位置图片，从起点出发用最少的步数到达目标位置

# 网络结构

Generic Siamese layers 所有场景共用

在同一个场景中的target共享scene-specific layer

# 实验

主要优势是对于新场景和新目标的泛化能力

# 额外的实验

动作空间连续
复杂真实场景下真机验证

随机选取了32个场景中的20个场景的100个goals用于结果验证，指标用的是最短步数

# 提出的方法的优势：

收敛快：data efficient，可能是因为跨target的权重共享以及异步训练机制

# 在机器人上测试时，用了三种方法

直接用真实照片训练模型2.
仅在20个模拟环境中训练scene-specific layers但是冻结generic layer
微调generic layer parameters