Image Goal Navigation

# Image Goal Navigation

有个问题,in real scene 是怎样收集数据进行fine tuning,然后在现实中使用。

# Motivation

深度强化学习中存在两个问题:

  1. 对于新的目标泛化能力不足(actor-critic)
  2. 缺少数据,模型需要多个episodes 收敛(开发AI2-THOR框架,一套物理引擎)

# Contribution

  1. 提出了DRL方法(在模拟器中进行训练)在没见过的target和scenes上取得了不错的泛化性能
  2. 提出了AI-THOR框架
  3. 在真机上验证
  4. Mapless
  5. 不使用三维重建或者SLAM
  6. 与其他RL方法相比,不需要对于新游戏重新进行训练,可泛化

# 模拟器

AI2THOR 模拟器,两个目的

  1. 物理引擎和DL framework直接交流(Online decision-making)
  2. 尽可能去模仿真实物体的外观(影响模型的泛化能力

# 模拟器的结果

四类场景:kitchen, living room, bedroom, and bathroom

一共32个场景,平均每个场景68个物体

# 问题的定义

给定目标位置图片,从起点出发用最少的步数到达目标位置

# 网络结构

Generic Siamese layers 所有场景共用

在同一个场景中的target共享scene-specific layer

# 实验

主要优势是对于新场景和新目标的泛化能力

# 额外的实验

  1. 动作空间连续
  2. 复杂真实场景下真机验证

随机选取了32个场景中的20个场景的100个goals用于结果验证,指标用的是最短步数

# 提出的方法的优势:

  1. 收敛快:data efficient,可能是因为跨target的权重共享以及异步训练机制
# 在机器人上测试时,用了三种方法
  1. 直接用真实照片训练模型2.
  2. 仅在20个模拟环境中训练scene-specific layers但是冻结generic layer
  3. 微调generic layer parameters