Image Goal Navigation
LZY
# Image Goal Navigation
有个问题,in real scene 是怎样收集数据进行fine tuning,然后在现实中使用。
# Motivation
深度强化学习中存在两个问题:
- 对于新的目标泛化能力不足(actor-critic)
- 缺少数据,模型需要多个episodes 收敛(开发AI2-THOR框架,一套物理引擎)
# Contribution
- 提出了DRL方法(在模拟器中进行训练)在没见过的target和scenes上取得了不错的泛化性能
- 提出了AI-THOR框架
- 在真机上验证
- Mapless
- 不使用三维重建或者SLAM
- 与其他RL方法相比,不需要对于新游戏重新进行训练,可泛化
# 模拟器
AI2THOR 模拟器,两个目的
- 物理引擎和DL framework直接交流(Online decision-making)
- 尽可能去模仿真实物体的外观(影响模型的泛化能力)
# 模拟器的结果
四类场景:kitchen, living room, bedroom, and bathroom
一共32个场景,平均每个场景68个物体
# 问题的定义
给定目标位置图片,从起点出发用最少的步数到达目标位置
# 网络结构
Generic Siamese layers 所有场景共用
在同一个场景中的target共享scene-specific layer
# 实验
主要优势是对于新场景和新目标的泛化能力
# 额外的实验
- 动作空间连续
- 复杂真实场景下真机验证
随机选取了32个场景中的20个场景的100个goals用于结果验证,指标用的是最短步数
# 提出的方法的优势:
- 收敛快:data efficient,可能是因为跨target的权重共享以及异步训练机制
# 在机器人上测试时,用了三种方法
- 直接用真实照片训练模型2.
- 仅在20个模拟环境中训练scene-specific layers但是冻结generic layer
- 微调generic layer parameters