Reinforcement Learning

  • 使用离线强化学习对通用 Agent 进行预训练

    本文是来自 Google AI Lab 实验室的一篇文章,介绍了一种使用离线强化学习进行通用Agent预训练的方法,名为Scaled Q-Learning。这种方法使用CQL算法扩展了离线RL,并展示了如何实现高效的多任务训练。结果表明,在各种Atari游戏中,Scaled Q-Learning的性能优于其他方法,包括基于行为克隆和基于视觉表示学习的方法。此外,Scaled Q-Learning具有扩展能力,并且利用大型模型的能力更好。这项工作推动了RL智能体的实际应用,也许从长远来看,类似的工作将会导致通用的预训练RL智能体,发展出广泛适用的探索和交互技能。全文翻译如下。

    2023年 2月 25日
wechat
关注微信公众号