Reinforcement Learning

开发技术

使用离线强化学习对通用 Agent 进行预训练

本文是来自 Google AI Lab 实验室的一篇文章，介绍了一种使用离线强化学习进行通用Agent预训练的方法，名为Scaled Q-Learning。这种方法使用CQL算法扩展了离线RL，并展示了如何实现高效的多任务训练。结果表明，在各种Atari游戏中，Scaled Q-Learning的性能优于其他方法，包括基于行为克隆和基于视觉表示学习的方法。此外，Scaled Q-Learning具有扩展能力，并且利用大型模型的能力更好。这项工作推动了RL智能体的实际应用，也许从长远来看，类似的工作将会导致通用的预训练RL智能体，发展出广泛适用的探索和交互技能。全文翻译如下。

peter
2023年 2月 25日

关注微信公众号