摘要: 虽然一些知名的视频游戏已经成为深度强化学习(DRL)的测试平台,但这种技术很少被游戏行业用于打造真实的人工智能行为。先前的研究侧重于训练使用大型模型的超人类代理,这对于资源有限且目标是制作类似人类代理的游戏工作室来说是不切实际的。本文提出了一种针对在工业环境中训练和微调代理的样本有效的DRL方法,比如视频游戏行业。我们的方法通过利用预先收集的数据和增加网络可塑性来提高基于价值的DRL的样本效率。我们评估了我们的方法在EA SPORTS FC 25中训练一个守门员代理,这是今天最畅销的足球模拟游戏之一。我们的代理在球救率上比游戏内置的AI表现提高了10%。消融研究表明,与标准的DRL方法相比,我们的方法训练代理速度提高了50%。最后,来自领域专家的定性评估表明,与手工制作的代理相比,我们的方法创造了更具人类特征的游戏体验。作为该方法影响的证明,该方法已被采用并用于最新版本的系列中。