使用旋转、平移和裁剪来增强深度强化学习模型中的泛化
“泛化”是当今人工智能的流行语,这是有充分理由的:大多数科学家都希望看到他们在模拟和视频游戏环境中训练的模型不断发展和扩展,以应对有意义的现实世界挑战 - 例如在安全,保护,医学等方面。
可以在虚拟环境中实现他们的目标。DRL已广泛应用于游戏和机器人技术。
这样的DRL特工在星际争霸II和Dota-2上有着令人印象深刻的记录。但由于他们是在固定环境中接受训练的,研究表明DRL代理可能无法推广到他们的训练环境的微小变化。
在一篇新论文中,纽约大学和 Modl.ai(一家将机器学习应用于游戏开发的公司)的研究人员建议,简单的空间处理方法,如旋转、平移和裁剪,可以帮助提高模型的通用性。
直接从像素中学习各种游戏输出的能力是DRL在过去几年中大受欢迎的原因之一。但许多研究人员已经开始质疑模型实际上从这些像素中学到了什么。研究使用 DRL 训练的模型从像素数据中学习的一种方法是研究它们的泛化能力。
从DRL不能使用静态的第三人称视角轻松学习游戏的可推广策略的假设开始,研究人员发现缺乏泛化部分是由于输入表示。这意味着,虽然具有静态第三人称表示的游戏的 DRL 模型不倾向于学习可推广的策略,但如果从更以代理为中心的角度“看到”游戏,它们有更好的机会这样做。
由于代理的周围环境会极大地影响其在DRL场景中的学习能力,因此该团队建议为代理提供第一人称视角。他们将三种基本的图像处理技术——旋转、平移和裁剪——应用于代理周围的可观察区域。
旋转使代理始终面向前方,因此他们采取的任何操作始终从相同的角度发生。然后,翻译将观察值定向到代理周围,使其始终处于其视图的中心。最后,裁剪将观察值缩小到仅代理周围的本地信息。
在他们的实验中,研究人员观察到这三个简单的转换能够更好地学习代理,并且所学到的策略可以更好地推广到新环境。
到目前为止,该技术仅在两种游戏变体上进行了测试——《塞尔达传说》中地下城系统的GVGAI端口和游戏的简化版本《简单塞尔达》。对于未来的工作,研究人员打算继续测试不同游戏的泛化效果,并提高他们对每个变换效果的理解。
论文Rotation, Translation, and Cropping for Zero-Shot Generalization发表在arXiv上。