
上QQ阅读APP看书,第一时间看更新
4.1 什么是模仿学习
游戏AI是游戏自动化测试的重要组成部分,可以通过硬编码、强化学习和模仿学习的方式实现。其中,硬编码是根据玩家玩游戏总结的规则编写的游戏AI策略,优点是可以根据游戏目标定制游戏AI策略,便于添加策略;缺点是要求研究人员对游戏有较深入的认知,且不同游戏的AI策略变化较大,很难实现泛化。强化学习则是通过与环境进行交互,记录状态、执行的动作以及对应的奖励,将累积奖励期望最大化来优化模型参数,这种方法通过多次与环境交互后能得到较好的AI效果,但是会耗费大量的时间,同时非常依赖人工设计的奖励函数。模仿学习则需要玩家录制玩游戏的样本,记录不同状态对应的动作,随后从这些样本中学习特定的游戏策略。与强化学习相比,模仿学习不需要人工设计奖励函数,其中的行为克隆算法不需要与游戏环境进行交互,能在短时间内完成游戏AI的训练。
模仿学习也称为示范学习和学徒学习,主要思想是通过专家演示学会如何完成一个任务。与强化学习相比,模仿学习可以不用人工定义奖励函数,训练速度更快。
4.2节将详细介绍两种模仿学习算法(行为克隆和逆强化学习),并分析每种算法适合的应用场景,读者可以根据自己的需求选择对应的模仿学习算法。