将具有“决策”能力的强化学习(RL: Reinforcement Learning)和具有“感知”能力的深度学习(DL: Deep Learning)相结合,形成深度强化学习(DRL: Deep RL)方法,成为人工智能的主要方法之一。2013年,谷歌DeepMind团队提出了一种DRL方法,在一些游戏上的实验效果接近或超过人类游戏玩家,成果发表在2015年的《Nature》上。2016年,相继发表了所开发的基于DRL的围棋算法AlphaGo,以5:0战胜了欧洲围棋冠军和超一流围棋选手李世石,使人工智能的水平达到了一个前所未有的高度。2017年初,AlphaGo的升级程序Master,与60名人类顶级围棋手比赛获得不败的战绩。在不完全信息博弈中,2017年初,阿尔伯塔大学采用了与AlphaGo相似的原理,开发的德州扑克人工智能DeepStack取得了骄人的胜绩,论文发表在《Science》上,标志着人工智能的又一个里程碑事件。2017年10月,DeepMind团队在《Nature》上发表的论文中提出了AlphaGo Zero,完全不用人类围棋棋谱而完胜最高水平的AlphaGo,再次刷新了人们的认识。DRL在视频游戏、博弈、自动驾驶、机器人、自然语言理解、智能医疗等领域的应用日益增多。