DeepMind 首席科学家David Silver 荣膺2019 ACM 计算奖

    2020年4月1日, ACM(美国计算机协会)宣布,由于计算机玩家的突破性进展,David Silver荣获了2019年ACM计算机奖。Silver是伦敦大学学院的教授和DeepMind的首席研究科学家,DeepMind是总部位于英国的Google拥有的人工智能公司。David Silver被认为是深度强化学习不断发展且影响深远的领域的核心人物。

    Silver最受关注的成就是领导开发AlphaGo的团队,该计算机程序击败了流行的抽象棋盘游戏围棋的世界冠军。Silver通过巧妙地结合了深度学习,强化学习,传统树搜索和大规模计算的思想,开发了AlphaGo算法。AlphaGo被公认为是人工智能(AI)研究的一个里程碑,并被《新科学家》杂志评为过去十年中十大发现之一。

    AlphaGo通过在人类专业游戏方面的培训进行初始化,然后通过强化学习来改善其性能。随后,Silver寻求了更多有原则的方法来实现更高的性能和通用性。他开发了AlphaZero算法,该算法完全通过与自己玩游戏来学习,从没有任何人类数据或先验知识(游戏规则除外)开始。AlphaZero在国际象棋,将棋和围棋游戏中获得了超人的表现,证明了游戏方法的空前通用性。

    ACM计算奖旨在表彰其研究贡献具有根本影响和广泛影响的早期到中级计算机科学家。该奖项的奖金为250,000美元,来自Infosys Ltd.提供的一笔捐赠。Silver将于2020年6月20日在旧金山举行的ACM年度颁奖晚宴上正式获得ACM奖。

    人工智能玩家

    自上世纪 50 年代以来,教计算机程序与人类或其他计算机进行游戏比赛,一直是人工智能研究的核心实践项目。人类与机器之间的比赛,也一直是衡量人工智能的标尺。计算机程序通过做出一系列决定,来达到获胜的目标,这个过程被看作是对人类思维的模拟和挑战。游戏比赛也给研究人员提供了很容易量化的结果,比如“电脑遵守规则了吗?得分了吗?或者赢了游戏吗?”

    在这一领域的早期,研究人员开发了一些程序来与人类在跳棋上竞争,而在过去的几十年里,又出现了越来越复杂的国际象棋程序。1997 年,ACM 赞助了一场比赛,IBM 的“深蓝”(DeepBlue)成为第一台击败国际象棋世界冠军加里·卡斯帕罗夫(Gary Kasparov)的电脑程序,这也是一个具有分水岭意义的时刻。

    ACM 主席 Cherri M. Pancake 表示:“在人工智能领域,很少有其他研究人员能像 David Silver 一样让人如此兴奋。”Infosys 首席运营官 Pravin Rao 表示:“ David Silver 为深度强化学习做出了基础性贡献,从而迅速促进了人工智能的发展。当电脑能够在复杂的棋盘游戏中击败世界冠军时,它已经激发了公众的想象力,并将年轻的研究人员吸引到机器学习等领域。

    Silver 是深度强化学习的最重要的贡献者之一,在深度强化学习这种工具中,算法通过在交互式环境中反复试验来学习,根据运行过程中积累的信息不断调整,并利用不同数学处理层次的计算模型——人工神经网络与强化学习策略有效地结合起来,对试错结果进行评估。该算法不需要对每一个可能的结果进行计算,而是进行预测,从而更有效地执行给定的任务。

    AlphaGo 阿尔法狗

    2500 年前,中国发明了围棋游戏,至今仍然流行,尤其是在亚洲。围棋被认为比象棋要复杂得多,因为棋手可以做出更多潜在的动作,而且游戏可以有更多的方式进行。Silver 在艾伯塔大学(University of Alberta)攻读博士学位时,就开始探索开发一种可以掌握围棋的计算机程序的可能性。Silver 开发 AlphaGo 的关键见解,是将深层神经网络与计算机游戏中使用的算法 Monte Carlo 树搜索相结合。

    Monte Carlo 树搜索的一个优点是,在追求游戏中最佳感知策略的同时,该算法还在不断研究其他替代方案。2016 年 3 月,AlphaGo 击败世界围棋冠军李世石被誉为 AI 里程碑式的时刻。Silver 和他的同事在 2016 年发表在《自然》杂志上的论文《用深层神经网络和树搜索掌握围棋游戏》中发表了支撑 AlphaGo 的基础技术。

    Silver 和他在 DeepMind 的团队一直在开发新的算法,这些算法极大地提高了计算机游戏的发展水平,并取得了许多被认为人工智能系统无法实现的结果。在开发 AlphaGo Zero 算法时,Silver 和他的合作者证明了程序可以在不接触人类专家游戏的情况下掌握围棋。该算法完全通过在没有任何人类数据或先验知识的情况下自己来学习,而在进一步的迭代版本中,算法甚至不需要知道规则。

    后来,DeepMind 团队的 AlphaZero 在国际象棋、将棋和围棋中也获得了超人的表现。在国际象棋中,AlphaZero 轻松击败了世界计算机国际象棋冠军 Stockfish ,这是一个由大师和国际象棋编程专家设计的高性能程序。就在去年,由 Silver 领导的 DeepMind 团队开发的 AlphaStar ,掌握了多人电子竞技游戏《星际争霸 II》,该游戏被视为 AI 学习系统面临的一项艰巨挑战。

    关于 David Silver

    David Silver是DeepMind的强化学习研究小组的负责人,也是伦敦大学学院的计算机科学教授。Google的子公司DeepMind寻求将机器学习和系统神经科学方面的最佳技术相结合,以构建功能强大的通用学习算法。

    Silver分别于1997年和2000年获得剑桥大学的学士和硕士学位。1998年,他与人共同创立了视频游戏公司Elixir Studios,并在那里担任首席技术官兼首席程序员。Silver于2009年重返学术界,并获得了艾伯塔大学计算机科学博士学位。Silver的众多荣誉包括:Marvin Minksy Medal奖(2018年),以表彰其在人工智能领域的杰出成就; Royal Engineering of Engineering银奖(2017年),以其杰出贡献荣获英国工程学奖,并获得Mensa基金会奖(2017年),以表彰其在人工智能领域的最佳科学发现。

    参考来源:https://www.acm.org/media-center/2020/april/acm-prize-2019


    <声明>
    文章仅代表作者观点,不代表智能链立场,智能链(www.zhinengl.com)也不对真实性背书。
    智能链倡导知识分享,原创和编译文章(除非另有说明)欢迎转载,转载请注明出处、作者和原文链接。
    智能链尊重知识版权,遵循行业规范,转载稿件标明出处、版权归原作者或机构所有;所转载文章和图片仅用于行业交流,如有侵权,请您联系我们删除(editor#zhinengl.com)。