最新消息:关注人工智能 AI赋能新媒体运营

2024图灵奖揭晓,强化学习奠基者Andrew Barto与Richard Sutton获奖

科技智能 admin 浏览 评论

有电脑科学界诺贝尔奖之称的ACM图灵奖(ACM A.M. Turing Award),揭晓2024年得主,为强化学习(Reinforcement Learning)领域的两位先驱,分别是Andrew Barto与Richard Sutton。两位学者从1980年代开始,便逐步建立强化学习的核心理论与演算法框架,奠定了人工智慧代理透过经验和奖励讯号自主学习的基础,开创了机器自主决策的现代应用。

Andrew Barto目前为美国麻州大学阿默斯特分校(University of Massachusetts Amherst)资讯与电脑科学系的荣誉退休教授,Richard Sutton则任职于加拿大亚伯达大学(University of Alberta)电脑科学系,同时兼任人工智慧新创公司Keen Technologies的研究科学家。

Andrew Barto与Richard Sutton最主要的贡献,是从心理学与神经科学的概念出发,透过建立时序差分学习(Temporal Difference Learning)演算法,让电脑在未知环境下,能根据累积的经验自行调整行为,逐步提升决策品质。此外,他们也提出策略梯度法(Policy Gradient Method)以及以神经网路表达学习函式,而这些研究成果正是强化学习的实务基础。他们于1998年共同出版的《Reinforcement Learning: An Introduction》,至今仍被视为该领域的权威着作,引用数超过75,000次。

事实上,强化学习的核心概念并非近年才出现,早在1950年代,电脑科学先驱Alan Turing以及Arthur Samuel就曾提出透过奖惩方式来训练机器学习的方法。不过,一直到Andrew Barto与Richard Sutton于1980年代重新梳理并提出可行的数学框架与演算法之前,这项技术始终未能广泛应用。

过去十年深度学习快速崛起,让强化学习技术得以再度受到重视,例如Google旗下DeepMind研发的围棋程序AlphaGo击败人类顶尖棋手,以及近期热门的对话机器人ChatGPT中,强化学习扮演了关键角色。其他如晶片设计、机器人控制、网路壅塞控制,甚至供应链最佳化等领域,也已开始大规模导入强化学习技术。

ACM主席Yannis Ioannidis表示,Barto与Sutton的研究跨越了心理学、认知科学、神经科学等多个领域,他们奠定的强化学习基础,不仅支撑了现今人工智慧的许多突破,也让我们对人脑运作有了更深刻的理解。这次图灵奖奖金由Google赞助为100万美元。ACM图灵奖从1966年开始,每年颁发给在电脑科学领域做出长远贡献的个人,得奖者多被视为当代科技进步的重要推手。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论