强化学习之父Richard Sutton：探索AGI的新路径

简介：本文深入探讨了强化学习之父Richard Sutton对于实现通用人工智能(AGI)的独特见解，解析了其不依赖大模型范式的理念，并介绍了阿尔伯塔计划的详细内容和目标。通过Richard Sutton的研究和实践，我们得以窥见通往AGI的另一种可能。

强化学习之父Richard Sutton：探索AGI的新路径

引言

在人工智能的浩瀚星空中，Richard Sutton以其对强化学习的杰出贡献被誉为该领域的“教父”。近期，他的一系列观点和研究成果再次引发了业界的广泛关注，特别是他关于实现通用人工智能（AGI）的独特见解。本文将带您深入了解Richard Sutton的AGI理念，以及他提出的阿尔伯塔计划。

Richard Sutton的AGI理念

Richard Sutton在2019年发表的经典文章《The Bitter Lesson》中，提出了一个颠覆性的观点：过去70年AI研究的一大教训是过于重视人类既有经验和知识，而真正的解决之道在于摒弃这些限制，充分利用大规模算力。他认为，通过增加计算资源，AI可以实现更广泛的、不依赖于特定领域知识的进步。这一观点迅速得到了业界的共鸣，特别是OpenAI首席科学家Ilya Sutskever的认可，某种程度上也启发了大模型领域所信奉的Scaling Law。

然而，Richard Sutton并不完全认同当前大模型主导的语言大模型方向。他更赞同Yann LeCun关于世界模型的构想，认为实现AGI需要明确的目标和一个世界模型，以此来制定行动计划。这种思路与他主导的阿尔伯塔计划（Alberta Plan）高度一致，尽管在具体实现方法上有所不同。

阿尔伯塔计划详解

阿尔伯塔计划是Richard Sutton提出的一个宏大的人工智能研究计划，旨在打造一个能够从与环境的交互中学习并做规划的具身智能体。该计划分为12个步骤，前6步专注于设计model-free的持续学习方法，后6步则引入环境模型和规划。最终目标是实现一个能够自主学习、自我优化并具备广泛智能能力的智能体。

在阿尔伯塔计划中，Richard Sutton强调了以下几点：

普遍经验而非特殊训练集：智能体应能从广泛的经验中学习，而非局限于特定的训练数据。
时间一致性：智能体的行为应在时间上保持一致，以应对复杂多变的环境。
算力规模效应：充分利用计算资源的规模效应，推动智能体的快速发展。
多智能体交互：研究智能体之间的交互机制，提升整体智能水平。

与传奇工程师John Carmack的合作

2023年10月，Richard Sutton加入了传奇工程师John Carmack创办的AI创业公司Keen Technologies，并担任研究员。这家公司旨在2030年实现AGI。与主流方法不同，Keen Technologies不依赖大模型范式，更追求实时的在线学习。Richard Sutton与John Carmack在AI研究方向和理念上存在高度一致性，都认为当前AGI发展被限制在很窄的方向上，过多依赖大数据和大算力而忽视了创新。

对AGI未来的展望

Richard Sutton和John Carmack对AGI的未来充满信心。他们认为，实现AGI所需的数据量和算力需求可能没有想象中那么大。通过高效的算法和合理的架构设计，可以在有限的资源下实现智能的飞跃。此外，他们还强调了持续学习和具身化的重要性，认为这是实现AGI的关键。

结论

Richard Sutton以其独特的视角和深厚的学术功底，为AGI的研究开辟了一条新的道路。阿尔伯塔计划的提出和实施，不仅为人工智能领域带来了新的希望和挑战，也为我们展示了一个更加广阔的智能未来。随着研究的不断深入和技术的不断进步，我们有理由相信，在不久的将来，AGI将不再是遥不可及的梦想。

强化学习之父Richard Sutton：探索AGI的新路径