重塑认知科学中的“行为”理解，提升智能体决策能力

2024年6月6日

分享这个页面

作者：韩东起

编者按：随着科技的不断进步，人工智能与认知科学的交叉研究已成为推动科学前沿的重要力量。其中，习惯性行为与目标导向行为的相互作用是心理学、认知神经科学和人工智能等领域都十分关注的研究课题，因为从简单的日常习惯到复杂的决策制定过程，都是这两种行为模式交互的体现。为了更好地理解二者间的关系，微软亚洲研究院的研究员们通过引入贝叶斯“意图”变量，将习惯性行为与目标导向行为进行了整合，达到了计算效率和灵活性的平衡。该研究的提出不仅挑战了传统的认知模型，也为未来智能系统的设计提供了新的发展方向。相关论文已在《自然-通讯》（Nature Communications）杂志上发表。

在心理学、认知神经科学和人工智能等领域，理解并建模人类与动物的行为是一项持续的挑战。这项研究中最有趣的方面之一，便是习惯性行为（habitual behavior）和目标导向行为（goal-directed behavior）之间的相互作用。从人们日常工作生活的简单习惯，到有规划的、复杂的决策制定过程，无不体现着两种行为模式间的交互。传统观念认为，这些行为由大脑中的两个独立系统管理：习惯性行为迅速且自动化，不需要考虑后果；而目标导向行为则缓慢且灵活，会考虑此行为的后果。

然而，微软亚洲研究院与冲绳科学技术大学院大学的研究者们近期通过变分贝叶斯（variational Bayes）方法，提出了一个新颖的理论框架，挑战了传统观点，将习惯性行为和目标导向行为这两种看似相互独立的行为进行了整合。该框架为在机器学习和人工智能领域设计更高效且适应性强的系统提供了新的思路，同时也将有助于人们进一步了解神经系统的机理。相关论文已在《自然-通讯》（Nature Communications）杂志上发表。

Synergizing Habits and Goals with Variational Bayes

论文链接：https://www.nature.com/articles/s41467-024-48577-7 (opens in new tab)

习惯性行为和目标导向行为间的协同作用

微软亚洲研究院的研究员们所提出的贝叶斯行为（Bayesian Behavior）框架，使用变分贝叶斯方法建模了感知运动任务中的行为，其中的核心创新点就在于引入了一个贝叶斯“意图”（intention）变量，从而有效地将习惯性行为与目标导向行为进行了衔接。习惯性行为由感官输入计算的意图先验分布驱动，无需具体目标。目标导向行为则由一个通过最小化变分自由能推断（active inference）的目标条件意图后验分布的引导。

研究员们认为，习惯性行为和目标导向行为不应被独立对待。相反，这些行为共享神经路径，且可以互相借鉴补充。例如，习惯性行为虽然缺乏灵活性，但可通过练习来提供熟练的运动技能，目标导向行为此时便可以利用这些技能进行更复杂的任务规划。这种协同方法可通过以下两种机制实现：（1）最小化先验（习惯性）和后验（目标导向）意图之间的差异；（2）先通过逆方差加权平均将先验和后验意图结合成一个协同意图，然后智能体（agent）再使用该意图与环境进行互动。

模拟实验：智能体行为模式的转变、调整与零样本规划能力

研究员们通过在视觉引导的感知运动任务中的模拟实验对贝叶斯行为框架进行了测试，该实验采用的是T形迷宫（T-maze）环境。实验结果显示，贝叶斯行为框架所得出的结论与神经科学和心理学实验的观察数据相吻合：

1. 从目标导向到习惯性行为的过渡：模拟实验结果表明，在反复学习同一任务的过程中，智能体的行为会自动地从缓慢的目标导向行为转变为更快的习惯性行为。这一过渡是由习惯性意图的精确性的增加引起的，从而减少了目标导向规划的计算负担。

2. 奖励贬值后的行为变化：模拟实验还探讨了智能体在奖励结果变化时，如何调整其行为，这与心理学中的结果贬值（outcome devaluation）的情境相似。经过更大量的训练，智能体在习惯性行为方面表现出了更强的顽固性。

3. 零样本（zero-shot）目标导向规划：该框架展示了智能体处理新目标而无需额外训练的能力。通过利用现有的习惯性行为，智能体能够有效地规划和执行新任务。

认知神经科学视角下的智能体决策机制

智能体在面对复杂任务时，会通过内部模型来预测和规划行为。这些模型基于智能体对环境的理解和先前经验的积累，使其能够在不断变化的环境中做出适应性决策。那么，习惯性行为和目标导向行为之间的动态交互是如何实现的？智能体的行为模式和决策过程又是如何运作的？

研究员们从认知神经科学和人工智能的交叉研究视角出发，给出了见解：

智能体如何在无模型的习惯性行为和基于模型的目标导向行为之间进行取舍？

研究员们提出，智能体通过逆方差加权平均将先验和后验意图，结合成一个协同意图。该方法通过意图分布的统计方差，能够自然地衡量行为的不确定性。同时，该方法允许智能体在训练过程中最小化自由能和强化学习损失动态，从而可以自主地调整这一平衡。

智能体如何通过重复试验，从缓慢的目标导向行为自主过渡到快速的习惯性行为？

模拟实验结果表明，在适应新任务时，习惯性意图的方差最初很大，但由于无模型决策的简单性，该方差将伴随重复试验的增加而减少。随着训练的进展，方差的减少将使得平衡逐渐倾向于习惯性意图。研究员们还引入了一种机制，可以在协同意图足够精确时，让智能体提前停止目标导向的主动推理，节省计算资源，同时保持高行为精度。这一发现解释了为什么在广泛的训练过程中，智能体会从目标导向行为转变为习惯性行为。

智能体如何为未经过训练的新目标执行目标导向的规划？

智能体应配备一个内部预测模型（world model），通过预测模型来搜索并规划目标导向意图。目标导向意图是在习惯性意图的约束下进行推断的。这一约束确保了目标导向规划的有效性（不去搜索一些不习惯的行为），并且利用了在习惯性意图和共享策略网络中形成的底层运动技能。该框架使得智能体能有效地将目标导向性行为泛化到新目标。

探索智能体行为的计算框架新范式

微软亚洲研究院贝叶斯行为框架的研究标志着人们对认知科学意义上的“行为”的理解有了新的突破。研究员们通过贝叶斯行为框架整合习惯性和目标导向行为，构建了一个能平衡效率和灵活性的全面模型。这项研究不仅推动了相关理论知识的发展，还为人工智能和机器人技术的实际应用提供了新的思路。例如，将强化学习与主动推理相结合，可以增强自主智能体在复杂环境中的决策能力。此外，理解习惯性和目标导向行为之间的相互作用不仅有助于揭示神经系统的机理，还能为相关疾病的治疗策略提供指导。随着对认知科学和人工智能的不断探索，微软亚洲研究院的研究员们将会继续在跨学科研究中发挥创新思维的力量。

注：经过作者允许并基于 Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/)，本文复用原论文中部分图片。