LOL赛事下注 - 英雄联盟投注 -(中国)Riot Games自由能原理:生命、意识与智能的统一原理

日期:2025-02-05 09:32 | 人气:

  LOL赛事下注 - 英雄联盟投注 -(中国)Riot Games

LOL赛事下注 - 英雄联盟投注 -(中国)Riot Games自由能原理:生命、意识与智能的统一原理

  在过去几个月,集智俱乐部「自由能原理与强化学习」读书会从自由能原理的基础理论到强化学习世界模型等前沿应用,系统介绍了自由能原理和主动推理框架,并邀请到自由能原理的提出者、伦敦大学学院教授 Karl Friston 教授于今晚(5月31日)进行主题分享,从物理和神经生物学两条道路走向主动推理框架。本文是读书会发起人、北京师范大学系统科学学院博士生牟牧云撰写的概览介绍文章,希望可以和读者朋友们共同学习,促进对自由能原理的深入理解。也邀请大家今晚18:00,和我们一起开启自由能之旅,探索智能的第一性原理!详情见今天二条活动预告。

  在探讨生命起源到意识奥秘这一宏大话题时,许多科学家曾做出重要贡献。例如,达尔文在《物种起源》中提出了演化论,认为生物的多样性和复杂性是通过自然选择和适者生存的过程逐渐形成的。薛定谔在《生命是什么》中探讨了生命体如何在物理定律的框架内维持其高度有序的状态,特别是通过引入“负熵”的概念来解释生命体如何抵抗热力学第二定律所描述的无序趋势。他指出,生命系统通过与外界环境交换物质和能量,实现了内部的秩序和复杂性,这与开放系统通过能量流动维持秩序的思想相呼应。

  自由能原理(Free Energy Principle, FEP),由当前全球最具影响力的理论神经科学家 Karl Friston 提出,它揭示了生物系统如何通过最小化内部状态与外部环境预期之间的差异,即最小化自由能,来实现与环境的和谐共存和维持内部稳态。这一理论在过去二十年间不断深化,其理论基础根植于生物物理学和系统生物学,广泛应用于神经科学、认知科学和心理学领域,并对新一代人工智能算法产生了深远的影响。

  在主动推理框架下,感知过程可以看作是调整智能体脑中的信念,使其与观测尽可能一致。例如,当我们在路上行走,远看一个人影,走近后发现其实是一棵树,我们就更新了之前的错误信念。另一方面,行动过程则是通过改变世界,使感官观测与我们的信念(脑中的先验信念、偏好、表现型)尽可能一致。比如,我们在路上行走时突然遇到大雨,为了避免被雨淋湿(这可以看作是我们脑中的先验信念),我们会迅速寻找避雨的地方,通过行动改变了感官观测,使世界状态与我们的预期相符。

  古希腊哲学家柏拉图提出过一个著名的洞穴思想实验,抛开更深层次的隐喻,这里不太严谨的借用这个实验进行举例:想象一个深洞穴,里面有一群囚徒自出生以来就被锁链束缚,面朝墙壁,不能转身看到背后。在他们背后有一堆火,火光将洞穴外走过的人和手持物体的影子投射到囚徒面前的墙壁上。由于囚徒只能看到这些影子,他们便认为影子是现实世界的全部。其中生成过程对应外面士兵及他手持的三维物体的运动,这是现实世界状态的真实演变。而洞穴中的囚徒所看到的,不过是这些三维物体在墙上的二维投影,这构成了囚徒头脑中的生成模型。囚徒所能做的就是通过阴影来推断物体的真实形态。

  19世纪德国物理学家赫尔曼·冯·亥姆霍兹(Hermann von Helmholtz)是首位将大脑比作一个假设检验机器的科学家。他提出,人类的感知系统可以被视为一个统计推断引擎,功能是根据感官输入来推断最可能的原因。亥姆霍兹对产生知觉的“物理活动”进行了如下描述:“(它们)一般不是有意识的,而是无意识的。就结果来看它们就像推理活动,因为我们是从观察到的感官结果得出这种结果的原因。即使我们实际上只能直接接触神经层面的事件,也就是说,我们感知到的是感官结果,而不是外部对象。”(亥姆霍兹,1867年,翻译来自《预测心智》一书中文版)

  到了20世纪末,Peter Dayan和Geoffrey Hinton在他们的开创性工作“sleep-wake算法”和“亥姆霍兹机”中[1,2],将热力学与统计物理学中的自由能概念引入机器学习领域。在热力学中,亥姆霍兹自由能定义为系统的能量减去其熵与绝对温度的乘积,用公式表示为 F=U-TS,其中U是系统的内能,T是温度,S是熵。在机器学习中引入变分分布后,变分自由能的概念被提出,它可以视为热力学自由能的信息论同构物。变分自由能通过结合模型的生成概率和观测数据的概率分布,为学习算法提供了一个优化目标。在这一框架下,变分自由能的最小化等价于数据的最大似然,这使得学习过程可以看作是在寻找能够最好解释观测数据的模型参数。

  然而,从公式中可以看到仅凭贝叶斯公式直接获得状态的后验估计面临一个复杂的数学挑战。观测的边际概率P(B)需要对所有可能的状态进行积分才能得到。为应对这一难题,我们引入一个近似的后验分布,将推断问题转化为最优化问题:寻找一个近似后验分布,使其尽可能地接近真实后验分布。变分自由能作为衡量两者距离的上界,我们的目标便转变为最小化这一变分自由能,以此达到优化推断的目的。关于变分贝叶斯更详细的内容以及具体的公式推导会在后续系列文章中进行介绍。

  生物系统可以被视为一个处于非平衡稳态的开放系统,它们不断地与外界交换物质和能量。在数学上,这类系统可以被建模为随机动力系统,以捕捉其内在的动态性和随机性。其中,“非平衡”指的是系统与外界之间有能量或物质的交换,意味着系统不是封闭的,也不是静止的,而是处于持续的变化之中。而“稳态”则指尽管有交换发生,系统的一些宏观性质在一定时间内相对稳定,表现出一种动态的平衡。这种稳定性是通过系统内部的调节机制和反馈循环实现的,使得生物系统能够在面对环境变化时保持功能和结构的连贯性。

  还是以体温调节为例,设想你穿着短袖衣物站在冰天雪地的户外,短期内,你的身体会通过内在的调节机制来保持体温接近37摄氏度,这是人体的理想内稳态。这一过程涉及到改变身体的内部状态,以适应外部环境的挑战。然而,如果长时间暴露在如此恶劣的低温环境中,即便是最健康的身体也终将无法承受,无法继续维持这一内稳态,最终导致死亡。幸运的是,与单纯的内部调节相比,我们还拥有另一种强大的能力——通过行动来改变环境状态,进而维持体内温度的稳态。例如,我们可以增添衣物,或是寻找一个温暖的地方避寒。这些行动改变了我们所处的环境条件,帮助我们维持了体内温度的稳定。

  需要注意的是,这个例子虽然直观,但它简化了实际情况。实际上,身体对内部状态的调节不仅关注于当前时刻的状态,而是着眼于整个随机动力系统的稳态分布。这种稳态分布受到智能体感知过程和行动策略的影响,不同的感知过程或行动策略可能会导致不同的稳态分布。概括来说,生物体通过复杂的内在调节和行为适应,不断寻求在变化的环境中保持稳态。而那些不那么幸运的生物系统,由于不能有效使稳态分布的熵达到最小化,在自然选择的过程中难以存续。

  以上提供了一种直观的理解,从更正式的随机动力系统的角度出发建模生物系统,我们可将系统的状态分为四类:代表外部环境的外部状态、智能体的观测状态、内部状态以及动作状态。在感知过程中,观测状态映射到内部状态,在采取行动策略时,内部状态映射到动作状态。智能体的观测状态和动作状态共同构成了所谓的马尔可夫毯(Markov blanket)。在给定马尔可夫毯的条件下,智能体的内部状态与外部环境状态在统计上是独立的。这种独立性为智能体提供了一种基础,使其能够抵抗环境扰动带来的耗散效应。

  从系统生物学的角度,生命体可以类比为一个处于稳态分布的随机动力系统[4,5]。在这个系统中,我们假设存在可遍历(ergodic)的随机动态吸引子(random dynamical attractor),意味着有一组经常被访问的吸引状态。还是以体温为例,它不会进行无序的随机游走,而是在某个特定值附近波动。该动力系统在长时间演化下,这些吸引状态的时间平均可以代表状态的分布密度,这个密度被称为遍历密度(ergodic density),遍历密度可以通过Fokker-Planck方程的稳态解得到(Fokker-Planck方程表示连续时间随机过程的概率密度函数的演化)。借助于遍历密度的概念,我们得以进一步利用香农熵来定义随机动力系统的遍历熵(ergodic entropy)。遍历熵是对系统长期行为的统计特性的一种度量,它可以被理解为当时间趋向于无穷大时,系统状态的“惊奇”路径积分。在这里,“惊奇”(surprise)指的是状态的负对数似然概率(即-lnp(s)),一个状态的惊奇越大,该状态发生的概率越小。

  智能体应该使得系统的遍历熵保持在一个尽可能低的水平。然而,由于智能体无法直接访问外部状态,因此需要通过最小化观测状态的熵,间接地实现对外部隐藏状态熵的控制。为了使观测状态的熵尽可能低,系统需要在内部状态中包含尽可能多的关于外部状态的信息,实现对观测状态尽可能准确的预测,这等同于最小化观测状态的“惊奇”度。换句话说,智能体的感知和动作应该旨在最小化“惊奇”。自由能可以视为感官惊奇的一个上界。因此,通过最小化自由能,智能体实际上也在最小化其“惊奇”。

  通过改变感知过程和行动策略,系统能够有效降低自由能,隐含地使得该系统能够将外部状态的“惊奇”最小化,同时使得系统的熵达到最小化,从而维持其有序的存在状态。用一个简单的比喻来说,想象一个在森林中寻找食物的动物。如果这个动物能够预测食物出现的地方(比如通过观察其他动物的行为或者环境的线索),它就可以更有效地找到食物,而不是在森林里随机游荡。通过最小化自由能,动物实际上是在最小化寻找食物时的“惊奇”和不确定性,确保自己能够生存下去。

  由此可以看出,最小化自由能是生物系统为了生存和适应环境所演化出的一种必要机制。这一过程将问题从“生物体需要如何行动来获取食物”转变为“为了生存,生物必须执行哪些行动”。可以通过物理学哈密顿力学中局部视角和全局视角进行类比。局部视角关注于粒子在相空间中遵循哈密顿正则方程的具体演化过程。相对地,全局视角——即哈密顿的最小作用量原理——表明,在所有可能的运动路径中,真实的系统演化路径是那条使得作用量取极小值的路径。同样地,智能体采用使自由能取最小值的方式进行感知和行动,这也为什么自由能原理被誉为统一生物体感知和行动的第一性原理。

  自由能原理是一种广泛适用的理论,它认为所有非平衡稳态系统——从微小的细菌到复杂的动物,甚至包括人类社会和生态系统——都在追求自由能的最小化。当这一原理应用于人脑时,它激发了一系列具体的理论和实践框架,例如预测编码理论(Predictive Coding)和预测加工模型(Predictive Processing)。预测编码理论和预测加工模型是两个紧密相关的概念,预测编码理论提供了一个关于大脑如何运作的高层次描述,而预测加工模型则提供了一个具体的计算框架来实现这一理论。它们在认知科学和神经科学中描述了大脑如何处理信息。

  在实证研究中,重复抑制现象(Repetition suppression)是一个典型例子,它在多种情境下均有体现,比如EEG研究中的失匹配负相关(Mismatch Negativity)和fMRI研究中的面部处理。重复抑制现象揭示了当被试面对重复出现的刺激时,其诱发反应会减少或受到抑制。根据自由能原理,不可预测或不连贯的刺激会引发比熟悉或连贯的刺激更大的预测误差,这一点在相应脑区的激活水平上得到了实证支持[3]。

  强化学习中关系的核心问题是智能体如何通过观测和行动与环境进行交互以获得最大的累积奖励,强化学习方法可以分为无模型强化学习(Model-free RL)与基于模型的强化学习(Model-based RL),后者又被称为世界模型(World Model),这与主动推理框架中智能体内部的生成模型一致。在主动推理框架中变分自由能最小化的过程可以看作是在模型预测准确性与模型复杂度之间进行平衡,这在强化学习中对应世界模型的学习。主动推理框架中预期自由能最小化的过程包括信息增益与偏好两个方面,分别对应了强化学习中探索与利用的平衡。

旋转小火锅定制流程

免费咨询

提供图纸

免费设计

免费报价

无忧安装

终身维护