模型越复杂,离真理越远?我们还需要奥卡姆剃刀吗?

Page content

模型越复杂,离真理越远?我们还需要奥卡姆剃刀吗? by 追问nextquestion

当百亿千亿参数的大模型霸占着科技头条,“若无必要,勿增实体”这把古老“剃刀”是否依旧闪耀?


在这个追求极致性能的时代,“更大即更好”似乎已成为不言自明的公理。然而,从拉瓦锡到爱因斯坦,从牛顿第一定律到量子力学,科学史上最优雅的理论往往以其简约之美征服世人。这场复杂与简约的“较量”,仍以意想不到的方式丰富着我们的认知世界。


复杂性与简洁性真的是对立的吗?本文将回溯历史长河,探寻一个古老哲学原则与现代科技之间的微妙关联。在这个过程中,我们或许能够发现,复杂与简洁之间隐藏着怎样的辩证关系。


奥卡姆剃刀的历史源头


人类对简洁的追求是跨文明的。东方的《道德经》以“为学日益,为道日损”揭示认知的辩证法则,亚里士多德在《物理学》中通过“自然界选择最短路径”(最小作用量原理)勾勒自然规律。牛顿在其《自然哲学原理》第三卷中曾写到,“解释自然界的一切,应该追求使用最少的原理。如果很少的理由就能解释自然,那么再列举更多的理由就是多余的了。”


而对“简洁原则”的最简洁表述,莫过于13世纪出生于奥卡姆的方济会修士威廉(又名“奥卡姆”)提出的:


“若无必要,勿增实体”(Entities should not be multiplied unnecessarily)。


图 1. 奥卡姆的威廉素描,1341年。来源:维基百科


要理解这句话,首先要了解这句话的背景,这就需要重返中世纪经院哲学的论战现场。


圣经故事中,亚当作为第一个男人,凭借上帝赐予他的“完美语言”,得以给伊甸园中的每种生物命名。这种完美的语言体系将“最恰当”或“最完美”的词语与其本质联系起来,以此揭示万物终极真理。可随着亚当被赶出伊甸园,完美语言也消失了。为此,哲学家/神学家寄希望于深入探究以复原完美的亚当语(Adamic language)[1]


但后来,哲学家们对“共相”、“本质”等抽象概念的争论愈演愈烈,奥卡姆率先意识到这场思辨已陷入虚无,他拒绝谈论那些看不到摸不着的“东西”,只承认确实能够用感官观察到的存在,那些所谓的普遍性要领都是无用的累赘,应当被无情地“剃除”。


奥卡姆提出,概念基于感知行为。就像中世纪酒馆的主人在门前放置桶箍来传递“新酒到货”的信息,虽然桶箍本身不是酒,但传递了预期的意义。同理,环境中的物体将预期的意义传递出来,而人类自带感知能力,能够在脑中形成概念。我们的感知与环境中的物体之间存在因果关系,概念则作为这一关系的副产品出现。


而“剃刀”这个比喻,直到1649年才被创造出来。“剃刀”的意象,来源于中世纪作家的刮刀。在抄录羊皮纸手稿时,为了不破坏周围文本的情况下擦除单个字母和单词,就需要使用刮刀。“奥卡姆剃刀”取其喻义,旨在改进思想的表达,保证措辞的优雅的同时节省变量的考虑。虽然剃刀最初被描绘成一种用来打击奥卡姆本人的武器,但剃刀的引入,为简洁原则提供了令人信服的代言形象。


图 2. 中世纪的抄写室中,刮刀是抄写经书的人员必不可少的工具。


用当下计算机的自然语言处理算法(NLP)来解释。当语言学家还在讨论“不同语言之间的语法规则有哪些共性”、“不同人类语言的本质特征是什么”时,奥卡姆剃刀指出,将单词转换成向量,以此计算向量间的关系,只要让机器获得足够的感官体验(训练数据),算法会自动会总结出“男人+国王=女人+女王”。


奥卡姆剃刀代表的唯名论(Nominalism)认为,科学发展不必受限于既有框架,而是取决于能观察到什么;如果观测和现有理论不符合,那就更换理论框架。唯名论取代了之前占据主导的唯实论(Realism),自此这种对简单解释的偏好,更是指导着之后数百年间的科学发展。


奥卡姆剃刀的应用及滥用


17-18世纪,化学家试图解释燃烧现象,曾提出“燃素”(phlogiston)这一假想实体。“燃素说”认为,可燃物质含有“燃素”,燃烧是燃素释放的过程,金属煅烧后变成金属灰(氧化物),被视为“失去燃素”。又因为金属煅烧后重量增加的实验发现,燃素被额外假设“具有负重量”。


与之相对的是,拉瓦锡(Lavoisier)提出的“氧化理论”,即用氧气与物质的结合解释燃烧。这一理论不需要引入新的神秘物质,仅用已知元素的相互作用就能自洽地解释现象。值得一提的是,当时普利斯特利(Priestley)通过加热红色氧化汞获得了一种"特殊的空气",这种气体能使蜡烛燃烧更旺、老鼠呼吸更顺畅,这就是后来被拉瓦锡命名的“氧气”



在技术条件有限的当时,既无法直接观测到燃素,也难以提纯出纯氧,但因为拉瓦锡的氧化理论更简洁,符合奥卡姆剃刀原则,逐步收获了科学社区的广泛认可。而正确的理论,又推动了后续科学的进步。


类似的例子在科学史上屡见不鲜。爱因斯坦提出狭义相对论时,大胆抛弃了“以太”这一当时普遍接受的假设介质,用更为简洁的数学框架统一了力学和电磁学。达尔文的进化论用“自然选择”这一优雅机制,解释了物种多样性的起源,无需诉诸超自然的创造力量。这些理论的成功,强化了科学界对“奥卡姆剃刀”原则的信心。


图 3. 光如何在以太中传播。注释中提到“光能从节点激发,沿着路径传播”,“垂直标量压缩(Perpendicular Scalar Compression)作为光的起源”,以及“光子不沿波的路径传播”。图源:robertedwardgrant.com


奥卡姆剃刀追求的“简洁”,不应被简单化理解为降低理解门槛。实际上,我们并没有确凿证据表明自然界总是遵循最简单的规律。随着科学研究的深入,许多理论反而变得更加复杂,因为新发现的现象往往需要更精细的解释框架。


奥卡姆强调的是“必要”——何为“必要”,取决于要解释的现象。


广义相对论为例,虽然它的数学框架远比牛顿力学复杂,但这种复杂性是必要的,因为它成功解释了水星近日点进动、引力红移等经典力学无法阐明的现象。因此,评判一个理论时,不能仅以其复杂程度为标准,而应该考察其解释力与复杂性是否相称。


图 4. 《奥卡姆剃刀》,来自《虚构科学之友》系列插画. 作者:Ele Willoughby, PhD


相对地,机械降神*虽然提供了看似简单的解决方案,但这种表面的简单性恰恰违背了奥卡姆剃刀的本质。


以睡眠瘫痪为例,用“外星人绑架”来解释虽然直观易懂,但这种解释需要我们额外假设外星人的存在、其跨越星际的能力、以及选择性造访地球等一系列未经证实的前提。相比之下,异态睡眠(Parasomnia)的神经生理学解释虽然较为复杂,但它建立在已知的科学发现之上,无需引入额外的未经验证的假设。


*“机械降神”(Deus ex Machina)是一种戏剧叙事手法,指在剧情陷入困境时,通过意外的外部力量或超自然介入强行解决问题,最早出现在古希腊悲剧中,在现代文学和影视中多被视为削弱故事逻辑的生硬转折。


图 5. 《哈利·波特与火焰杯》中,哈利与伏地魔在墓地的魔杖对决。由于两根魔杖的杖芯来自同一只凤凰的羽毛,它们产生了“闪回咒”现象,魔杖之间的连接迫使伏地魔魔杖中的灵魂碎片和受害者影像显现出来,最终哈利借此机会成功逃脱。这个场景被一些剧评人评为哈利波特系列电影中十大机械降神场景之一。来源:CBR.com


合理应用奥卡姆剃刀,应注意避免不必要地引入多重独立的解释机制,其核心在于排除不可能的假设。


神经病学领域曾发生过一次“乌龙”——“哈瓦那综合征”。2016年,美国驻古巴大使馆的工作人员报告出现头痛、眩晕、注意力和记忆问题等症状,媒体迅速将其归因于“声波攻击”。随后,世界各地的外交人员也陆续报告类似症状。然而,这些症状在普通人群中也普遍存在,并未呈现出针对性攻击所应有的系统性特征。


从奥卡姆剃刀的视角来看,“声波攻击”的解释需要我们接受一系列未经证实的假设:存在能够定向发射的声波武器、攻击者能够精确选择目标以及这种武器能在全球范围内部署等。相比之下,将这些症状解释为功能性神经障碍或环境因素(事实上最终证实是由蟋蟀的鸣叫声引起)则简单得多。


这个案例提醒我们,在评估数个竞争性假说时,奥卡姆剃刀的应用前提是这些假说具有相近的解释力和预测能力,而不是简单地选择表面上看起来最简单的解释。这一点在当代科学实践中显得尤为重要,现实世界中的许多问题往往具有概率性,并受到观测噪声的影响,这都使得我们需要以更严谨的数学框架来重新审视“奥卡姆剃刀”原则。


当奥卡姆剃刀遇到概率——贝叶斯剃刀


当代许多问题具有概率性,并且受到观测噪声的影响,这使得单纯偏好简洁的解释不再适用。统计学家哈罗德·杰弗里斯(Harold Jeffreys)在其经典著作《概率论》(Theory of Probability)中提出的“定量形式奥卡姆剃刀”,本质上是将传统的奥卡姆剃刀原则数学化,并融入贝叶斯概率框架,从而为模型选择和科学推理提供了一种基于概率的严格方法。


其中,

A表示假设;

B表示观察到的证据;

P(A)是先验概率,表示在没有观察到具体结果之前对每个假设的初始信念;

P(B|A) 是似然性(likelihood),表示在给定假设下观察到当前结果的概率;

P(B)是证据的总概率,用于对结果进行归一化处理。


用书中“掷骰子”的例子来说明。假设有两个骰子(一个六面骰和一个六十面骰),暗中掷了其中一个,然后告知结果,让人猜掷的是哪个骰子。


 

尝试掷出数字39


若不考虑投掷结果,仅凭奥卡姆剃刀原则,会倾向于选择更简单的六面骰。


而根据贝叶斯方程,A表示“掷六面骰”或“掷六十面骰”的假设,B表示掷出数字39的事件,假设先验概率P(A)均为0.5,P(B)可以视为1,P(B|A)就是在使用某种骰子的条件下掷出39的概率)。那么,


贝叶斯推断


▪ 对于“掷六面骰”假设,六面骰不可能掷出39,即P(B|A)等于0,最终掷出六面骰的概率P(A|B)也为0。


▪ 对于“掷六十面骰”假设,六十面骰子掷出39的P(B|A)等于1/60;将这个值与先验概率0.5相乘,得到后验概率为1/120。


比较这两个假设,结果一目了然,六十面骰比六面骰更有可能


 

尝试掷出数字5


现在假设掷出的数字是5,这个结果既可能是六面骰也可能是六十面骰,其先验概率相同(假设无偏),那么两个骰子的可能性是否相等?


实际上在这种情况下,奥卡姆剃刀和贝叶斯推断还是会认为,更简单的假设(即六面骰)应该被优先考虑。


贝叶斯推断


先验概率0.5保持不变,六十面骰掷出数字5的概率仍是1/60,六面骰掷出数字5的概率变为1/6。


那么,计算下来:

六十面骰掷出5的后验概率,是1/120,

六面骰掷出5的后验概率,是1/12。


比较两种假设,六面骰的概率比六十面骰高十倍,所以更可能是六面骰。


在这个案例中,为了比较不同模型的证据强度,杰弗里斯提出了贝叶斯因子(Bayes Factor),用数学计算直接量化了奥卡姆剃刀。


贝叶斯因子,定义为两模型边际似然的比值。

若贝叶斯因子显著大于1,则支持模型A,反之则支持模型B。


物理学家约翰·冯·诺伊曼曾说过:“用四个参数我可以拟合一头大象,用五个参数我可以让他摇动鼻子。”量化后的奥卡姆剃刀,能够在不同复杂度的模型间进行概率比较,而不再依赖于确定性的判断。


当然,六十面骰也会掷出5 点,就像复杂解释有时也是正确的。但如果简单和复杂模型、理论或假设都能同样很好地解释数据,那么根据“奥卡姆剃刀+贝叶斯推断”,简单的模型更可能是产生这些数据的来源。


计算微生物代谢通量分布


假设在一条微生物代谢通路中,1摩尔代谢物A 可以通过三种中间体(B、C或D)转化为1摩尔的代谢物E。研究者需要确定实际的代谢通量分布。


图6. 微生物的3条代谢通路


最简单的假设是代谢仅通过单一通路(中间体B、C或D),其归一化值(normalized value)为1。这种假设符合奥卡姆剃刀原则,单一通路显然比三条通路更简单。


然而,实验数据本身大多存在噪声,单一通路的假设并不能完全解释所有数据。因此,通过最大似然法贝叶斯方法将实验数据和噪声拟合到模型中,也是常见的数据处理方法。


▪ 贝叶斯方法,采用奥卡姆剃刀原则,仍会倾向于最简单的模型,因此这类方法的典型结果是预测所有代谢都通过其中一条通路(如通路B)。


▪ 最大似然方法,则倾向于使数据与模型拟合,因此可能会引入一个更复杂的模型,例如90%的代谢通过通路B,大约5%的通过通路C和D。


如此看来,偏好简单解决方案的贝叶斯方法,可能会将科学家推向“真理”的反方向。


但这不意味着当下奥卡姆剃刀不再适用。事实上,基于真实情况的复杂方法,也可能会导致错误,例如将实验噪声错误地拟合到非活跃的代谢路径中。而使用简单模型,能让噪声能够保持其噪声特性,而不是被过度拟合到模型参数中,这是简单模型在生物学研究中的另一个重要优势。


实验和理论研究已经证明了噪声在生物系统中扮演着重要角色,例如保证代谢系统的可控制性。如果将噪声拟合到确定性模型中,可能会忽略噪声的功能性作用,从而得出错误结论。


机器学习如何从简洁原则吸收养料


在机器学习实践中,如何权衡模型的简洁性与复杂性一直是个重要议题。假设要训练一个基于卷积神经网络(CNN)的视觉识别模型,下图中的两个不同复杂程度的模型在训练数据上分类性能相当,应该选择哪个模型进行进一步的训练呢?


图7. 两个不同复杂度的视觉识别模型示例。图源:Medium


比较多个模型并不简单。


如果只根据奥卡姆剃刀,无疑是选择图7a中的简单模型。但更复杂的模型(有更多的隐藏层和滤波器),总能更好地拟合数据。模型图7b相对7a更复杂,能解释的数据更多(模型容量更大),在更广泛的可能数据集上的表现可能就更好。


可是,如果只追求这种“完美拟合”,模型可能因为过度参数化而难以泛化,即出现过拟合(overfitting)。我们真正需要的是一个能良好泛化的模型,即在未见过的数据示例上表现良好。


图8. 复杂模型受到惩罚的基本原理.

在图中,水平轴代表了所有可能的数据集空间D,而贝叶斯规则根据模型对实际数据的预测准确度来给予相应的奖励,这种预测能力通过D空间上的归一化概率分布来度量,给定模型Hi条件下的数据概率P(D|Hi)被称为模型Hi的证据。

一个简单模型H1只能做出有限范围的预测,如P(D|H1)所示;而一个参数更多的模型H2能够预测更多种类的数据集。然而,这种复杂性也相应地付出了预测强度上的代价,对于特定数据集C1,H2对数据集的预测强度反而不如H1。假设两个模型具有相同的先验概率,那么如果数据集落在区域C1中,简单模型H1将是更可能的模型。

图源:Hoffmann R, Minkin VI, Carpenter BK. Ockham's Razor and Chemistry. HYLE--International Journal for Philosophy of Chemistry . 1997;3:3-28.



因此,模型的选择需要在拟合能力和泛化能力之间找到平衡。为了解决这一问题提出的一系列理论方法,都能看到奥卡姆剃刀的“如无必要,勿增实体”原则的影响。


例如,通过限制模型的复杂度来提高模型的泛化能力的正则化技术(regularization)。正则化通过在模型的损失函数中添加一个正则化项(regularization term),对模型的复杂度进行惩罚,从而约束模型的参数,使其不会过度依赖训练数据中的噪声,以此提高模型的稳健性。常见的正则化方法包括L1正则化、L2正则化,以及针对神经网络的Dropout等。值得注意的是,引入正则化不意味着简单的模型一定要好于复杂的模型。


图9. 一阶、三阶、二十阶和一千阶多项式回归拟合(品红色;从左到右)的数据来自三阶多项式函数(绿色)生成的数据。三阶和一千阶模型都实现了低预测误差。图源:[3]


纳夫塔利·蒂什比(Naftali Tishby)等人提出的信息瓶颈理论(Information Bottleneck, IB),最初旨在解释机器学习模型如何在训练过程中压缩输入数据并提取有用信息。其核心思想是:在输入X和输出Y之间找到一个中间表征T,使得T尽可能压缩X的信息,同时T尽可能保留与Y相关的信息。信息瓶颈实现了对输入信息的压缩,通过保留关键信息:确保压缩后的表示(representation)仍能有效预测输出,避免过度简化导致信息丢失。类似于奥卡姆剃刀的“如无必要,勿增实体”原则。


图 10. 信息瓶颈示意图.(a)信息瓶颈,(b)作为信息瓶颈的自编码器,以及(c)作为信息瓶颈的常规的多层神经网络. 图源:Ghojogh, Benyamin & Ghodsi, Ali. (2024). PAC Learnability and Information Bottleneck in Deep Learning: Tutorial and Survey. 10.31219/osf.io/vqxh8.


而信息瓶颈理论的具体工具,例如自编码器(autoencoder),可通过无监督学习实现数据的低维表示。自编码器通常由以下三个部分组成:编码器(将输入X映射到低维表示T即“瓶颈层”)、潜在表示与解码器(将T重构为输出X,尽可能接近原始输入X)。自编码器的瓶颈层强制数据通过低维表示,类似于信息瓶颈中的压缩过程。自编码器这种通过低维表示和重构误差优化实现信息压缩的方式,符合奥卡姆剃刀对复杂性的约束。而后来出现的变分自编码器,进一步将信息瓶颈与概率建模结合,通过最大化证据下界实现信息压缩,对应贝叶斯推断下的奥卡姆剃刀。


图 11. 智能系统结构与工作原理. 来源:Wolff G. Information compression as a unifying principle in human learning, perception, and cognition, and as a foundation for the SP Theory of Intelligence. Research OUTREACH . 2019;(109).


至于多位学者(如Hinton、Schmidhuber等)提出的“压缩=智能”(Compression as Intelligence),其核心逻辑是智能系统能够从大量数据中提取关键规律,忽略冗余信息。例如,人类可以从少量示例中学习通用规则(如语言语法)。压缩不仅仅是减少数据量,更重要的是发现数据背后的潜在规律(如物理定律、统计模式)。通过压缩得到的简洁规律能够推广到新场景,解决未见过的问题。不止机器,大脑也通过压缩信息(如抽象概念)实现高效记忆和推理。和奥卡姆一样,“压缩=智能”都强调了简约性在智能行为中的核心作用。


在可解释机器学习领域中,同样存在偏好简单的模型(线性模型或决策树),例如局部可解释模型(LIME)、SHAP值。


图12. LIME示意图. 图源:Tyagi, Swati. (2022). Analyzing Machine Learning Models for Credit Scoring with Explainable AI and Optimizing Investment Decisions. 10.48550/arXiv.2209.09362.


局部可解释模型:当无法全局使用简单模型时,在局部区域内用简单模型(如线性模型)近似复杂模型的决策,从而提供对预测结果的直观解释。


图13. SHAP 模型示例。

a)使用SHAP的事件分类器的局部解释的示意图。

b)使用瀑布图本地解释。

图源:Pezoa, Raquel & Salinas, Luis & Torres, Claudio. (2023). Explainability of High Energy Physics events classification using SHAP. Journal of Physics: Conference Series. 2438. 012082. 10.1088/1742-6596/2438/1/012082.


SHAP值:通过博弈论方法,分配每个特征对模型预测的贡献,将模型的预测结果分解为各个特征的贡献值之和,既适用于单个预测,也可以用于整个数据集的全局解释。


这些对局部/单个输入重要性进行量化的方法,说明奥卡姆剃刀在可解释机器学习中的应用体现为一种简约性与解释力的平衡。


约束简约性与组件简约性


然而,“简约性”是一个多维度的概念,当人们谈论模型的简约性时,对其有不同的甚至相互矛盾的看法。


有时,人们会将“简约性”(Parsimony)和“稀疏性”(Sparsity)混淆,但两者在模型设计中具有本质区别。


具体来看,稀疏模型虽然有许多参数,但大部分参数为零或接近零,只有少数参数对给定模型的输入敏感。因此,一个稀疏模型并不比一个参数较少但对多种输入都有响应的密集模型更简约。


最近发表在《美国国家科学院院刊》(PNAS)上的一篇论文[3],区分了两种不同的简约性——约束简约性组件简约性


图14. 约束简约性与组件简约性。

左图对应“约束简约性”。简约性更强的模型(黄色)对事件的概率分配集中在较小的范围内,而更复杂的模型(紫色)则广泛地分散其预测。下:简约性更强的模型(黄色)捕捉到更少的现象子空间,而更复杂的模型(紫色)可以容纳这些现象。

右图对应“组件简约性”。上:简约性更强的模型(黄色)使用比更复杂模型(紫色)更少的输入变量。下:简约性更强的模型(黄色)假设比更复杂模型(紫色)更少的潜在变量/原因。图源:Dubova M, Chandramouli S, Gigerenzer G, et al. Is Ockham’s razor losing its edge? New perspectives on the principle of model parsimony. Proc Natl Acad Sci U S A . 2025;122(5):e2401230121. https://doi.org/10.1073/pnas.2401230121



所谓“约束简约性”,通常体现为具有较少参数或有效参数的模型,具有较少表达性的函数形式、更精确的先验分布、更短的描述长度,以及更低的秩或其他标准。建模者常会意识到目标现象与模型之间的差距,当这种差距存在时(无论是故意还是无意),模型就会过拟合,继而引发“不适用”问题。在其他条件相同的情况下,受约束较少的模型可以从数据中提取更多的模式,因此通常面临不适用的风险较低。


而“组件简约性”,将模型的复杂性定义为具有有意义的组件的数量。其中组件可以包括变量的类型或实例、独立原因或模型中表示的不同过程。


建模人类语言为例,一个组件精简的模型会试图用一套最小的语法规则来解释人类语言的丰富性。例如,乔姆斯基的普遍语法学说提出,少量的基本规则可以解释世界各地使用的各种语言的广泛多样性。反之,一个不那么精简的模型,所使用的语法规则更大,虽然可能更精确地解释不同语言的结构,但其组件更为复杂,假设了更多的规则。


区别了两种简约性,能更清晰地理解何为简洁模型。心理学和神经科学研究中,认知实验常通过控制和观察特定的实验条件,研究人类或动物的认知功能,如感知、记忆、注意力、决策等。类似地,在深度学习领域,这又被称为“消融研究”(ablation study),即将模型视为参与者,系统地移除模型的一部分以评估其对性能的影响,从而获得对复杂模型的洞察,由此判断究竟是简单模型还是复杂模型。


例如,在评估一种未经测试的药物的效果时,如果忽略因果图上的关键中介变量,可能会得出完全不同的结论。例如,某种药物可能通过中介变量(比如药物在体内的代谢过程)间接影响治疗效果,但如果忽略了这一点,我们可能会错误地认为药物无效或效果显著。因此,为了更准确地代表和解释世界,往往需要使用因果发现,增加模型的复杂性。


再举一个例子,乐高的价格和包装盒上标注的“最小年龄”是否相关?如果只简单看这两个变量,可能会得出“年龄越大,价格越高”的结论。但实际上,这种相关性可能取决于重要的中介变量,比如乐高零件的数量和重量。更复杂的乐高套装通常零件更多、重量更大,因此价格更高,但也可能更适合年龄较大的孩子。要解释价格与“最小年龄”两者间的关系,就需要引入更多中介变量,构建更复杂的模型,但这是必要的。


复杂性视角下,

奥卡姆剃刀依旧宝刀未老吗?


近来,复杂的数据驱动型人工智能(AI)模型的兴起,向简洁假设发起了挑战。以AlphaFold为例,这一突破性技术通过高精度预测蛋白质结构,彻底改变了生物学领域。这些依赖大量数据和复杂架构的 AI 系统,已经在许多领域超越了更简单、更传统的模型。


在语言学研究方面,乔姆斯基试图通过一套“节俭”的普遍语法规则,来解释人类语言的丰富性和表达性。而大语言模型(LLMs)则采用了截然不同的路径:没有强烈的先验假设,而是从大量数据中学习,生成人类样式的连贯文本。尽管这些模型非常复杂,但提供了传统理论无法提供的科学见解。


那么,奥卡姆剃刀依旧有讨论的价值吗?


Marina Dubova等人认为,过于严格地遵循奥卡姆剃刀原则,可能会错过有价值的见解,甚至导致模型出现错误。例如,在神经科学中,用简单模型解释实时脑扫描,结果往往是检测到大脑呈周期性活动模式,而实际上,脑活动是随着时间逐渐变化的。这些简单模型依赖于对脑功能的简化假设,未能考虑到神经过程的复杂性。同样,在药理学中,如果忽略了患者年龄、遗传背景或既往健康状况等重要特征,可能会导致药物模型对特定个体的反应预测不准确。


此外,复杂模型灵活性更高,能够考虑到简单模型可能忽略的广泛因素和相互作用。这种灵活性在气候研究等复杂系统中尤为明显,这些领域中的模型通常会包含从大气动力学到洋流等各种各样的变量。有趣的是,最近的研究发现,基于集合的方法,即整合多个不同模型,其气候预测的准确性相较依赖单一模型要好得多。尽管这些模型在某些方面可能会相互矛盾,但通过汇集它们的见解,能够为研究者提供更为丰富和可靠的气候模式理解。


但是,简约性也确实引领了科学的发展。以爱因斯坦为例,他对简约性很是推崇。他有一句格言:“万事万物都应尽可能地简洁,但不能于简单。”具体到他要解决的问题,爱因斯坦指出:从简单的理论出发生成复杂的输出很容易,但通常逆向由复杂输出推出简单模型就很难。因为即使错误的理论也能做出正确的预测,而且总会存在无限数量的理论(其中大多数尚未被构想出来)能够正确解释任何有限数量的观测数据。因此,逆问题没有唯一解。


在1905年发表他的狭义相对论方程后,爱因斯坦努力寻找能够包含重力和加速度的相对论定律。他最初的方法是追求完整性——试图让理论包含尽可能多的数据——而不是简单性。他构建了尽可能包含更多观测数据的方程,然后试图从这些方程出发,反向构建一个简单的统一理论。然而,在花费了大约十年的时间,不成功地研究了一个又一个复杂的方程之后,爱因斯坦最终改变了策略,只研究最简单和最优雅的方程的方法,并在之后才将它们与物理事实进行测试。这最终让他成功发现了广义相对论。而这段经历也促使他重新评估了简单性在科学中的作用,并为理论构建中奥卡姆剃刀的有用性提供了宝贵的见解。他写道:


“一个理论可以通过经验来检验,但无法从经验出发构建一个理论,[并且]如此复杂的方程只能通过发现一个逻辑上简单的数学条件来确定,该条件完全或几乎完全决定了这些方程。”


只不过,之后爱因斯坦一直醉心于大一统理论,试图用一个方程来解释所有物理学。但爱因斯坦之后的物理学研究却一无所获,这未尝不说明过度依赖简约性假设,同样是引入了不必要的实体(简单的最美),偏离了奥卡姆剃刀的原意。值得注意的是最近因斯坦称之为他“最大失误”的宇宙学常数(不够简洁),最近又以暗能量重新出现。


类似的简约性原则在近来的生命科学领域同样得到了印证。以神经科学为例,工作记忆计算模型包括成千上万个神经元,这些神经元的学习动力学由它们所在区域决定。从单个神经元及其相互作用的层面上解释困难重重,但当我们抽象到脑区层面,该模型就能够清晰地解释工作记忆现象。


生命系统,则提供了另一个典型案例。虽然生命现象本身极其复杂,但对其的解释却可以相对简单。以元胞自动机为例,元胞自动机由大量简单的单元(元胞)组成,每个元胞根据局部规则和邻居状态更新自身状态。尽管规则极其简单(如康威的“生命游戏”仅用几条规则),却能涌现出复杂的全局行为(如自组织、模式形成)。


这些研究表明,复杂系统的行为并不一定需要复杂的全局控制或额外假设,而是可以通过简单的局部规则和最小化的实体来实现。这正是奥卡姆剃刀的精髓:用尽可能少的假设和规则解释现象。人工生命研究的进展也进一步表明,即使是基于规则构建的虚拟生物,也能展现出智能和适应性行为,生动地展示了简约性与复杂性的辩证统一。


总而言之,对人工智能时代奥卡姆剃刀原理的讨论,启发我们用新的思考方式来解决科学问题。多种多样的模型可以贡献出更全面的理解,研究人员不应受限于单一简单的解释。简约性和复杂性,并非对立的概念,而是互补的工具。科学家在探索问题时,需要根据具体的研究背景、证据以及问题的需求,审慎地决定何时采用简约性,何时引入复杂性。


建模过程不仅要关乎建模者的目标和背景,还取决于科学本身的演进。人工智能时代,统计学、计算机科学、认知科学及其他领域的的不断进展,正在重塑我们对简约性与复杂性的认知:简约性并非万能,复杂性也非累赘,关键在于如何根据问题的本质与需求,在两者之间找到动态平衡。而科学的未来,就在于如何在简约与复杂之间,找到那条通向更深刻理解的道路。


1. https://www.thecollector.com/ockham-mental-language-speaking-minds/

2. https://academic.oup.com/brain/article/145/6/1870/6575832?login=false

3. Dubova M, Chandramouli S, Gigerenzer G, et al. Is Ockham’s razor losing its edge? New perspectives on the principle of model parsimony. Proc Natl Acad Sci U S A . 2025;122(5):e2401230121. https://doi.org/10.1073/pnas.2401230121





关于追问nextquestion

天桥脑科学研究院旗下科学媒体,旨在以科学追问为纽带,深入探究人工智能与人类智能相互融合与促进,不断探索科学的边界。如果您有进一步想要讨论的内容,欢迎评论区留言,或后台留言“社群”即可加入社群与我们互动

关于天桥脑科学研究

天桥脑科学研究院(Tianqiao and Chrissy Chen Institute)是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一,围绕全球化、跨学科和青年科学家三大重点,支持脑科学研究,造福人类。

Chen Institute与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室;与加州理工学院合作成立了加州理工天桥神经科学研究院。

Chen Institute建成了支持脑科学和人工智能领域研究的生态系统,项目遍布欧美、亚洲和大洋洲,包括学术会议和交流夏校培训AI驱动科学大奖、科研型临床医生奖励计划、特殊病例社区、中文媒体追问等。


原文链接