学习的本质（一）：我以为自己学会了

一

去年年底的某个晚上，我坐在书桌前翻开一本三个月前读过的认知科学教材。

我记得读那本书的感觉。荧光笔划了很多线——黄色的、橙色的、绿色的。页边写满了"精彩""重要""核心"。我记得合上书时那种饱足感：嗯，这本我吃透了。

但那个晚上，当我试图向一个朋友解释书里的核心概念时，我张了张嘴，什么都说不出来。

不是忘了某个细节。是整块的东西不见了。像一栋楼的地基被抽走，连碎片都没留下。

我重新翻开书，看到那些荧光笔痕迹——它们还在，但我跟它们之间已经没有任何联系了。那些标记像是另一个人留下的。

这个感觉让我非常不舒服。不是因为忘了——谁都会忘事。让我难受的是那种"被骗了"的感觉。读的时候明明很顺，划线的时候明明觉得自己在"学"。那种流畅感从哪来的？它为什么会骗人？

二

2015年，认知心理学家 Soderstrom 和 Bjork 做了一件挺重要的事：他们把 performance 和 learning 这两个词拆开了。

Performance 是你学习当下的可观察表现——答题正确率、反应速度、那种"我懂了"的主观感觉。Learning 是持久的认知结构改变——三个月后你还能不能用，换个场景还能不能迁移。

这两个东西在日常语言里几乎是同义词。但在认知科学里，它们可以完全背离。

Roediger 和 Karpicke 在 2006 年做了一个实验。两组学生学同一份材料——一组反复阅读四次，另一组读一次然后做三次回忆测试。五分钟后考，反复阅读组更好。一周后再考，做测试那组大幅胜出。

五分钟后的成绩是 performance。一周后的才是 learning。它们指向相反的方向。

回到我那本满是荧光笔的书。我当时做的事情——反复阅读、划线、写"重要"——全都在提升 performance。每一次重读都让我对材料更熟悉，产生更强的流畅感。但这种流畅感只是识别信号——"这个我见过"——不是理解信号——"这个我能用"。

坦率的讲，我在做一场表演。观众是我自己。

动手玩

流畅感的代价

拖动时间滑块，看两组学生学完同一份材料后，得分如何随时间变化。

当前 5 分钟　重复阅读 88　·　自我测试 65 流畅感正在领先——这就是「我会了」的感觉。

数据 / 来源：Roediger & Karpicke (2006) Test-Enhanced Learning · 中间曲线为叙事插值，非逐时实验采样

三

如果你做过机器学习，这里有一个你一定认识的结构。

你训练一个模型，在训练数据上表现完美——准确率 99%，loss 趋近零。你兴冲冲拿去跑新数据，崩了。模型记住了训练数据里的噪声和表面模式，但没提取到真正的规律。这叫过拟合。

反复阅读时我的大脑在做什么？它在记住那些具体的句子、具体的页面位置。就像过拟合的模型记住了训练样本的每个细节。当我翻回同一本书时，这些记忆让我产生"我知道这个"的感觉。但换了情境——需要对别人解释、遇到类似但不完全相同的问题——什么都拿不出来。

训练集上的高表现 = 学习时的流畅感。测试集上的崩溃 = 三个月后的张口结舌。

不过这里有个重要的限定。人脑不是神经网络。机器学习里的过拟合是一个统计问题——模型复杂度和数据量的不匹配。而我的"假学会"更多是一个策略问题——我选择了错误的学习方式。这个区别很重要。但两者共享一个深层逻辑：系统适配了局部环境的表面特征，没有提取出可迁移的深层结构。

那怎么办？

四

答案反直觉到让人不舒服。

Bjork 在 1994 年提出了一个概念叫 desirable difficulties——合意困难。说白了就是：学习过程中刻意给自己制造某些类型的困难，短期内表现会更差，但长期来看学得更深更牢。

具体有四种经过反复验证的做法。间隔——别集中突击，把学习分散到不同时间，每次重新捡起来都有点费劲，这个费劲是好事。测试——别光看笔记，合上书试着回忆，回忆不出来没关系，那个挣扎本身在加深编码。交错——别把同一种题做一百遍，把不同类型混着做，混乱感是好事。生成——别等答案送到眼前，先自己试着给一个答案，哪怕是错的。

这四种做法有一个共同特点：它们让学习变得更难受。

和我那个荧光笔的晚上形成了精确的对照。划线时零痛苦、纯流畅，三个月后什么都不剩。如果当时合上书，强迫自己不看地回忆核心要点——哪怕只想起来 30%——那 30% 可能现在还在。

说真的，这个发现让我生气。不是对研究者生气，是对自己。我花了多少时间做那种"舒服的学习"？那些读了就忘的书、刷了就过的课、记了就丢的笔记——它们给了我"我在进步"的幻觉，但什么都没真正留下。

五

让我觉得这件事不只是一个学习技巧的是，同一个原理在完全不同的领域被独立发现了。

免疫学里有疫苗。你注射一个弱化的病原体进入身体——显然让身体"不舒服"了。但正是这个经过精心设计的困难，触发了适应性免疫应答。身体不只是扛住了这次攻击，而是变得比攻击之前更强。加强针的间隔——两针之间等几周——和间隔学习的逻辑一样。

运动生理学里有超补偿。肌肉在训练后受到微损伤，恢复过程中蛋白质合成增加，肌肉变得比训练前更强。没有困难就没有生长。但过度训练会受伤——困难必须适度。

机器学习里有 dropout。训练时随机关掉一部分神经元，逼模型不能依赖单一路径，被迫学习更鲁棒的特征。训练表现变差了，但泛化能力变强了。

四个领域——认知心理学、免疫学、运动生理学、机器学习——四群互不认识的研究者，独立走到了同一个地方：系统通过应对适度困难而变得更强。前提是困难不超过系统的恢复能力。

Nassim Taleb 后来给这个通用模式起了名字叫反脆弱——不是抗打击，是被打了之后变得更强。

六

但"越难越好"是一个很危险的误读。

Bjork 说让学习更难。Sweller 说减轻认知负荷。看起来说反了。但想了一阵子我觉得调和点其实很精确：困难分两种。

一种是让你不得不深层加工信息的困难——合上书回忆、打乱练习顺序、自己生成答案。这是好的困难，它迫使大脑做更深的编码。另一种是纯粹浪费工作记忆的困难——教材排版混乱、指示不清、信息过载。这是坏的困难，什么学习都不会发生。

Vygotsky 将近一百年前就说了：学习必须落在"最近发展区"里——就是那个"自己够不到但有人拉一把就能够到"的区间。太容易了没有学习发生，太难了只有崩溃。

我得坦白说，在实践中我很难精确判断"这个困难是好的还是坏的"。这个判定本身可能有循环论证的嫌疑——怎么知道困难是合意的？因为它最终有效。怎么知道它会有效？因为它是合意的。但方向至少是清楚的：如果学得很轻松，大概率没在真学；如果学得痛苦但能看到进步，那才是在走。

关键是"能看到进步"。痛苦本身不是目的。

七

回到一个更基本的问题：为什么间隔学习比集中突击有效？为什么睡一觉比通宵有用？

大脑有一个精妙的双系统——计算神经科学家叫它互补学习系统（CLS）。海马体负责快速编码：你今天学的东西先草草记在海马体里，像一个临时便签本，速度快但容量有限，容易被新信息覆盖。新皮层负责慢速巩固：把海马体记下来的东西，慢慢整理、抽象、和已有知识编织在一起，写入长期档案。

关键环节是睡眠。睡觉时海马体把白天记录的信息"重播"给新皮层。一遍一遍地，把经验慢慢写入长期存储。

这就解释了为什么考前通宵是灾难性的学习策略——不是因为"休息好了脑子清醒"这么简单，而是你剥夺了大脑把便签转化为长期记忆的窗口。我大学有机化学那次通宵复习，海马体里有新鲜编码，所以第二天考试还行。但没有经过睡眠巩固的记忆，一周后就没了。师兄问我亲核取代反应时的一脸懵，说明那些东西从来就没写进长期存储。

间隔学习有效，一部分原因是每次间隔都给了一个睡眠巩固的窗口。不是一次性往大脑里灌，而是"学一点→睡一觉→再学一点→再睡一觉"——每一轮睡眠都帮你把知识从便签本搬进图书馆。

海马体把白天的信息重播给新皮层 — 睡眠中：海马体的便签被一遍遍重播给新皮层，慢慢写入长期档案

八

还有一件事我以前没想清楚。

"学会"这个词用起来太随便了。"我学会了有机化学"和"我学会了骑自行车"和"我学会了看人脸色"——这三个"学会"说的根本不是同一种东西。

哲学家 Ryle 在 1949 年就区分了"知道那是什么"（knowing-that）和"知道怎么做"（knowing-how）。Polanyi 又加了一层：默会知识——你知道但说不出来的东西。老中医把脉，手指搭上去就知道是什么脉象，但让他精确描述手指尖感受到什么，他说不清楚。不是不想说，是这种知识不住在语言里。

这意味着"怎么才能真学会"没有万能答案。对陈述性知识——历史年份、化学公式——间隔测试管用。但对程序性知识——弹钢琴、做手术——你需要的是刻意练习：在能力边缘反复练、有即时反馈、有意识调整。对默会知识，可能唯一的路径就是浸泡和时间。

Dreyfus 研究技能获得时发现，从新手到专家有五个阶段，最高阶段的特征是"不经过规则思考就能做对"——不是规则掌握得更熟了，而是根本不再用规则了。就像你开了十年车不会再想"先踩离合再挂挡"。

但经验年数不等于专长。Ericsson 反复强调过这一点：20 年经验的医生不一定比 5 年的好——如果那 20 年只是在重复而没有在边缘挑战自己。时间的流逝不等于学习的发生。

九

说到"表面学会 vs 真正学会"，还有一个让我觉得有意思的角度。

Argyris 研究组织学习时发现：组织也会"假学会"。他区分了单环学习和双环学习。单环学习是在不改变底层假设的情况下调整行为——产品卖不好就改广告策略。双环学习是质疑和修改底层假设本身——产品卖不好，问"我们对用户需求的假设是不是错了"。

这跟 Piaget 说的"同化"和"顺应"是一回事。同化是把新信息塞进已有框架——看到新动物说"又一种狗"。顺应是发现框架装不下了，不得不改框架本身——发现那个"狗"其实是狐狸。

不过同化不是坏事。一个有经验的医生把新病例归入已有诊断框架，这完全是正当的"真学会"。只有当问题需要框架本身改变，而框架拒绝改变的时候，同化才变成陷阱。

我们大多数人的问题是几乎从不做顺应。不断把新东西塞进旧框架，直到矛盾大到无法忽视。那个瞬间通常很痛——因为不只是在改一个想法，是在动摇自己赖以理解世界的结构。

还有一件讽刺的事值得一提。89% 的教师相信"学习风格"理论——你是视觉型还是听觉型还是动觉型。但 Pashler 等人的系统综述显示，把教学方法匹配到学生的学习风格偏好上，对学习效果的提升是零。一个专门教别人怎么学习的系统，自己"过拟合"了一个错误的信念还传了几十年。

还有一些我没想清楚的

远迁移。把一个领域学到的东西用到完全不同的领域。Detterman 翻了将近一个世纪的实验文献，结论让人不安：远迁移在实验室里几乎观察不到。

但人类文明本身就是大规模远迁移的产物——数学迁移到物理，物理迁移到工程，工程迁移到日常。如果迁移真的不可能，我们不会坐在这里。

可能的调和是：个体层面的远迁移确实罕见且昂贵——需要深厚的多领域知识、有意识的抽象、足够长的时间。实验室里给被试 30 分钟做的迁移测试，可能根本捕捉不到需要几年才能完成的那种迁移。

说实话我没有确定的答案。但方向可能是这样的：迁移不是自动发生的，它需要你刻意去寻找不同情境间的结构相似性。这很贵。这需要时间。

回到那本书

我现在偶尔还会想起那个翻开荧光笔的晚上。

不一样的是，那种"被骗了"的感觉变了。不是愤怒，更像是一种带着释然的清醒。

荧光笔还在抽屉里。我偶尔还是会划线——但那只是标记"这里值得回来"，不再是"我学完了"的仪式。读完之后我会合上书，拿出一张白纸，试着不看书地写下我刚才读到了什么。

写得出来的部分是我的。写不出来的，就是还没学会。

很简单的一个动作。但那种不舒服的感觉——笔停在空白纸上、脑子里一片模糊、不得不承认"我其实没记住"——我现在知道了，那就是学习正在发生的信号。

一

二

流畅感的代价

三

四

五

六

七

八

九

还有一些我没想清楚的

回到那本书

延伸阅读