第十四章视觉觉知

[英]弗兰西斯.克里克《惊人的假说》

第十四章视觉觉知（1）

“宇宙就像一部展现在我们眼前的伟大的著作。哲学就记载在这上面。但是如果我们不首先学习并掌握书写它们所用的语言和符号，我们就无法理解它们。”

——伽利略

现在让我们总瞰一下到目前为止我们所涉及到的领域。本书的主题是“惊人的假说”——即我们每个人的行为都不过是一个拥有大量相互作用的神经元群体活动的体现。克里斯托弗·科赫

（Christof Koch）和我认为探索意识问题的最佳途径是研究视觉觉知，这包括研究人类及其近亲，然而，人们观看事物并不是一件直截了当的事情，它是一个建设性的、复杂的处理过程。心理学研究表明，它具有高度的并行性，又按照一定的顺序加工，而“注意”机制则处于这些并行处理的顶端。心理学家们提出过若干种理论试图来解释视觉过程的一般规律，但没有一种更多地涉及脑中神经元的行为。

脑本身是由神经元及大量支持细胞构成的。从分子角度考虑每个神经元都是一个复杂的对象，常具有无规则的、异乎寻常的形状。神经元是电子信号装置。它们对输入的电学和化学信号快速地作出反应，并将它们的高速电化学脉冲沿轴突发送出去，其传送距离通常比细胞体直径还要大许多倍。脑中的这些神经元数目巨大，它们有许多不同的类型。这些神经元彼此具有复杂的连接。

与大多数现代计算机不同，脑不是一种通用机。在完全发育好以后，脑的每一部分完成某些不同的专门任务。而另一方面，在几乎所有的反应中，都有许多部分相互作用。这种一般性观念得到了人脑研究的支持，这些研究包括对脑损伤者的研究以及使用现代扫描方法从头颅外进行的对人脑的研究。

视觉系统的不同的皮层区的数目比人们所预料的要多得多。它们按一种近似等级的方式连接而成。在较低级的皮层区，神经元到眼睛的连接最短，它们主要对视野中一小块区域中的相对简单的特征敏感，尽管如此，这些神经无也受该区域所处的视觉环境影响。而较高级皮层区的神经元则对复杂得多的视觉目标（如脸或手）有反应，对该物体在视野中的位置并不敏感。（目前看来）似乎并不存在单独的皮层区域与视觉觉知全部内容相对应。

为了理解脑如何工作，我们必须发展出描述神经元集团间如何相互作用的理论模型。目前这些模型对神经元进行了过分的简化。尽管现代计算机比其上一代在运算速度上快得多，也只能对数目很少的一群这类简化神经元及其相互作用进行模拟。尽管如此，虽然这些不同类型的简化模型仍显原始：却经常表现出一些令人吃惊的行为。这些行为与脑的某些行为有相似之处。它们为我们研究脑所可能采取的工作方式提供了新的途径。

以上是背景知识。在此基础上，我们着手解决视觉觉知问题，即：如何从神经元活动的角度来解释我们所看见的事物。换句话说，视觉觉知的“神经关联”是什么？这些“觉知神经元”究竟位于何处呢？它们是集中在一小块地方还是分散在整个脑中？它们的行为是否有什么特别之处？

作为开始，让我们首先回顾一下第二章曾概述的各种观点。视觉觉知究竟包括哪种心理学处理过程呢？如果我们能够找出这些不同的处理过程在脑中的确切位置，那或许会对定位我们所寻找的觉知神经元有所帮助。

菲力普·约翰逊- 莱尔德认为，脑和现代计算机一样，具有一个操作系统。该操作系统的行为与意识相对应。他在著作《心理模型》（Mental Medels）一书中，从更加广阔的背景下提出了这一思想。他认为，有意识和无意识过程的区别在于后者是脑中高度的并行处理的结果。正如我已在视觉系统中所描述的那样，这种并行处理就是大量的神经元能够同时工作，而不是序列式地一个接一个地处理信息。这才能使有机体有可能进化成具有特殊的、运转快速的感觉、认知及运动系统。而更为序列式的操作系统对所有这些活动进行全局控制，这样才能够快速、灵活地作出决定。粗略地打个比方，这就好像一个管弦乐队的指挥（相当于操作系统）控制着乐队所有成员同时演奏一样。

约翰逊-莱尔德假定，虽然这个操作系统可以监视它所控制的神经系统的输出，它能利用的只是它们传递给它的结果，而不是它们工作的细节。我们通过内省只能感觉到我们脑中所发生的情形的很少的一部分。我们无法介人能产生信息并传给脑的操作系统的许多运作中。因为他将操作系统视为主要是序列式的，所以他认为，“在内省时，我们倾向于迫使本来是并行的概念进入序列式的狭窄束缚中。”这是使用内省法会出现错误的原因。

约翰逊-莱尔德的观点表达得很清楚，又很有说服力。但是，如果我们希望从神经的角度理解脑，还必须要识别该操作系统的位置和本质。它不一定与现代计算机的许多特性相一致。脑的操作系统可能并不是清晰地定位于某一特殊位置上。从两种意义上说，它更像是分布式的：它可能涉及脑中相互作用的若干分离的部分，而其中某一部分的活动信息又会分散到许多神经元。约翰逊- 莱尔德对脑的操作系统的描述使人多少想起丘脑，但是丘脑的神经元太少了，以致于无法表达视觉觉知的全部内容（虽然这是可以验证的）。似乎更有可能的是，在丘脑的影响下新皮层的部分神经元（而不是全部神经元）可以表达视觉觉知。

我们寻找的觉知的神经关联会处于脑功能等级的哪个阶段呢？约翰逊- 莱尔德认为，操作系统处在处理等级的最高层次，而雷·杰肯道夫认为觉知与中间层次有更多联系。究竟哪种观点更合理呢？

杰肯道夫关于视觉觉知的观点 ①是基于戴维·马尔（Davidmarr) 的2.5维图而不是三维模型的思想的（大致说是第六章所描述的以观察者为中心的可见表面的表象）。这是由于人们直接感受到的只是视野中物体呈现的那一侧；物体后面存在看不见的部分则仅仅是推测。另一方面，他相信对视觉输入的理解（即我们感觉到的是什么）是由三维模型和“概念结构”（conceptua1 structure，是思维的另一种堂皇的说法）决定的。以上就是他的意识的中间层次理论。

下面的例子会有助于理解这个理论。如果你看见一个背对着你的人，你只能看见他的后脑勺，而看不见他的脸。然而，你的脑会推断出他有一张脸。我们会这样进行推理，因为如果他转过身来，表明他的头的正面并没有脸，你会感到十分惊讶的。以观察者为中心的表象是与你所看见的他的头的后部相对应的。这是你所真实感觉到的。你的脑所做出的关于其正面的推断是从某种三维模型表象得到的。杰肯道夫认为你并不直接察觉这个三维模型（就此而言，同样你也没有直接察觉你自己的思想）。正如一句古诗所说：未闻吾所言，安知吾所思？

由于初读杰肯道夫的著作 ①时不容易理解他的语言，我把他的理论的倒数第二种说法放在脚注中。②如果我对他的理论的理解是正确的话，他的观点应用于视觉即是“形态上的差异”（包括一个视觉目标的位置、形状、颜色、运动等）是与一种短时记忆有关（或由它引起／支持／投射）的表象，这种表象是一种“胜者为王”机制（一种选择机制）的结果，而注意机制的作用则使它更加丰富。

杰肯道夫的观点的价值在于，它提醒我们不要假设脑的最高层次必定是视觉觉知中涉及的唯一层次。我们面前的场景在脑中的栩栩如生的表象可能涉及了许多中间层次，其他层次可能不够生动，或者如他所推测，我们可能根本不能察觉它们（的活动）。

这并不意味着信息仅仅是从表面表象流向三维表象；几乎可以肯定双向流动是存在的。在上面的例子中，当你想像一张脸孔的正面时，你所感觉到的正是由无法感知的三维模型产生的可感知的表面表象。随着这一主题的发展，两种表象之间的区别或许还需进一步明确，但它对我们试图解释的问题给出了一种最初的、粗略的看法。

目前尚不清楚这些层次在皮层中的准确位置。就视觉而言，它们更可能对应于脑的中部（如下颞叶及某些顶区），而不是脑的额区，但是杰肯道夫所指的究竟是视觉等级系统（见图52）中哪个部分，这仍有待于探索（第十六章将就此作更详细的讨论）。

在看了一些心理学家对这个问题的观点之后，我们现在再从那些了解神经元、它们的连接以及发放方式的神经科学家的角度来看这个难题。与意识有关（或无关）的神经元的行为的一般特征是什么？换句话说，意识的“神经关联”是什么？从某种意义上说，神经元的活动对意识是必不可少的，这看起来是合理的。意识可能与皮层中某些神经元的一种特殊类型的活动有关。毫无疑问它会具有不同的形式，这取决于皮层的哪些部分参与活动。科赫和我假设其中仅有一种（或少数几种）基本机制。我们认为，在任意时刻意识将会与瞬间的神经元集合的特定活动类型相对应。这些神经元正是具有相当潜力的候选者的集合中的一部分。因此，在神经水平上，这个问题即为：

·这些神经元在脑中位于何处？

·它们是否属于某些特殊的神经元类型呢？

·如果它们的连接具有特殊性，那是什么？

·如果它们的发放存在某些特殊方式，那是什么？

怎样去寻找那些与视觉觉知有关的神经元呢？是否存在某些线索暗示了与这种觉知相关的神经发放的模式呢？

正如我们已经看到的，心理学理论对我们有若干提示。某些形式的注意很有可能参与了觉知过程，因而我们应当研究脑选择性注意视觉目标的机制。觉知过程很有可能包括某些形式的极短时记忆，因而我们还应探索神经元贮存和使用这种记忆时的行为。最后，我们似乎可以一次注意多个目标，这对觉知的某些神经理论提出了问题，因此我们从论述这个问题开始。

当我们看见一个物体时，脑子里究竟发生了些什么呢？我们会看到的可能存在的、不同的物体几乎是无限的。不可能对每个物体都存在一个相应的响应细胞（这种细胞常被称为“祖母细胞”）。表达如此多具有不同深度、运动、颜色、朝向及空间位置的物体，其可能的组合大得惊人。不过这并不排除可能存在某些特异化的神经元集团，它们对相当特定的、生态上有重要意义的目标（如脸的外貌）有响应。

似乎有可能的是，在任意时刻，视野中每个特定的物体均由一个神经元集团的发放来表达。①由于每个物体具有不同的特征，如形状、颜色、运动等，这些特征由若干不同的视觉区域处理，因而有理由假设看每一个物体经常有许多不同视觉区域的神经元参与。这些神经元如何暂时地变成一个整体同时兴奋呢？这个问题常被称为“捆绑问题”（binding problem)。由于视觉过程常伴随听觉、嗅觉或触觉，这种捆绑必然也出现在不同感觉模块之间。②

我们都有这种体验，即对物体有整体知觉。这使我们认为，对于已看见的物体的不同特征，所有神经元都产生积极的响应，而脑则通过某种方式相互协调地把它们捆绑在一起。换句话说，如果你把注意力正集中在与你讨论某个观点的朋友上，那么，你脑中有些神经元对他的脸部运动反应，有些对脸的颜色反应，听觉皮层中的神经元则对他的讲的话有反应，还可能有贮存的关于这张脸属于哪个人的那些记忆痕迹，所有这些神经元都将捆绑在一起，以便携带相同的标记以表明它们共同生成了对那张特定的脸的认知。（有时候脑也会受骗而做出错误的捆绑，比如把听到的口技表演者的声音当作是被模仿物发出的。）

捆绑有若干种形式。一个对短线响应的神经元可以认为把组成该直线的各点捆绑在一起。这种神经元的输入和行为最初可能是由基因（及发育过程）确定的，这些基因是我们远古的祖先的经验进化的结果。另一种形式的捆绑，如对熟悉物体的识别，又如熟悉的字母表中的字母，可能从频繁的、重复性的体验中获得，也就是说，是通过反复学习得到的。这或许意味着参与某个过程的大量神经元最终彼此有紧密的连接。①这两种形式的相当永久的捆绑可以产生一些神经元群体，它们作为整体可以对许多物体（如字母、数字及其他熟悉的符号）作出反应。但脑中不可能有足够多的神经元去编码几乎无穷数目的可感知的物体。对语言也是如此。每种语言都有大量但却是数目有限的单词，而形式正确的句子的数目却几乎是无限的。

我们最为关心的是第三种形式的捆绑。它既不是由早期发育确定的，也不是由反复学习得到的。它特别适用于那些对我们而言比较新奇的物体，比如说我们在动物园里看见的一只新来的动物。在多数情况下，积极地参与该过程的神经元之间未必有较强的连接。这种捆绑必须能够快速实现。因此它主要是短暂的，并必须能够将视觉特征捆绑在一起构成几乎无限多种可能的组合，只不过也许在某一时刻它只能形成不多的几种组合。如果一种特定的刺激频繁地出现，这种第三种形式的瞬间的捆绑终将会建立起第二种形式的捆绑即反复学习获得的捆绑。

遗憾的是，我们并不了解脑如何表达第三种形式的捆绑。特别不清楚的是，在集中注意的觉知时，我们究竟每次仅仅感知一个物体，还是可以同时感知多个物体。表面上看，我们每次能感觉的绝不只一个物体，但这是否可能是错觉呢？脑真的能如此快速一个接一个地处理多个物体的信息，以致它们好像同时出现在我们脑海中吗？也许我们每次只能注意一个物体，但在注意之后，我们可以大致记住其中几个。因为我们并不确切知道，所以我们必须考虑所有这些可能性。让我们先假设脑每次只能处理一个物体。

究竟哪种类型的神经活动可能与捆绑有关呢？当然，意识的神经关联可能仅仅包含一种特殊类型的神经元，比如说，某个特殊皮层上的一种锥体细胞。一种最为简单的观点是，当这个特殊神经元集团的某些成员以一个相当高的频率发放（比如大约4oo或500 Hz），或维持一段适当长时期的发放，此时觉知便出现了。这样，捆绑仅仅对应于皮层神经元中相当小的一部分，它们在皮层中若干不同的区域同时高频发放（或都发放很长一段时间）。看起来这会有两个结果：这种快速或持续性的发放将增强这个兴奋的神经元集团对所投射到的神经元的影响，而这些被影响的神经元则对应于此时脑所觉知的物体的“意义”。同时，这种快速的（或持续的）发放将激活某种形式的极短时记忆。

然而如果脑能同时精确地觉知不只一个物体，那么这种观点就不能成立。即便脑每次只处理一个物体，它也必须区分目标和背景。为了理解这一点，不妨想像在一个视野中靠近视觉中央的地方，恰好有一个红色的圆和一个蓝色的方块。那么，对应于觉知的某些神经元将会快速发放（或持续发放一段时间），有些标识红色，有些标识蓝色，其他一些标识圆，当然还有一些标识方块。脑又怎样知道哪种颜色与哪种形状相互搭配呢？换句话说，如果觉知仅仅对应于快速（或持续）的发放，脑多半会将不同物体的属性混在一起。

有许多方法可以解决这个困难。或许只有当脑注意某个物体时才会形成对它的生动的觉知。或许注意机制使对被注意的物体反应的神经元的活动增强，同时削弱对其他物体反应的神经元的活动。倘若如此，脑只能随着注意机制从一个物体跳跃到另一个物体，一个接一个地进行处理，毕竟，当我们转动眼睛时，情形是这样的。我们先注意视野中的一部分区域，然后转而注意另一区域，如此下去。由于我们不动眼睛就能同时看见多个物体，故注意机制的速度必须比上述情况要快，并能在眼的两次转动之间工作。

第二种替代的解释是，注意机制以某种方式使不同的神经元以多少不同的方式发放，此时的关键在于相关发放。①它基于这样一种观点，即重要的不仅仅在于神经元的平均发放率，更是每个神经元发放的精确时间，为简单起见，让我们仅仅考虑两个物体。

对第一个物体的特征反应的神经元都在同一时刻以某种模式发放，相应于第二个物体的神经元也都同时发放，但发放的时间与第一个神经元集团不同。

举个理想化的例子可以把这个问题讲得更清楚。假设第上集团中的神经元发放很快。或许它们还会再次发放，比如说是在l00 毫秒以后。同样，在第二簇发放后过100 毫秒又再次发放，如此下去。假设第二群神经元也同样每隔大约100 毫秒发放一簇高速脉冲，但是只在第一群神经元处于静息状态的时候才发放。这样，脑中的其他部分不会把这两群神经元的发放混在一起，因为它们从不会同时发放 ①。

此处的基本观点是：同时到达一个神经元的许多脉冲将比不同时刻到达的同样数目的脉冲产生更大的效果。②其理论要求是同一群神经元的发放有较强的关联，同时不同群的神经元之间关联较弱，甚至根本没有关联。③

*****

让我们回到我们的主要问题上。这就是定位“觉知”神经元并揭示使它们的发放象征着我们所看见的东西的机制是什么。这就像试图侦破一个神秘的谋杀案。我们了解受害者（觉知的本质）的一些线索，还知道可能与犯罪有关的许多杂乱的事实。哪方面进展看来最有希望呢？由此下一步又该怎么做呢？

最直接的线索将是在现场捉住嫌疑犯。我们能否发现那些行为一直与视觉觉知有关的神经元呢？一种可能的办法是设置一种环境（第三章描述过的观看内克（Necker) 立方体）使进入眼睛的视觉信息保持不变，但知觉却会发生变化。当知觉改变时，哪些神经元会改变其发放，或改变发放的方式，而哪些神经元却不会改变？如果一个特定神经元的发放不随知觉改变，这就提供了一个“它不在现场”的证据。另一方面，如果它的发放确实与知觉有关，我们还需确定它是“真凶”还是“从犯”。

让我们换一种策略。我们能否将案发地点限定在某个特定的城镇、一个区或建筑物中的单元呢？这将使我们的搜索变得更有效，在我们的问题中，即我们能否大致说出视觉觉知神经元在脑中可能的定位呢？显然，我们推测它在新皮层。虽然我们不能完全忽略新皮层的紧密的近邻，如丘脑和屏状核，以及在进化上比较古老的视觉系统（older visua1 system）和上丘，更不能忽略纹状体和小脑。视觉觉知不太可能存在于诸如听皮层等区域，因此我们可以将注意力主要集中在图48所示的许多视觉皮层区域。或许我们能发现证据表明某些区域比其他区域被更紧密地牵涉到视觉觉知。

这尚不足以找到凶手，但可能将我们引向正确的方向。罪犯可能是某种特殊类型的人。比如说，一名强壮的男子，一名心理失常的青少年，或者一群匪徒？在此处，可能涉及到哪些类型的神经元呢？是兴奋性神经元？还是抑制性神经元？是星形细胞，还是锥体细胞？如果它们是在皮层上，那么在皮层中哪一层或哪些层才能找到它们呢？

另一种策略将是寻找他们之间是否有某些形式的通讯联系，从而使之露出马脚。如果这是一帮匪徒所为，他们是否在汽车里使用了移动电话？用神经学的术语说，觉知是否依赖于仅仅出现在脑中特定位置上的某些特别形式的神经回路呢？

或许有人会寻找犯罪的动机。凶手犯罪能得到某种利益吗？他是否能得到经济上的好处呢？倘若如此，赃款被运到哪里去了呢？如果我们能在那里找到的话，我们或许就能跟踪追查到凶手。用神经的术语讲，视觉信息被发送到脑中的哪些部位？这些部位又是如何与皮层视觉区域连接的呢？

此外，有人会问是否有某些特殊的行为将我们引至嫌疑犯。这或许是神经元群之间的相关发放，或许是这种或那种形式的节律或模式发放。如果我们怀疑是一群匪徒，谁最可能是头目呢？谁决定匪徒们的行动？我们相信，觉知过程中经常涉及到脑对哪种解释最为合理进行判断。这可能是一种包含某些神经元集团的一种“胜者为王”机制，如果我们能发现这种机制，那么胜者的神经本质也许能将我们指向觉知神经元。作案时是否用过什么特殊的武器呢？正如前面所述，我们很有把握地猜测极短时记忆是觉知的本质特征。同时某些形式的注意机制或许协助产生生动的觉知，因此，我们所知道的关于这些在神经水平的工作的任何知识都将把我们引向正确的方向。

简单他说，通过大量的实验手段能从观念上将我们引导到所寻找的神经元及它们的行为。现阶段，因为我们要解决的问题十分困难，我们不能忽略任何哪怕看起来只有很少希望的线索，现在让我们更仔细地检查这些不同的途径的本质。

①视觉觉知（visua1 aWareness）。在本书中，consciousness和awareness的意思都是意识，只是前者作为范围更广的、比较书面化的词，而后者则更多用于感觉系统（特别是视觉系统），是比较口语化的词（见第一章脚注），在本书的第一和第二部分，它们均译作“意识”，并不引起歧义。但在第三部分当中，作者以visual awareness作为 consciousness研究的突破口，需区分这两个词。故在第三部分（第十四至十八章）中特将awareness按心理学中译为觉知。——译者注

①将杰肯道夫的观点归纳起来而不曲解他的意思，这并不容易。如果读者希望进一步理解，可以查阅他的书。我并不打算叙述他对音韵学、句法、语义等方面的论点以及他在音乐认知方面的见解。相反地，我将试图精炼他的基本观点，特别是它们在视觉上的应用。

①希望精确理解杰肯道夫的话的读者可以查阅他的著作。（他的理论的最终版本，即理论八．还谈到了情感。）

②他的原话是：“每种觉知形式所表达的形态上的差异是由对应该形式的中间层次的结构引起／支持／投射的。该结构是短时记忆表象的匹配集的一部分，而这种表象则是由选择机制指派的，并为注意处理所丰富。特别地，语言觉知是由音韵结构引起／支持／投射的，音乐觉知则对应于音乐表面，视觉感知来自2．5维图。”

①如果一个集团中的神经无空间上离得很近（意味着它们可能有某种相互连接），接受有些相似的输入，并投射到多少有些相似的区域，那便不会引起任何特别的困难。在这种情况下它们就像是单个神经网络中的神经元。令人遗憾的是，通常这种简单的神经网络每次只能处理一个目标。

②现在还不能完全肯定捆绑问题如我所说的那样真的存在，还是脑通过某种未知的技巧绕了过去。

①回忆一下，大多数皮层神经元具有成千上万的连接，其中很多在开始时很弱，这意味着只有当脑已经大致按正确方法构造好，才可能容易地、正确地进行学习。

①这一观点是克里斯托夫·冯。德·马尔斯博格（christoph von der malsburg)在1981 年的一篇相当难懂的文章中提出的。此前，彼得·米尔纳（Peter Milner)及其他人也曾叙述过。

①当然，一个群内轴突的脉冲并不必彼此精确同步。当电位变化沿接受脉冲的神经元的树突传向细胞体时，从时间上看它们的效果会有所扩散。此外，当脉冲沿许多不同轴突传播的时间延迟也有不同。这样，一群神经元的发放时间只需在大约几毫秒范围内是同时的。

②一种稍微详尽的理论引人了轴突传递过程中这种必然发生的时间延迟，使得离细胞体较远的突触比较近的略早地接受到输入，这样，由于树突延迟时间上的小的差异，两个信号的最大效应将同时达到细胞体。更为详细的理论还考虑局部的抑制性神经无产生的抑制性效果的调节。所有这种定性的考虑应可通过小心的模拟定量化，如在计算机上模拟单个神经元在这种环境下的行为方式，并引人时间延迟等因素。

③这种发放下太可能像图57表示的那样有规则。

目录页

冥王E书@2004