深度学习发展史:开端

作者
发布于 2022-12-31 / 164 阅读
0
1

深度学习发展史:开端

深度学习的开端

本文将从三个视角带大家看看深度学习的开端,他们分别是

沃尔特·皮茨(Walter Pitts,1923-1969)

沃伦·麦卡洛克(Warren McCulloch,1898-1969)

诺伯特·维纳(Norbert Wienner,1894-1964)

因为沃尔特·皮茨是主要事件推动者,所以我们以沃尔特·皮茨的视角作为主时间线,在文章中为了方便大家理解事件,我们将三位先驱者以“小P”,“老M”,“老W”来亲称:

小P发展史

小P出生在美国底特律的一个极度贫困家庭,他的父亲是一位锅炉工,没有什么文化,对儿子的教育方式基本靠拳头,按照传统的天时地利人和分析的话,小P几乎不会再有什么大发展,也许找到一份稳定的工作,然后借着工作再找到一位贤惠的妻子便是我们认知中极好的一种发展方式了。

小P有一个特点,他喜欢接触新事物,对新事物和新知识的了解从来都是多多益善,他时常会被街上的小男孩们以各种理由抡出拳头,小P很气但是又干不掉对方,时常在挨打和快要挨打时跑到一家公立图书馆里寻求庇护,图书馆里要求安静,如果对方追着打进来咋就大叫,看到时候是谁的锅。小P的想法虽然是正确的,但是现在图书馆是出不去了,他就索性看书度过时间,先看图画,然后开始看字,就在这种围追堵截的方式中,小P学到了希腊文、拉丁文、数学、逻辑学等学科知识。

1935年的这天,小P被揍得逼不得已又逃向图书馆,被打得头昏脑胀的小P和往常一样准备看书度过时间,忽然一本名为Principia Mathematica(拉丁语:数学原理)的书映入了他的眼帘,因为相比其他书,这本书似乎制作的很用心,质量上乘到甚至闪闪发光,小P庆幸学过拉丁文,于是便坐下看了起来,书本的知识越看越奇特,不知道过了多久,小P一口气看完了2000多页的书,还找出了书中的多处错误。

小P很喜欢这本书,他认为应该告诉作者Russell这本书的错误,于是就给他写信。此时的小P还不知道Russell是什么人物,只知道自己喜欢这本书,有责任和义务去帮助修正错误,事实证明也正是这种负责任的心态,打开了小P前进大门的锁。

Russell在收到这位年仅12岁的少年的信时,惊为天人,一位12岁的少年不仅看懂了自己的作品,还找到了错误并写信给自己,深深触动后,立马回信,并在信中邀请小P到剑桥来当他的研究生。

小P收到回信后很高兴的告诉了父母,然而父母并不知道什么是剑桥,也不知道研究生的价值有没有一个铁匠职位来得高,总之就是不许他去剑桥,小P不服气便和父母讲道理,最后在父母的一通打击和一顿毒打后,此事不了了之。只是此时的小P的心态发生了变化,之前路边小男孩的打和父母在他犯错后的毒打他都可以承受甚至第二天依旧,但是这次的打是一种对小P习惯性的否定,也就是在这个时候,小P开始等待推开前进大门的时机,最好永远都不要回来了,因为这里真的没什么好留念的。

时间一晃就是三年过去了,此时的小P到了15岁,也初中毕业了,父母的传统观念认为读书没有早点出身社会挣钱来得好,受到这种观念的影响,父亲要求小P去打工挣钱,小P这次再也没有留念,在听说Russell要去芝加哥大学时他想起了三年前Russell的邀请,小P捏着邀请,毅然推开了那扇前进的门,头也不回的只身前往芝加哥大学所在的伊利诺伊州,底特律距离芝加哥约460公里,且底特律的时区要早芝加哥一个小时。

小P辗转来到了芝加哥大学附近,没想到还真遇到了Russell,Russell对于小P的惊叹还停留在三年前,对这个15岁的孩子颇有好感,于是把小P推荐给自己的朋友鲁道夫·卡尔纳普教授,卡尔纳普听Russell说起过这个小伙子,于是想考验一下小P,他把自己的《语言的逻辑句法》给小P阅读,小P在不到一个月便看完了,当他把写满笔记的书还给卡尔纳普时,卡尔纳普同样大为震惊,在卡尔纳普奔走下,初中毕业的小P留在了芝加哥大学打扫卫生,打扫卫生的工作确实不是小P的志向,不过当下最紧急的是能在芝加哥稳定下来,也正是因为打扫卫生的这个名正言顺的工作,小P得到了一个安身之地,也得到了在Russell和其他大师身边学习的机会。

在这种学习氛围浓厚的氛围中小P度过了没有挨揍的两年,1940年的一天,17岁的小P通过朋友杰罗姆·莱特文介绍,在伊利诺伊大学芝加哥分校认识了一位精神生理学系教授,名叫沃伦·麦卡洛克(Warren McCulloch,1898-1969),下文开始称老M

产生分支-可选麦卡洛克线

麦卡洛克分支-小P线

小P2.jpg(图-小P)

(小P线)老M是一个有教养,有学识和有家庭背景的科学教,相貌和蔼,谈吐中颇有一种长辈的稳重和宽容,本来小P与老M在年龄、身份和研究重心相差巨大,小P本来不会和他有太大的交集,要真说一个共同点也许就是共同的偶像(莱布尼茨)和共同的期望(老M和其他偏向神学的神经学教授不同,他认同莱布尼茨提出的“机械大脑”设想,即使用神经元的机械性放电来解释思维和记忆),老M于是向小P介绍自己正试图用机械大脑的概念来建立一个大脑思维模型,值得一提的是20世纪初已有神经科学家了解了大脑神经元细胞的存在,并推断出神经元细胞的“树突”受到刺激达到一个阈值之后,会沿着“轴突”方向放电,发射一种脉冲信号,然后一直传导直到信号能量消耗殆尽。

老M的研究基于20世纪的神经元发现,神经元在接受刺激的时候将其分为两种情况--要么发射信号/要么不发射信号,老M认为这种工作方式和门电路非常相似,也许有机会通过逻辑门的方式来解释大脑的思维和记忆原理,当劳M和小P解释完这个想法后,小P马上就明白了其中的含义,并引入了自身擅长的数据工具去构建这个模型,老M对这个小伙子忽然有了一种相见恨晚的感觉,因为老M在数学领域并不是很专精,为了经常和小P交流推进模型,老M邀请小P从芝加哥的大学公寓搬到他的家里,与他家人一起生活。一般来说,一个正常人因为怕产生不必要的麻烦产生不会邀请别人去住到自己家里,但是老M是学术界的老资格,经常会带着知识分子和学术人物聚到家中讨论,而老M的妻子也是一位思想自由的女性。

自从小P跟着住进老M家里,他们每到深夜,等老M妻子和孩子睡着后就开始他们的伟大事业:尝试用神经元网络建立一个逻辑性大脑思维模型!偶有进度的时候他们也会相互调侃,小酌一两杯,强烈的求知欲让他们变得不知疲倦。老M在遇到小P之前已经对这个模型有很深的研究,但是有一个长期无法突破的点:人类的神经元结构中练成环状是无法避免的,但是这样的话环内最后一个神经元的输出会变成第一个神经元的输入,这就好似一个鸡与蛋的悖论(相传古代人曾讨论过一个叫做“先有鸡还是先有蛋”的哲学问题,如果回答现有鸡,则会被反问“那鸡是怎么来的”,如果回答先有蛋,则又会被问“那蛋又是怎么来的”,周而复始而得不出结果,现代研究则倾向于“先有蛋”,但是这个蛋可能不是鸡蛋,而是在生物进化过程中的一种其它物种蛋,在某次变异后破壳而出成为了目前认知的“鸡”,类似的悖论还有祖父悖论)。

而小P很快找到了其中的关键点“时间”,他向老M解释说在人的大脑里面是没有“时间”的前与后的,在大脑的信息处理中不存在时间维度,“一个人要能产生‘看见’的感觉,脑海中就必须有回溯的过程”,比如看见了闪电,虽然看到的是一瞬间的影像,但是在大脑中形成的脉冲一定不是一次性的,因为你时常和人们谈起某天的闪电如何亮眼,声音如何如何震耳欲聋。这样的话,足以证明包含闪电的图像信息和声音信息一直在我们的神经元环路中流动,一刻不停,这些信息已经不再具备“时间”这个维度,甚至在我们描述起来都是“前几天下雨的时候”,“我还小的时候”等等的关联索引,出现这个结果的原因正是这个信息已经抹掉了时间的印记,取而代之的是关联性“记忆”。

受到小P带来的启发和小P专业的数学知识帮助下,小P和老M共同完成了一种能够完全通过神经元连接的网络来进行逻辑运算的模型,这个模型的可取之处在于展示了人脑的逻辑完备性,即人脑可以实现任何可能的逻辑推理,得出的结论是:人脑是图灵完备的,也即是能完成任何图灵机可以完成的计算。基于这种由神经元所构建的网络,他们提出了一种大脑将信息抽象化,并基于逻辑来处理信息的设想,这种设想尝试解释人类大脑是如何创造出大脑中综合各种方面且具有明显层级式信息的,这个创造过程被他们称为“思考”。

老M和小P将他们的发现记录了下来,写入了一篇研讨性质的论文《神经活动中内在思想的逻辑演算》(“A Logical Calculus of Ideas Immanent in Nervous Activity”)中,发表在《数学生物物理学通报》(“Bulletin of Mathematical Biophysics”)上。老M和小P提出的这个大脑思维模型是对大脑的极大的甚至是过度的简化,但正是这种“大道至简”的逻辑成功的启示了人员对生物大脑有可能通过物理的,全机械化的逻辑运算来完成信息处理,他们在文中提出的自己对大脑的思考过程和看法主张“思想”和“智慧”无需笼罩一层神秘之中,也无需一直在自我和本我的思考过程中挣扎,并提出大脑的思考可以通过逻辑推理来机械性的解释的。老M在后来有在一篇名为《走出形而上学的领域》(“Through the Den of the Metaphysician”)的文章中骄傲地宣告说:“我们知道了我们是怎么知道的,这是科学史上的第一次(‘For the first time in the history of science we know how we know and hence are able to state it clearly’)”,此时的老M与小P坚信自己找到了人类智慧的奥秘,至少是一个目前为止最正确的前进方向。

老M和小P在《神经活动中内在思想的逻辑演算》一文被认为是连接主义研究的开端,除了机械式的思维模型,该文章还首次提出了“神经网络”(Neural Network,当前出名的CNN和RNN中的NN均来自这次提出的神经网络的概念)的概念。神经网络是以神经元为最小信息处理单元,把神经元的工作过程简化为一个非常直接,基础的运算模型,这个模型极为简单,但是对接下来的人工智能研究产生了非常深远的影响,后来科学界将这个模型命名为“M-P神经元模型”。

在这个模型中,一个神经元会接受来自多个其他神经元传递过来的信号,不同的输入信号的重要性各有不同,这种重要性差别就通过连接上的“权重”(Weights)大小来表示,神经元将接收到的信号值按照 输入*权重 的方式来表示并对所有信号求和得到新的信号,再将新的合成信号与自己的“激发阈值”(Threshold)进行比较来确定要不要触发信号传递,很多个这样的M-P神经元按照一定的排列形式链接输入和输出,这样就构成了一个完整的神经网络。也正是这种二分类方式的判定和循环递归的触发方式奠定了现代深度学习的理论基础,大多数的模型你都可以找到与之对应的“二分类神经元”和具有循环递归属性的网络结构。

事情一度十分顺利,直到1943年,小P在近几年的学习积累了一点声望和成绩,希望再向上发展的小P遇到了一个问题:因为他高中没有毕业,芝加哥大学的硬性规定不能授予他芝加哥大学的任何学位。值得庆幸的是隔壁的其他大学不一定有这个硬性规定,小P的朋友杰罗姆·莱特文知道小P的想法后,把他带到了麻省理工学院,拜访了二十世纪巅峰智慧人物之一、数学家、哲学家以及控制论的创始人,他的名字是诺伯特·维纳(Norbert Wienner,1894-1964),下文开始称老W

产生分支-可选维纳线

维纳分支-小P线

在小P和老W碰面的时候,老W并没有客气的迎接,甚至没有一句寒暄的问候,当小P已经站在他面前时,老W直接绕开了小P,去往一块黑板前,并继续他的数学证明演算工作,而小P也没有打扰,站在一旁看着老W在黑板上的演算,时不时的提出一些建议和一点学术上的交流。就这样,一块黑板被写完了,老W开始在第二块黑板开始演算时已经把小P当作搭档了,两人的默契就在这种一场无声的黑板演算中得到了契合,老W也开始接受小P的建议并和他讨论。一向不给人好脸色的老W在后来给小P的数学素养以极高的评价:”毫无疑问他(小P)是我见过的全世界范围内最厉害、最杰出的科学家,如果他不能成为他这一代最重要的两三个科学家之一的话,我反而会感到很惊讶“。

老W对小P所展现的数学能力印象是如此的深刻,以至于当场就承诺会给小P指导,帮助他获取麻省理工学院的数学博士学位,尽管芝加哥大学的”扫地僧“式的隐士听起来很符合男子汉的气概,不过与麻省理工的数学博士学位相比,扫地僧的矜持和面子显得那么的不堪一击,这年,20岁的小P决定接受老W的指导提议。

1943年秋,小P从芝加哥老M的家搬到了麻省理工的公寓里,从此开始了他在麻省理工的生活和研究,小P加入了老W的团队一起进一步改进他和老M提出的大脑模型。他们一开始是将简单的几个,几十个神经元组合在一起来进行实验,组建提升数量。小P认为人脑就是1000亿个这样的神经元相互连接后组成的非常巨大而精致的逻辑判定系统,小P还认为人脑的神经网络结构虽然是由生物遗传所决定的,但是人类基因肯定没有可能完全决定大脑中数量如此庞大的神经元是怎么连接的,道理很简单,人类基因的存储容量是无法精确的描述这个网络所需要的庞大的信息量的----该信息量甚至超过了人类所有图书馆容量的总和。小P猜测真实的情况可能是人类出生时的大脑是相当于一个基础的随机连接的神经网络结构,这个状态的人脑神经网络中基本没有存储什么有效的信息。随着长时间的外界输入信息对网络连接结构的调整和神经元阈值的刺激,大脑神经网络的混沌性和随机性会一点点被秩序所取代,大脑中开始呈现出有效的信息来。小P尝试用统计学的方式来为这个系统建模,受益于老W的统计与概率的双重大师身份,小P的这个项目一直得以延续,在此期间,老W对小P的工作报以很高的期望,他断言如果将这样一个模型建立起来后并植入到一台计算机的话,这台机器就能与人类一样开始”学习“了。

很快几年过去了,在1947年第二届控制论大会上,小P宣布将会以概率来解释神经网络作为他博士论文的题目,小P当时的影响力很大,他已经在麻省理工执教数学逻辑的课程,其学术水平和声望早已远远超过了博士毕业生应有的范畴,其实以这个题目作为他的博士论文并不是什么挑战,这是小P和老W早就研究透了的东西,以此为题更多的是为了展示自己非常重视这个问题,是一种仪式感,一种意义的具象化,要实现这个目的的难度远比拿到博士学位要高得多。神经网络的可解释性直到今天仍然是一个世界级的难题,这就像是神经网络的天生缺陷,小P选择的这个题目看起来很常规,但是其蕴含的内涵和希望达到的目的并不常规,甚至可以用”野心勃勃“来形容。与小P接触过的学者并不是没有人看出其中的深意,只是他们对于小P都抱有强烈的信心,相信他能够完成这个题目。

有一个小插叙是这样的,在小P在麻省理工学院研究之余,借着老W的声望和关系,小P与不少的知名科学家都有所交流,这些交流的结果一般都是以两边忽悠收获和启发为结果,其中有一个人,他的名字是冯·诺依曼。是的,就是后世被人们尊称为”计算机之父“的那位,当时的环境中冯·诺依曼与老W一起组织了一个”控制论学家“的学术交流圈子,大家会定期讨论自己的发现和心得,后来老P和他的朋友莱特文都成为了这个圈子的核心人物,冯·诺依曼在发表他的计算机界最重要的”冯·诺依曼架构“的《EDVAC报告书的第一份草案》(“First Draft of a Report on the EDVAC”)论文中,引用的就是小P关于记忆的一段描述,这段来自小P和老M的那篇《神经活动中内在思想的逻辑演算》的话,成为了冯·诺依曼架构论文里的唯一外部引用。(在1946年的冯·诺依曼提出了将程式像数据一样存储到计算机内部存储器的设计原理,程式存入存储器后,计算机便可以自动的从一条指令转到执行另一条指令。因其在当下的领先性和可用性,现在计算机均按照此原理设计,冯·诺依曼也因此被尊称为”计算机之父“,这个存储程序原理也被称为”冯·诺依曼原理“)

小P每次闲下来的时候都会回想起自己在麻省理工的研究时间,最让小P觉得兴奋的是1952年麻省理工学院电子研究实验室副主任杰瑞·威斯纳(Jerry Wiesner)邀请老M来领导该学院的一个脑科学相关的新项目。得到这个消息的老M同样很是兴奋,因为他又能和小P一起工作了,他喜欢和小P一起工作时那种默契的感觉,为此,老M毅然放弃了伊利诺伊大学芝加哥分校终身教授的职位和欣斯代尔的家园,只换来了麻省理工一个中级研究院的头衔和一个小公寓作为住所,但是最重要的是它能继续和小P一起合作了,他觉得这一切都是值得的。老M的团队中除了小P外,还有小P的好友莱特文以及年轻的神经科学家帕特里克·沃尔。这个脑科学新项目的目标是使用信息论,生物学和统计学以及计算机科学在内的所有手段来解释大脑是如何产生智能的,项目组的地点在瓦萨街的20号楼,成立时,他们合力挂上了一个牌子,写着”实验认识论“(Experimental Epistemology)。

如此如此这般那般,无论如何,小P与老M再一次一起工作了,小P从一个时常挨揍的小子,发展到现在的地位实属不易,不过到目前为止发展得还算顺利,1954年的《财富》杂志(财富杂志经常发起一些颇具影响力的排名,最被大家所熟知的就是”世界500“强排名)发起的评选中,小P被选为“40岁以下的最有才华的20位科学家”之一,可能光是称号名字不能说明其惊艳程度,那就再多说一句好了:香农也在里面。(香农全名Claude Elwood Shannon,信息论创始人,其提出的信息熵的概念,为信息论和数字通讯奠定了基础,为纪念香农设置了”香农奖“,是当下通讯理论领域的最高奖项)大家对小P的前途非常看好甚至是坚信小P会成为一颗闪耀新星。

由于小P的关系,老M和老W的团队也保持着密切的合作,不仅仅是学术上的,在生活和娱乐上也都有交流,他们经常在家庭农场中举办野外聚会,一切都是本应该的那样和谐和完美,两个团队的深入合作,预示着进化的革命,神经科学,控制论,人工智能,计算机科学仿佛都在爆发前夜。

但是不是所有人都很满意,比如老W的妻子玛格丽特·维纳,她的不满并不是因为小P,也与学术无关,而是来源于一种思维深处的不可调和的矛盾:玛格丽特是个纳粹主义者,充满了对犹太人的恨意,而老M的妻子正是犹太人。(二战时期犹太人总以利益至上,招致欧洲多国人民的讨厌,二战时期的德国也不例外,但是所有的讨厌还保持在一种相对理性的状态,当希特勒上台后,为了提高德意志名族的荣誉感,希特勒故意宣讲犹太人的”恶行“,导致了名族冲突的加剧,久而久之德军对于犹太人有一种天生的仇视感)为了避免老M给她丈夫带来思想上的影响,玛格丽特决定要不择手段的断绝老W和老M之间的关系,于是在天生的仇视感和纠正丈夫的使命感影响下,她编造了一个谎言,指控老M的团队里有人勾引他们的女儿芭芭拉,老W有长期的抑郁症,天生多疑,且心中常有一种莫名的背叛感。得知这个消息后老W非常气愤,立即发了一封电报给威斯纳(当时邀请老M的那位麻省理工电子实验室副主任),宣布永久地断绝与老M团队的合作关系,老M原本就是一个传统的贵族,对老W忽然提出的这项涉及个人道德的指控也很气愤,于是并不打算和老W和解。

在这场因为种族歧视引起的巨大纷争中,小P几乎是没有犹豫的选择了站到老M的一方,与老W从此形同陌路,也许是因为老M是小P的引路人和老师甚至是类似父亲一样的角色,也许是因为老M与他的默契和信任,小P在后来的麻省理工学院授予其博士学位的时候,因为授予书的博士生导师名字是老W,小P断然拒绝了在授予书上签字,甚至把那篇博士论文和所有相关的研究笔记一起烧掉。(这篇博士论文当时很多人关注其进度,是老W,老M和小P三方团队合作研究的最新成果,因为一个”种族歧视“的谎言,所有的研究进度均被小P在愤怒中化为尘埃,在这个事件中我们不要去评估大家所作所为的对与错,更多的是在当下环境的事件合理性,值得一提的是这篇论文介绍了一种更为完善的大脑模型,也许这篇博士论文的发布将会引领未来计算机的发展为生物计算机方向,只是目前的形势发展到的逻辑计算机防线看起来也还不错。)后来威斯纳甚至对莱特文说到,如果他可以找回论文的任何片段,麻省理工学院将承诺不受老W的影响,给他们的研究予以更多的支持,但是直到最后莱特文都没有拿出论文的任何相关信息,也许是真的都找不回来了,也许是找回来了也决定支持好友小P的决定。

老W的妻子玛格丽特整了这么一出闹剧,影响的不仅是小P和老M的团队,还连累了老W,最后老W被定性为不算纳粹,但是也不能排除纳粹关系的”不可知论者“,由于二战期间与美方合作的不顺利,老W成了一位反战分子,所有的政府、军事密切相关的计划,美国政府都会将其排除在外。

这件事情可能本身并没有动摇小P和老M的学术地位,他们也正常的进行着自己的研究,但是在接下来的1956年里,20号楼地下室里,老M的团队正在做着一项生物实验,他们准备通过实验证明生物的眼睛作用就像照相机一样,负责记录它所看见的内容,然后将信号逐点送到大脑进行解析。之所以要证明这个,是因为他们认为如果思考过程确实如老M和小P所推测的那样的话,可以抽象为一个信息处理器工作过程的话,那大脑应该就是人体唯一的信息处理器官,因为他们构想的用于思考的神经网络仅存在于大脑之中。为了证明这个观点,他们决定拿真实的动物(青蛙)来测试,包括调亮调暗灯光,向它们展示栖息地的照片,用电磁力摆动模拟人造苍蝇等等,然后把蛙眼观察到的信息在送往大脑之前记录下来,从而得知蛙眼所得到的信息。

蛙眼实验很顺利,但是结果却大大出乎团队所有人的意料:青蛙的眼睛不只是记录下来它看到的东西,它还会对诸如对比如,曲率及运动轨迹等视觉特征分析过滤后一并传递给大脑。”眼睛跟大脑沟通的语言是已经高度组织化并且经过解释的“,这就是实验的结论,小P和老M的团队将这一结论写进了在1959年发表的论文《蛙眼告诉了蛙脑什么》(“What the Frog's Eye Tells the Frog's Brain”)里,这篇论文的结论对于他们之前提出的思维机械性理论是个沉重的打击,对小P来说更像是一种信仰的崩塌。

蛙眼实验的结果对老M和小P的打击并不是一次简单的挫折,实际上这个实验结果令整个团队都陷入了一种自我怀疑----小P提出的大脑模型并不正确,至少也是不完整,生物的信息处理并不仅由大脑靠着神经网络来完成,青蛙的眼睛里至少承担了一部分信息的解析工作,而并非直接传给大脑由大脑全部解析。蛙眼实验显示,存粹的以大脑为中心的思维模型是有局限性的,大自然对于器官的使能很复杂也很杂乱,这是事实,我们不能说自然的选择是被迫的,但是小P很难接受这个结果,更多的难以接受自己之前所有研究的基础是错误这件事情上。

小P和老M的机械大脑理论也许并不太适合运行庞杂的生物学系统,但是这个模型却切切实实在生物大脑的研究上推动了数值计算和机器学习,也演进出各类神经网络方法、以及连接主义思想哲学的进步。但是在小P心中,他已经被显示击溃,他的好友莱特文曾这样描述小P得知蛙眼实验结果时的样子:”在我们做完蛙眼实验时,事实很明显的摆在他面前:逻辑即便参与到了思维过程中,它也没有发挥曾经设想的那种重要的核心作用,这让皮茨很失望,他永远也不会接受,这让他在失去维纳的友谊后更加绝望。

在此之后,小P对数学,逻辑和智能,甚至是人生都心灰意冷,这一切似乎回到了他12岁之前时常被揍的孤独时光中,他仍然期望离家出走,渴望寻找新的领域,只是这次困住他的不再是显示,而是小P的自我否定----小P得了严重的抑郁症。之后的几年里,小P虽名义上仍受雇于麻省理工学院,但是却很少参与学术研究,老M病倒后,他甚至不再与任何人交谈,终日以酒消愁。

1969年,年仅46岁的小P在寄宿之家中死去,死因是和肝硬化有关的食道静脉曲张破裂出血,四个月后,老M也在医院过世了。(主线小P线结束)

麦卡洛克分支-老M线

在遇到小P之前,老M已经是一个久负盛名的科学家了,遇到小P之前的老M一直生活得中规中矩,是一个传统的科学家家庭。

老M是1898年出生在新泽西州奥兰治,哥哥是一名化学工程师,从小就受到家庭文化的影响和指导,在1921年获得哈弗福德学院获得学士学位,1923年获得哥伦比亚大学硕士学位,1927年获得哥伦比亚大学医学博士学位。值得一提的是老M所学习的这些学校,非富即贵,哈弗福德学院更是一所私立学校,能够支撑老M的学习和生活,在当时的美国并没有多少家庭能够负担。

毕业后的老M一直在一家医院实习,直到1934年才重返学术界,1934年到1941年,老M在耶鲁大学神经生理学试验室工作。

1941年,老M移居到芝加哥,加入了伊利诺伊大学芝加哥分校担任精神生理学系教授,并担任伊利诺伊神经精神病学研究所所长,也就是在这一年,杰罗姆·莱特文介绍了小P给老M认识,老M对这个充满好奇心的伙伴很是新奇,他听着莱特文的介绍,内心对小P的经历满是佩服,最主要的是老M是一个名副其实的神经科学家,一直期望通过逻辑的方式来解释大脑的思考和记忆原理,这种思维期望用”神经元“的为思维单体的方式来解释大脑的运作原理,但在每次思考的时候总是会被”环状神经元系统中,最后一个神经元的输出是第一个神经元的输入“的逻辑陷入了悖论中,这种涉及到时空变化的悖论通常是无法通过正常的逻辑来进行解释(类似的悖论有”鸡和蛋问题“,”祖父悖论“等)。

当老M提出了自己的想法后,小P竟很快理解了老M希望完成的系统是什么,甚至一句话解决了困扰老M多年的时空问题:”一个人要能产生‘看见’的感觉,脑海中就必须有回溯的过程“,这句话的意义就在于说明了”时间“在大脑里面并不是一个矢量,甚至连一个标量都不算,大部分时间我们的大脑处理时间时是作为标记使用,甚至都不用太精确,比如”昨天吃午饭的时候“,”前几天下大雨的时候“等等。通过小P这样一解释就顺利解决了逻辑大脑的时间问题,于是老M邀请小P和自己一起继续研究逻辑大脑。

老M.jpg(图-老M讲课时的样子)

后来的时间里,老M就和小P一起整理他们的发现并记录了下来,形成了一篇研讨性质的论文,文章的名字叫《神经活动中内在思想的逻辑演算》(“A Logical Calculus of Ideas Immanent in Nervous Activity”),发表在《数学生物物理学通报》(“Bulletin of Mathematical Biophysics”)上。

老M对于这次的发现和合作很是满意,他们所遗弃合著的《神经活动中内在思想的逻辑演算》被认为是连接主义研究的开端,除了机械式的思维模型,该文章首次提出的”神经网络“的概念,以神经元作为最小信息处理单元,把神经元的工作过程简化为一个直接、基础的运算模型,对后世影响深远,这就是”M-P神经元模型“。

1943年秋,小P希望在学术上更进一步,也希望能有一个学位,但是芝加哥大学的硬性规定和小P初中毕业的学历导致他无论如何也无法获取芝加哥大学的学位,于是小P离开了芝加哥大学,并前往了没有这个规定的麻省理工学院。

在小P离开的日子里面,老M没有太大的追求,只是一直研究着他当时提出的神经网络,在得到小P的提醒后,老M的研究也得心应手起来,老M在研究时发现神经网络的拓扑结构对神经网络的效能有很大影响,于是在进行总结提炼后,于1945年发表了《由神经网络拓扑决定的价值的异质性》的学术性文章在”数学生物物理学公报“第7版89-93页上。

1952年的一天,老M忽然收到了来自麻省理工学院电子研究实验室副主任杰瑞·威斯纳(Jerry Wiesner)的邀请,邀请老M来领导该学院的一个脑科学相关的新项目,当劳M知道这个消息的时候差点跳起来,他太怀念和小P一起研究学术的日子了,与小P之间的默契和无话不谈让老M感觉十分自在。于是老M毅然放弃了放弃了伊利诺伊大学芝加哥分校终身教授的职位和欣斯代尔的家园,只换来了麻省理工一个中级研究院的头衔和一个小公寓作为住所,但是最重要的是它能继续和小P一起合作了,他觉得这一切都是值得的。他们成立了一个项目组,项目组的地点在瓦萨街的20号楼,成立时,他们合力挂上了一个牌子,写着”实验认识论“(Experimental Epistemology)

由于小P的关系,老M和老W的团队也在一起合作并讨论学术问题,但是忽然有一天,老M收到了来自老W发给威斯纳发的声明信,宣称老W团队立即终止与老M团队的合作并永远不再合作,老M不明所以但是在得到这个事件的原因竟然是”老W的妻子指控老M的团队成员勾引他们的女儿芭芭拉“的时候,老M感到了深深的羞辱,断然放弃了和老W的求和。老M作为一个老牌科学家,他有自己的一套带团队的方法,老W竟然如此不信任他,不预先告知自己却直接宣布解除了合作关系,这样的做法刺痛了老M的自尊心,况且这件事情如此不真实却让老W失去理智,简直不可理喻。

事实却是也如老M所想,在后来的调查中,老W的妻子对老W有着精神控制倾向,在饭圈被誉为”控制大师的大师“,同时还是饭圈的”名誉教授“,她只要看到老W高兴,就会想办法使他抑郁,一旦看见老W与自己不太喜欢的人太亲密,便想方设法进行破坏,光是其女儿芭芭拉被老W的“不止一个”同事或学生诱奸。这样的控制方式不仅让和老W走的很近的学术研究科学教大受其伤,也让包括美国政府在内的需求方不敢找老W进行军事、政治相关的科学研究。

老M和小P继续着他们的机械大脑研究,1956年,他们抓到了一直青蛙,而办公室的地下室有很多蟋蟀,于是他们开始研究青蛙眼睛看到的东西和大脑处理的东西,一开始的小P和老M胸有成竹的认为青蛙眼睛只是一个视觉捕捉器,它会把所有看到的图像传给大脑来处理,如果证明了这个理论,就足以证明他们的机械大脑理论的正确性和可行性质,他们决定拿真实的动物(青蛙)来测试,包括调亮调暗灯光,向它们展示栖息地的照片,用电磁力摆动模拟人造苍蝇等等,然后把蛙眼观察到的信息在送往大脑之前记录下来,从而得知蛙眼所得到的信息。

 

实验进行得很顺利,甚至被验证了很多次,结论是“眼睛跟大脑沟通的语言是已经高度组织化并且经过解释的”,大概意思就是青蛙眼睛传给青蛙大脑得信息有使用某种方式进行赛选处理过,然后将重要信息传给了大脑,这个结论可能在现代科学中已经被证实了很多次了,有点类似低级神经中枢脊髓处理反射信息后传送给大脑,其实普通器官也充当着低级神经中枢的角色。(现代医学证实人体构造分为高级神经中枢和低级神经中枢,高级神经中枢指的是脑,低级神经中枢指的是脊髓,低级神经中枢的行为受到高级神经中枢的管控,低级神经中枢直接控制肢体动作,如果脊髓受损或病变,会影响行动,完全受损的状态会出现四肢无力,行动困难,如果高级神经中枢受损会导致特殊昏迷状态,也就是我们常说的植物人,而一般的信号感知我们称之为神经反射,这里的青蛙眼睛就是已经进化出了处理信息的能力,在信号传递过程中对信息进行赛选处理。)

 

这样的结论给了小P很大的打击,小P一直坚信的机械大脑理论就这样被一下否定了,起码证实了小P的理论存在瑕疵,实际上这个实验结果令整个团队都陷入了一种自我怀疑,生物的信息处理并不仅由大脑靠着神经网络来完成,青蛙的眼睛里至少承担了一部分信息的解析工作,而并非直接传给大脑由大脑全部解析。蛙眼实验显示,存粹的以大脑为中心的思维模型是有局限性的,大自然对于器官的使能很复杂也很杂乱,这是事实,我们不能说自然的选择是被迫的,但是小P很难接受这个结果,更多的难以接受自己之前所有研究的基础是错误这件事情上。

 

虽然实验结论不利于巩固之前的机械大脑理论,但是他们还是将这个实验的结果刊登在1959年发表的论文《蛙眼告诉了蛙脑什么》(“What the Frog's Eye Tells the Frog's Brain”)里,发表后老M看着一蹶不振的小P,尽管经常找小P喝酒谈心,但是小P已经丧失了研究的动力和激情,老M在惋惜中也十分痛惜,毕竟是自己拉小P进入机械大脑领域的,原来一开始机械大脑的生物方向就是有问题的,老M在这样的自责中进入了医院,1969年,小P

在寄宿之家死去,死因是和肝硬化有关的食道静脉曲张破裂出血,老M得知消息后也开始抑郁和更加自责,四个月后,老M也在医院去世。

维纳分支-老W线

老W可是科学界的名人,被誉为“控制论之父”,在老W小时候就已经是出了名的神童了,至于为什么老W为神童,其实和他的一些成就有关。

老W在11岁就高中毕业进入塔夫茨大学,三年后获得数学学士学位,18岁获得哈佛博士学位。

老W是1894年出生在美国密苏里州的一个犹太人家庭,父亲 Leo Wiener 和母亲 Bertha Kahn 均有犹太血统。从小老W就受到他父亲Leo的严格教育和感染,在老W小时候就表现了对语言的天赋(他父亲Leo掌握了 34 种语言,包括盖尔语、多种美洲印第安语,以及撒哈拉以南非洲地区班图人使用的语言。)

老W童年.jpg(图-老W小时候)

维纳 18 个月大时,有一天他的保姆在海边沙子上写字母来自娱自乐。她注意到老W很专注地看她,便开始教他字母表。两天后,她惊讶地告诉老W的母亲老W已经学会了字母表。老W七岁时,父亲 Leo 将他送入马萨诸塞州剑桥市的 Peabody School。尽管年龄很小,但维纳一入学就读三年级,并很快升入四年级,而他对此并无任何不适应。九岁的老W于 1903 年进入 Ayer 高中,并很快升级,1906 年高中毕业后,老W的父亲决定将他送入塔夫茨大学,而不是经受哈佛大学入学考试的压力和风险。当时,老W年仅 12 岁,他继续勤奋地努力着。值得一提的是1906 年 10 月 7 日,世界首次知道了老W的名字。当时老W的照片出现在《纽约世界报》的头版,标题是《全世界最杰出的男孩》(The Most Remarkable Boy in the World)。

老W9岁照片.jpg(图-老W9岁留影)

1906 年,老W进入马萨诸塞州塔夫茨大学。在那里,他学习了希腊语和德语、物理学和数学,以及生物学,大学毕业后,老W进入哈佛大学研究生院研究动物学。遭到了父亲 Leo 的反对和建综合实际情况后,维纳听从了父亲的建议改修哲学。老W获得了康奈尔大学哲学院的奖学金,并于 1910 年转到康奈尔大学。但是,在经历了缺乏安全感和格格不入的「黑色之年」(Wiener, 1953) 后,老W于 1911 年回到了哈佛大学研究生院。在结束哈佛大学博士论文、答辩和毕业流程后,18 岁的老W获得学校提供的一年旅行奖学金。目的地是英国剑桥大学。老W在剑桥大学继续哲学研究,师从《数学原理》作者之一罗素(《数学原理》正是老W博士论文的关注重点)。罗素 (1872–1970) 当时四十出头,是英裔美国人心中最顶尖的哲学家。1914 年 6 月第一次世界大战爆发前,老W一直待在哥廷根。战争爆发后,他决定返回剑桥,继续跟随罗素研究哲学。1915年后老W在美国多个行业和城市做了很多奇怪的工作。他正式返回美国后在纽约市做短暂停留,当时他在哥伦比亚大学跟随哲学家约翰·杜威 (1859–1952) 继续研究哲学。之后,他前往哈佛大学教授哲学课程,后又担任通用电气公司的工程师学徒。后经父亲介绍,老W加入位于纽约州奥尔巴尼市的美国百科全书团队担任特约作者。

老W1913年哈佛毕业.jpg(图-老W毕业留影)

随着美国加入一战,老W渴望为战争做贡献,于是 1916 年他参加了军官训练营,但最终并未得到职位。1917 年,他再次尝试参军,但由于视力原因被拒。1918 年,老W接受数学家 Oswald Veblen (1880–1960) 的邀请,前往马里兰州研究弹道学,用这种方式为战争做贡献。

一战结束后,老W试图在哈佛大学求得一份教职,但因哈佛大学当时的反犹太氛围而遭拒绝,这通常被归咎于哈佛数学系主任 G. D. Birkhoff (1884–1944)。于是,老W在 1919 年前往 MIT (麻省理工学院)担任讲师。

在剑桥大学跟随罗素学习时,老W首次对布朗运动产生兴趣,于是罗素指导他阅读爱因斯坦的「奇迹年」研究。1905 年,爱因斯坦在论文中认为花粉粒的不规则运动是受水分子撞击所致。1827 年 Robert Brown 首次观察到这种「不规则运动」,但该现象并未得到正式的数学研究。老W扩展了爱因斯坦对布朗运动的定义以描述此类轨迹,从而在勒贝格测度(向子集分配数值的系统化方式)和统计力学之间建立连接。也就是说,老W为布朗运动留下的一维曲线提供了数学形式。为了纪念老W,这一工作通常被称作「维纳过程」。该工作于 1920-1923 年以系列论文的形式发表。尽管这些论文并未解决物理问题,却也提供了一个稳健的数学框架,后来冯诺依曼等科学家利用该框架解决了统计力学问题。

1924 年夏,老W返回哥廷根,并待到 1926 年(1926 年老W获得古根海姆奖)。在量子物理的黄金时代,老W与在哥廷根访学的冯诺依曼和 J. Robert Oppenheimer 相遇,并与冯诺依曼建立了私人联系。

离开哥廷根之后,老W开始研究应用数学。1930 年关于自相关函数(autocorrelation function),老W提供了信号与其延迟信号之间的关联。这就是维纳-辛钦定理(定理指出任意一个均值为常数的广义平稳随机过程的功率谱密度是其自相关函数的傅立叶变换,讲的是光场的能量谱密度和光场的一阶相干函数之间的关系,主要意义在于对于随机信号,因为无法描述信号的频谱特性,但是我们可以通过其自相关函数得到信号功率谱的分布,虽然损失了相位特征,但是他是明确的函数,可以明确有效地说明随机变量中各个频率成分的含量,所以对于随机信号的频域分析主要是考虑信号的功率谱。),该定理指出功率谱密度 Sₓₓ(f) 是其自相关函数 Rₓₓ(τ) 的傅里叶变换,同年研究结果发表,老W升职为MIT副教授。

1930 年代早期老W积极投身信号处理和电子工程的早期发展,但是他并未中断纯粹数学方面的论文发表,包括对勒贝格空间的分析研究。老W的陶伯定理(是级数的收敛定理,一般用在数学的级数收敛情况证明上,在有这个定理之前,级数的收敛基本靠证明人的灵感和运算来证明,属于高等数学范围,无穷级数可以应用在细菌在培养皿繁殖的细菌总量表达上)发表于 1932 年,为“给定函数不同变换的线性组合逼近以 L₁ 或 L₂ 级数收敛的任意函数 ”提供充分必要条件,老W的陶伯定理涉及如何逼近此类具备极大值的函数。同年研究结果发表,老W晋升为 MIT 数学系教授。

期间老W还发表了很多学术成果,直到1940年二战爆发后,老W希望为战争贡献自己的力量,他发现一个现象:在一战中,防空炮虽已作为射击装备出现,但是人们仍需手动操作 range table 来使防空炮开火。这意味着,当飞机在头顶飞过时你必须执行所有计算。事实上等你完成计算准备开火时,飞机已经飞走了。因此老W继续研究,希望解决火力控制问题。老W对防空火力控制问题的研究促使他创造了一种滤波器。该滤波器过滤输入以生成输出的估计值,从而计算未知信号的统计估计值。该滤波器基于维纳之前关于积分和傅里叶变换的研究成果。尽管该研究在 MIT 辐射实验室内完成,但研究成果以机密文件形式发表。(如果你有接触过深度学习,就会发现这个“预测”这个概念竟然和目前的模型如此相似,目前所使用的深度学习模型基本都遵循着输入-预测-输出的形式,很大程度上来自老W的控制论理论影响,这里的滤波器就是对应我们现在的模型,只是滤波器可能是硬件,而我们的模型是用软件模拟的。)

老W参军.jpg(图-老W参军留影-右一)

在1943年,杰罗姆·莱特文要为老W引荐一位助手,在小P和老W碰面的时候,老W并没有客气的迎接,甚至没有一句寒暄的问候,当小P已经站在他面前时,老W直接绕开了小P,去往一块黑板前,并继续他的数学证明演算工作,而小P也没有打扰,站在一旁看着老W在黑板上的演算,时不时的提出一些建议和一点学术上的交流。就这样,一块黑板被写完了,老W开始在第二块黑板开始演算时已经把小P当作搭档了,两人的默契就在这种一场无声的黑板演算中得到了契合,老W也开始接受小P的建议并和他讨论。一向不给人好脸色的老W在后来给小P的数学素养以极高的评价:”毫无疑问他(小P)是我见过的全世界范围内最厉害、最杰出的科学家,如果他不能成为他这一代最重要的两三个科学家之一的话,我反而会感到很惊讶“。

在1947年第二届控制论大会上,小P宣布了宣布将会以概率来解释神经网络作为他博士论文的题目,当时的小P很受关注,就在这种时机中的次年,老W宣布了新词“控制论”(cybernetics),用于表示此类「目的论机制」研究。老W在1947年的手稿为其广为流行的科学著作《控制论(或关于在动物和机器中控制和通信的科学)》奠定了基础,这本书将老W推向了一个新的高度,因为有了很高的关注度,这个新词语一时间在科学界流传开,也因为这个理论影响了当时科学控制的发展方向,而老W本人也被称之为“控制论之父”。

老W和香农.jpg(图-左老W-右老W和香农)

在后来的1952年,MIT电子研究实验室副主任杰瑞·威斯纳(Jerry Wiesner)邀请老M

来领导该学院的一个脑科学相关的新项目,小P也向老W引荐了老M,于是三方研究院开始深度合作。

但是不是所有人都很满意,比如老W的妻子玛格丽特·维纳,她的不满并不是因为小P,也与学术无关,而是来源于一种思维深处的不可调和的矛盾:玛格丽特是个纳粹主义者,充满了对犹太人的恨意,而老M的妻子正是犹太人。(二战时期犹太人总以利益至上,招致欧洲多国人民的讨厌,二战时期的德国也不例外,但是所有的讨厌还保持在一种相对理性的状态,当希特勒上台后,为了提高德意志名族的荣誉感,希特勒故意宣讲犹太人的”恶行“,导致了名族冲突的加剧,久而久之德军对于犹太人有一种天生的仇视感)为了避免老M给她丈夫带来思想上的影响,玛格丽特决定要不择手段的断绝老W和老M之间的关系,于是在天生的仇视感和纠正丈夫的使命感影响下,她编造了一个谎言,指控老M的团队里有人勾引他们的女儿芭芭拉,老W有长期的抑郁症,天生多疑,且心中常有一种莫名的背叛感。得知这个消息后老W非常气愤,立即发了一封电报给威斯纳(当时邀请老M的那位麻省理工电子实验室副主任),宣布永久地断绝与老M团队的合作关系,老M原本就是一个传统的贵族,对老W忽然提出的这项涉及个人道德的指控也很气愤,于是并不打算和老W和解。

而此时的小P竟然也站在了老M那边,于是老W与他们决裂,立即停止了所有合作,老W不知道的是,这次事故来自于他的妻子玛格丽特·维纳的控制欲,他的妻子对老W有着极强的控制欲,且每次都能实施并达到效果,甚至在饭圈被誉为“名誉教授”,这位妻子对老W的影响远不止如此,在妻子的控制下,老W被美国军方避讳,不再宴请老W参与研究任何涉及军事的控制。

老W后来的时间里很少再深入专研学术研究,更多的是接受各种采访和谈话,这样的日子倒也惬意,1964 年 3 月 18 日,老W因心脏病于瑞典斯德哥尔摩去世,终年 69 岁。

后记

其实在阅读中大家就隐约有一种感觉了,三位大佬在深度学习中都起到了举足轻重的启蒙作用,我们来统计下各自对于深度学习的亮点

沃尔特·皮茨(Walter Pitts,1923-1969):与麦卡洛克合作的“机械大脑”理论,所提出的神经元理论很符合当下的深度学习架构,甚至出现了“卷积神经网络”这样的代表性结构。

沃伦·麦卡洛克(Warren McCulloch,1898-1969):与皮茨合作的“机械大脑”理论,所提出的神经元理论很符合当下的深度学习架构,甚至出现了“卷积神经网络”这样的代表性结构。

诺伯特·维纳(Norbert Wienner,1894-1964):提出了“滤波器”信号赛选,和目前的深度学习流程中的模型起到的作用非常相似,都是进行“提取特征”。

除此之外,还有一个很值得深思的问题:深度学习的分支真的是最有解么?又或者说基于神经元和特征提取的模型真的是未来人工智能的发展方向么?我们无法回答这个问题,唯一确定的是我们需要怀着一颗不停探索的心,一直不停的去思考,去模拟,去实践,也许我们终有一天会叹息“哦,原来当时以神经元和特征提取的方式只是一种很低级的人工智能实现方式,原来还有更加简便且符合自然的实现方式”。

有时候我在思考,电真的是人类发展的最优能量载体么?无论是爱迪生还是特斯拉,直流和交流电都是被局限在“电”这个范围内,甚至一个大范围都局限在“物理”这个范围内,有没有可能存在一种非接触能量传递方式呢?

 


评论