第一台有原创思想能力的机器
在小P和老M、老W提出“机器大脑”和“神经元”概念之后的一段时间,机器学习很长时间都是一些改进,直到1958年7月美国海军研究办公室公开了一个了不起的发明。
实验室中,一台IBM 704就像一间房间那样大,重达5吨,一个实验人员将一些列打孔卡(一种将数字代码以孔洞形式保存的卡片,一般一张卡片表示一行代码,在18世纪50年代已经有计算机面世,但是其内存极其昂贵,计算机的使用也按时间收费,大多数时候都是很多人排队使用一台计算机,于是IBM提供了一种价格便宜的保存代码方式就是打孔卡,程序员可以按照规则提前将代码转到打孔卡上,然后运行时只需要输入机器识别,节省时间并降低成本)喂进机器中,在50次试验后,计算机竟然学会了识别卡片上的标记在左侧还是右侧。
图:弗兰克·罗森布拉特和第一台有感知能力的打孔机
其创造者叫弗兰克·罗森布拉特(Frank Rosenblatt,后称老罗)称这是对感知机(perceptron)的一次示范。感知机是“第一台有原创思想能力的机器”。
老罗当时是美国纽约布法罗康奈尔航空实验室的研究心理学家和项目工程师,他早在1958年就预示过人类特质的机器人将诞生的未来“创造具有人类特质的机器,一直是科幻小说里一个令人着迷的领域。但我们即将在现实中见证这种机器的诞生,这种机器不依赖人类的训练和控制,就能感知、识别和辨认出周边环境。”而老罗的说法在当时的概念是:感知机是“第一台有原创思想能力的机器”
老罗在1958年写道“创造具有人类特质的机器,一直是科幻小说里一个令人着迷的领域。但我们即将在现实中见证这种机器的诞生,这种机器不依赖人类的训练和控制,就能感知、识别和辨认出周边环境。”(在半个世纪之后,证明了老罗的先见之明,是的,他是对的。
)
老罗的发言在当时犹如一颗重磅炸弹落在了科学界,顺便波及了资本和媒体,当文章于1958年夏季在康奈尔航空实验室的《研究趋势》(Research Trends)上发表后,人们热情高涨涌入人工智能领域,不过由于大家并没有做出太多有用的东西和美国政府持续减少投入人工智能领域的资金,人们的热情逐渐淡了下来,不少持怀疑态度的人坚持认为感知机无法重塑人与机器之间的关系更加加深了大众的怀疑,于是在接下来的几十年里面,人们陷入了“人工智能寒冬”时代。
1971年,他在43岁生日那天,在切萨皮克湾(Chesapeake Bay)乘单桅帆船出海时溺水身亡。不过老罗发布的感知机原理图确实影响了人工智能的发展法,这是一种能将输入分成两种可能的类别的算法。神经网络会对输入的性质进行预测:左还是右?猫还是狗?如果分类有误,神经网络可以自己进行调整,好在下一次做出更明智的预测。经过数千或数百万次迭代,它的预测会变得更加准确。(当前多数的分类网络都会有一个demo,而大多数demo都会有一个猫狗分类结果来进行评估,也许深度学习的发展或多或少的受到了老罗的一些启发)
深度学习教父杰弗里·辛顿接力
感知机的热情大幅度下降后,仿佛从一个巅峰走向了谷底,人们不再确信感知机对于人工智能发展的作用和意义,在研究失去了政府和组织的资助后,感知机更多的是科研工作者茶余饭后的闲谈,也是是因为热爱,在这个领域中留下了一小部分学者仍然在研究着前辈留下的人工智能的相关学术论文,而伦多大学计算机科学系的杰弗里·辛顿(Geoffrey Hinton)教授是当时全世界人工智能研究者中最具影响力的(也许是他颇高的人望,也许是他扎实的能力,大家亲称他为“深度学习教父”,后文亲称为老辛),也正是因为老辛和其他一直研究的人工智能研究者,才令神经网络最终能以如此低姿态高内涵的形式展现在人们眼前,并成为人工智能领域的一大分支。
老辛有着英国学者典型的外贸特征:一头蓬乱的头发,皱巴巴的衬衫,像个不修边幅的人。衬衫前口袋里还插着一排圆珠笔,守着一个巨大且脏乱的白板,白板上写满了各种复杂难解的方程式。尽管在北美呆了多年,辛顿仍旧操着一口标准英式口音,一次接受媒体采访时他说道:“被称为‘教父’我感觉有一些难为情,但我对我自己的数据有一种‘里根式’的笃信。”
图:深度学习教父杰弗里·辛顿
1947年末,老辛出生在战后的英国伦敦小镇温布尔登(Wimbledon),成长于布里斯托尔(Bristol)。老辛所在的家族颇具传奇色彩,家族在各个领域都有著名学者,其中就包括那位创立布尔代数(也许说布尔代数大家不会有太多感觉,但是写程式的小伙伴一定知道布尔值,也就是真和假,早期的布尔代数是一种数学领域的公式,后来发现将其进行集合运算后有特定结果,也就是我们学习的门-与、或、非,这种只由两个对立的值表示的代数关系影响了未来很大一批逻辑设计思想,计算机的底层逻辑正是0和1组成的门电路运算,值得一提的是在二战时期,苏联曾经开发过由三个基本元素组成的计算机,即1、0、-1三个元素,理论上三元计算机会更加符合计算思维,但是在其实验和应用效率上无法和发展较早的二元计算机相比较,一个重要的思想是二元计算机可以轻易模拟三元计算机,导致了三元计算机的夭折。)的逻辑学家乔治·布尔(George Boole,1815-1864),而乔治·布尔就是老辛的曾曾祖父,他的两位堂兄妹在中国很是有名,堂弟叫William Hinton,还有一个堂妹叫Joan Hinton,他们两位有自己的中文名字,一个叫韩丁,一个叫寒春,都是进过课本的中国人民老朋友,著名的马克思主义者,参加过曼哈顿计划为美国制造原子弹,但心怀解放全人类的理想来到了共产主义中国,并成了第一位获得“中国绿卡”的国际友人,年纪大一点的,或者读过杨振宁、邓稼先事迹的朋友,应该都听说过他们的名字。所以老辛的家族背景也给与了老辛足够的知识涵养。
老辛曾自述与人工智能的第一次接触,在60年代他念高中时,在一次偶然的机会,无意间听到了人脑信息存储的全息图机制,如同他的前辈小P和老M等学者研究的神经网络以及信息如何在大脑中存储记忆的猜想那样,老辛也为此深深的着迷,他形容到这是他一生的关键时刻,也是他一生成功的起点。
图:感知机原理
老辛思维非常活跃,当他高中毕业进入剑桥的国王学院攻读物理和化学,却仅读了一个月后就退学了,在自述传记中他解释到:“我那时候18岁,第一次离开家自己生活。当时的工作十分繁重,周围没有任何女孩,我感到有些压抑”。一年之后,他再次申请攻读建筑学,结果在建筑系仅仅上了一天课,又决定转学读物理学和生理学,后来发现物理数学还是不适合自己,又再次退学。此后,他再改读哲学,但因为与他的导师发生争吵而告吹。最后,他选择研读心理学,直到1970年,终于以剑桥大学国王学院实验心理学“荣誉学士”的身份毕业。
也许是叛逆,也许是心中的热情不止,这样的求学经历明显不是一个有如此家境的学生的结果,以至于老辛在大学毕业后搬到了北伦敦的伊斯灵顿区居住,为了生计,老辛成为了一名包工木匠,典型的一手好牌打得稀烂。
木匠就木匠吧,老辛也真是沉得住气,慢工出细活的心态让老辛热情不减的同时,多了一份稳重,在见识到真正的生活的洗礼后,老辛似乎又有了想法并开始进行研究,两年后老辛发表了论文并重新回到学术界,进入爱丁堡大学攻读博士学位,而且还是师从大化学家克里斯多福·希金斯(Christopher Higgins,1923-2004)教授,而他选择的研究方向正是神经网络。
老辛的导师可是大有来头,他的学生又两位获得了诺贝尔奖,这位导师认为神经网络现在是不堪大用,日后也没有什么前途可言。在当时的人工智能冰河时期,这样的想法反而是大众的想法。
可能是因为老辛的自我证明欲望,也许是单纯的叛逆心理,老辛与导师的看法完全相反并在每周的讨论上与导师发生激烈的争辩,一次次的被导师否定不仅没有打击到老辛,反而让他对神经网络的发展方向深信不疑,他不止一次的对导师希金斯说“给我一段时间,我会证明给你看的”,希金斯也不愧为一位真正的导师,尽管在意见上和老辛分道扬镳,但是也一次又一次的同意老辛的研究尝试(在当时导师的评分和意见决定着学生能否拿到博士学位,导师在人们心中的地位很高,即使学术论文是正确的,导师不予以推荐也不会有太大的关注),并尽了导师的责任给与了老辛最大的帮助和指导,1975年,在老辛还没有获得明显成就时到了评估的时候,导师希金斯仍然同意给老辛授予“人工智能博士”学位。
要知道当时的环境是“人工智能冰河期”,明斯基在《感知机》书中写过这样的话“多层感知机不会有发展前景,因为世界上没人可以将多层感知机训练得足够好,哪怕是令它可以学会最简单的函数方法。”,这句话劝退了很多人,也简明扼要的说明了事实,神经网络在当时最大的问题就是网络深度的训练关联问题,网络深度稍微增加就没有可用的训练方法。
明斯基拥有图灵奖得主、人工智能创造者的耀眼头衔,单层感知机的能力不足更是被明斯基用数学严格证明的,要想实现人工智能神经网络,就必须要多层神经网络进行训练,相信大家已经知道后来的发展了,方向其实就是多层神经网络!(多层神经网络就是如今深度学习的实现方式,现在的深度学习网络普遍有很多层,如果只是单纯把每层的输入输出连接起来便会产生线性结果,也就是每次的结果是一样的,于是如今有诸如梯度下降,激活函数,dropout等方法来进行优化,但是都基于多层神经网络的连接点中)
老辛在后来重新发现了可行的多层神经网络训练方法的时候,其实这个方法早就有学者提出过,只是老辛将这种可被误差反向传播算法所训练的前馈全连接的神经网络的方法进行实验,可以很好的解决多层神经网络的训练问题。
BP神经网络诞生
1986年,老辛在其论文中正式将这种可被误差反向传播算法所训练的前馈全连接的神经网络称为是“反向传播神经网络”,也就是“Back Propagation神经网络”或者“BP神经网络”,这种算法完美的解决了非线性分类的问题,让人工神经网络再次引起了人们广泛的关注。
2006年,老辛又提出了深度学习的概念,给出了梯度消失问题的解决方案。梯度消失就是随着隐藏层数目的增加,分类准确率反而下降。导致梯度消失的原因一般是前面隐藏层的学习率低于后面隐藏层的学习率。杰弗里辛顿这一深度学习方法的提出立即在学术圈引起了巨大的反响。
2012年,杰弗里金顿引导的小组采用了深度学习模型,AlexaNet在ImageNet图像识别大赛中一举夺冠。当时AlexaNet模型采用新的ReLU激活函数,基本上解决了梯度消失问题,并采用gpu运算极大的提高了模型的运算速度、此后深度学习在多个领域中遍地开花,例如我们围棋AI AlphaGo就在围棋比赛中击败了人类围棋选手。
后来的老辛在谷歌公司参与并领导世界最著名最大规模的人类大脑模拟项目——“谷歌大脑”计划,使用超大规模计算机集群,通过神经网络技术去模拟人类大脑的神经元工作,终于实现了当时对导师的承诺“给我一段时间,我会证明给你看的”。
后记:
在深度学习发展过程中,老罗首次展现了“第一台有原创思想能力的机器”,让机器学习距离更近了一步,为后来的深度学习奠定了基础,老辛的成就更是飞跃式的,从小P提出的神经网络,到后来的多层感知机,再到后来的深度学习,过渡的如此丝滑才有了后来人的感叹。
如果没有当木匠的两年平和,没有希金斯导师的支持,也许深度学习的发展方向又会不一样。