当前位置:首考文秘网>范文大全 > 公文范文 > AlphaGo的高智商,是怎样炼成的

AlphaGo的高智商,是怎样炼成的

时间:2023-06-12 19:10:03 公文范文 来源:网友投稿

AlphaGo属于“强人工智能”,已初步具备了机器学习能力,能够根据经验数据进行“自我智能升级”,使人类棋手相形失色。AlphaGo在训练、学习中形成了策略和价值两大网络,其最令人震惊的地方,是它已经能够模仿人的直觉,这就使AI科学走向一个新的境界,更接近理解人类的大脑运作。

2014年,谷歌斥资6.5亿美元收购了英国公司DeepMind(深度思维),当时这家公司只有AI游戏方面的技术,谷歌为的是拢住该公司12名深度算法人才。这项交易属于谷歌对人工智能人才收购战略的一部分,由当时的谷歌CEO拉里·佩奇(Larry Page)亲自负责,并全程主导。

2016年,由DeepMind多年打造的一款围棋人工智能程序AlphaGo,以4∶1的战绩战胜韩国顶尖棋手李世石。2017年,AlphaGo化身为神秘棋手“Master” 连续战胜包括柯洁、聂卫平、古力等多名围棋名将,再次创造历史。实现对弈柯洁“三连胜”战绩之后,“AlphaGo之父”、DeepMind创始人杰米斯·哈萨比斯宣布AlphaGo退役。这场世界围棋领域的“人机对决”由此画上了句号,但AI科技迎来了新的起点。从这个意义上讲,AlphaGo的出现可谓是意义非凡。那么,AlphaGo的高智商究竟是怎样炼成的?

“AlphaGo之父”的时间简史

随着AlphaGo的享誉世界,现年42岁的哈萨比斯已经成为人工智能(AI)领域炙手可热的科技天才。英国《卫报》有过一个评论:(哈萨比斯)这位被称为“人工智能英雄”的天才,显然已经成了“AI的代名词”。Google的执行总裁拉里·佩奇更是将哈萨比斯长期专注的技术领域称为“长久以来我见过的最令人兴奋的事件之一”。

长期以来,了解和创造人工智能的不懈努力,引领哈萨比斯经历了三个职业生涯:游戏开发者、神经系统科学家和人工智能企业家。从电脑游戏到人工智能,这正是人类进入AI时代真实的创新过程。

哈萨比斯在17岁时就参与设计和开发了20世纪90年代的经典游戏《主题公园》,1997年他从剑桥大学毕业,第二年就成立了自己的游戏公司,开发了包括《革命》和《魔鬼天才》等风靡一时的游戏,每款都能卖出几百万套。在人为设定的游戏场景中,玩家可以自由扮演一个“虚拟化的自我”,为了打造更好的游戏体验,哈萨比斯不断尝试引入人工智能元素。

2005年,哈萨比斯希望通过“脑科学的研究”来发现对研究人工智能有用的线索,于是,他决定到伦敦大学进修“神经系统科学”博士学位。在此期间,他选择了海马体做研究对象——海马体主要负责记忆以及空间导向,至今人类对它的认知还很少。哈萨比斯之前没有系统学习过高中生物课程,他立足于自己的强项——计算机算法,去做脑科学研究,很快取得了成就。

2007年,他的一项研究被《科学》杂志评为“年度突破奖(Breakthrough of the Year)”。在这项研究中,他发现5位失忆症患者因为海马体受损而很难想象未来事件。从而证明了大脑中以往被认为只与过去有关的部分对于规划未来也至关重要。2011年,哈萨比斯开启了新一阶段的冒险,创立了以“解决智能”为经营理念的DeepMind 科技公司。

当时,DeepMind的投资方包括硅谷创投教父彼得·蒂尔的Founders Fund、李嘉诚的维港投资、一家与特斯拉CEO埃隆·马斯克有关的信托基金等。直到2014年被谷歌收购,DeepMind都还只是一家名不见经传的英国初创公司。

在此后的两年时间里,Google DeepMind实现了两个重大突破:一是2015年DeepMind发表了有关“学习掌握”Atari游戏的算法的论文,并登上了Nature(《自然》)杂志封面。Atari游戏的重大创新在于“具备复杂的机器学习能力”,这正是人工智能的重要特征。

二是AlphaGo的诞生,哈萨比斯和他的团队开始把注意力转移到围棋这一古老而又复杂的中国游戏上。围棋的复杂程度难以想象,如何“教计算机下围棋”,此前AI科学家们研究了几十年一直无法突破,而AlphaGo克服了这一难题,将AI技术推向新的高度。

那么,AlphaGo的突破性创新究竟体现在哪里?

弱人工智能VS强人工智能

DeepMind推出下围棋的智能程序AlphaGo,只是他们体现人工智能的一个方式,他们未来可以用这种计算机算法做很多事情,比如用计算机管理共同基金,只需保证投资回报率比人工管理的基金高一个百分点,就足以成为全世界最大的基金管理公司。推广开来,AI科技在交通、医疗、仓储物流等方面的应用,也是基于其算力和算法的优势。

之所以選择围棋,而不是选择别的什么方式,来体现人工智能,这跟哈萨比斯的个人经历有关。哈萨比斯13岁就获得国际象棋大师的头衔,在14岁年龄组中全球排名第二。哈萨比斯19岁就开始学围棋,具有业余1段段位。而他在DeepMind的其他同事中,还有棋龄更长的人。他们都是高智商的科技人才,围棋对他们来说,即使达不到专业水平,也可以比较轻松地达到业余高手的程度。而且20多年前,IBM推出的“深蓝”电脑,也是通过与国际象棋大师的对弈来体现性能的。

1997年5月11日,IBM开发的计算机程序“深蓝”在人机对弈中,击败了当时排名世界第一的国际象棋大师卡斯帕罗夫。而20年后,谷歌的AlphaGo击败了职业围棋排名世界第一的中国棋手柯洁。同样是计算机程序战胜人类棋手,两者有什么不同呢?

20多年前的IBM“深蓝”电脑属于“弱人工智能”,那终究是一套预先写入程序的系统,相当于一位顶级程序员在和象棋大师对弈,这位程序员尝试揣摩人类棋手脑子里在想什么,并把相应的对策全部编写到程序里。这个技术很了不起,但只是在执行预先写入的命令,而不是自己来学习、决策。而“机器学习”恰恰是人工智能区别于一般计算机程序的最大特征。

AlphaGo属于“强人工智能”,初步具备了这种“机器学习”能力,能够根据“经验数据”进行“自我智能升级”,才使人类棋手无可奈何。柯洁做到了人类棋手所能达到的极限,无论是稳招还是险招,都没能在AlphaGo密不透风的计算能力面前找到一个突破口。AlphaGo真正的厉害之处就在于,它完全不用人类棋手的棋谱,从零开始学习,战胜柯洁大概只学习了21天,学习40天就能战胜之前的任何AlphaGo版本,实现机器自身的全面智能升级。

策略网络和价值网络

外界普遍存在疑惑:人类从20世纪60年代就开始琢磨“怎么教计算机下围棋”,为什么只有AlphaGo实现了突破呢?在棋局中对弈,说到底就一个问题:看一眼棋局,决定下一步怎么走。如果计算机足够快,可以把所有可能的棋局都模拟一遍,选一个能赢的招式就可以。可是,合乎规则的围棋变化,比宇宙中的原子数还多,计算机也无能为力。

所以,教计算机下围棋这件事,几十年来都悬而未决,直到AlphaGo的出现。AlphaGo的聪明之处是,不必挑战最难做到的路径——不必将围棋棋局的所有可能变化都模拟一遍,也不要停留在IBM“深蓝”电脑的初级阶段——机器只有预先设定好的程序而没有学习能力。

AlphaGo的策略就是快速训练、高效学习,让零基础的AlphaGo观摩海量的人类棋谱,又不局限于此,还要让AlphaGo自己跟自己下棋,又创造出了海量棋谱。AlphaGo学得又多又快,在训练、学习中形成两大网络:

一是策略网络(policy network):在学习了大量棋谱的套路之后,AlphaGo形成了超强“预测能力” 。人机对弈之中,人类棋手还没动手,AlphaGo就已经猜到棋子可能会落在哪里。这时,它发现几个出现概率较高、看上去很有潜力的点。二是价值网络(value network):当策略网络解决了“棋子落地的概率分布”后,价值网络就开始考虑“下一步怎么走能赢”。先假设棋子下在某一点,然后对之后的对弈过程进行模拟,判断棋子这样走赢面大不大。

整个过程,需要用到一种叫做蒙特卡洛树搜索(MCTS)的算法,结合策略网络和价值网络的分析结果之后,最终确定了下一步的落子方案。

IBM“深蓝”电脑与AlphaGO的策略路径,从根本上是不同的:IBM“深蓝”电脑在设计程序时,程序员必须是深通棋理,靠严密的逻辑去赢。这很符合科学研究的一般思维方式,用严密的逻辑去证明事物的正确性。AlphaGO在设计程序时,程序员可以不用太了解棋理,只需通过学习很多“样本”,通过样本特征进行“建模”,這样对未知事物进行预测。

IBM“深蓝”电脑是“推理、分析很快”,AlphaGO是“学习很快”。机器的计算能力是无穷无尽的,可以有多少、学多少,其最终能达到的高度只取决于数据量。当数据量很充足的时候,机器学习方法所能得到的结果,可以无限逼近于事物的本质面貌。所以,AlphaGO并不懂棋理,也说不出什么理论基础,它只知道怎么下能赢,至于为什么要这么下,它自己也无法解释,谁也无法解释。归根到底,AlphaGO是靠数据训练出来的机器智能。

如何给“机器智能”做测试

AlphaGo风靡世界之际,如果有人问你什么是“人工智能”?大多数人给出的回答是模模糊糊的。你可能会觉得,只要“机器具备人的思考能力”就是人工智能,或者AlphaGo就是人工智能。这都是不准确的。

你首先要从根本上了解,“智能”究竟是什么,然后用人工的方法去创造它。计算机鼻祖阿兰·图灵在1936年就提出一个思想试验,叫“图灵测试(The Turing test)”。就是设计一个情景,在测试者(一个人)与被测试者(一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。进行多次测试之后,如果有超过30%的测试者不能确定,被测试者是人还是机器,那么这台机器就通过了测试,并被认为“具有人类智能”。以这个标准看来,IBM“深蓝”电脑就已经具有人类智能了。

可是,人类智能就这么简单吗?人脑最大的强项其实是人类可以从某一任务中学习,并将相关经验应用在其他未遇到过的问题,也就是“举一反三”。机器智能很难具备这种“举一反三”的能力,而DeepMind就是想赋予机器这种能力。换成专业术语,就是“要解决AI的通用性问题”。

AlphaGo最大的创新突破在于“通用学习”这四个字。AlphaGo打造的通用学习机器有两个特性,一个是“学习”,即非程序预设,可以自主学习原始材料;另一个是通用性,即同一个系统可以“举一反三”执行多种任务。按照哈萨比斯自己的话说,“通用的强人工智能,与现在弱人工智能不一样,目前弱人工智能都是预设的,其实IBM在上世纪90年代设计的国际象棋程序也是预设的人工智能,它是通过蛮力搜索,机器被动接受这个程序,不能自我学习。”

DeepMind追求的强人工智能,可以达到一种“观察和自主通用学习”的效果。智能体可以观察环境,这其中有视觉、听觉、触觉等观察方式。此后,在头脑中设置一个想法,然后采取行动,践行计划。在实时的观察中就可以行动。如果能解决这个问题,其实,强人工智能就已经实现了,这与人类这一智能体观察学习的方式是一样的。

当然,强人工智能体现在AlphaGo身上,并不仅仅只是感知环境、在机器大脑(处理器加上存储器)中形成想法,然后做出反应这么单调。说起来很不可思议,AlphaGo战胜人类棋手的一大关键是“直觉”!

下象棋,每走一步都可以讲出很多道理,这个逻辑是非常清晰的,所以,给IBM“深蓝”电脑预设智能程序,始终是在可推理的逻辑范畴内。围棋则复杂得多,更需要直觉,伟大的旗手往往难以解释他们为什么下了这一步棋。一个棋子怎么走,一步输步步输,牵一发而动全身。什么是直觉?人们通过各种体验获得经验,这是无法继承的,人们接受测试来检验他们的直觉。直觉,是没太多道理好讲的,所以,很难模拟,很难写进程序,但可以在具体的场景和应用中被检验出来。

AlphaGo最令人震惊的地方,是它已经能够模仿人的直觉。这就使AI科学走向一个新的境界,更接近理解人类的大脑运作,例如大脑如何产生创意、如何激发灵感等,目前,人类科学在这方面的探索还很初级。

AlphaGo的局限性

人工智能或者AlphaGo的技术核心就是“机器学习”,就是计算机利用经验数据,自动改善系统自身性能的行为。比如要教计算机认字,计算机要先把每一个字的图案反复看很多遍,然后,在计算机的大脑(处理器加上存储器)里,总结出一个规律来,以后计算机再看到类似的图案,只要符合之前总结的规律,计算机就能知道这图案到底是什么字。用专业的术语来说,计算机用来学习的、反复看的图片叫“训练数据集”。 你给计算机看很多样本,告诉它这是什么,比如给它看猫,它就学会了猫是什么,给它听很多声音就知道ABCD是怎么念的。简而言之,人工智能就是靠“经验数据”训练出来的。

不论怎么迭代升级,AlphaGo始终遵循一个基本逻辑:用数据训练算法,由算法催生智能,这个过程本身就带有很多局限性。主要有三个地方仍需要获得突破:

一、AlphaGo并没有完全实现人脑的学习方式。所有算法都会自动学习,更多的数据和更多的体验不依赖于预设程序,这是AlphaGo的一大创新突破。可是,AlphaGo的机器学习方式非常依赖数据,但人类却不是这么学习的——人类通过与家长、监护人的频繁互动进行学习,这个过程非常灵动且富有情感。所以,现在的机器学习其实是比较“笨”的,还远远没有摆脱“机械的痕迹”。

二、AI科学家依然只能赋予AlphaGo非常单纯的技术意义上的智能。创新工场董事长李开复曾表示:“谷歌AlphaGo再厉害也是人类的奴隶,他厉害的是能复制出1000个奴隶帮人类干活。现在的机器没有丝毫能力,没有感情,没有喜怒哀乐,这是什么时候都教不会的。”

三、AlphaGo实现了AI技术上的极大突破,但仍然缺乏牢固的科学基础。AlphaGo下围棋赢了柯洁,但它为什么落这一子?制造AlphaGo的DeepMind工程师们也不知道。所以,很多学界人士用“炼金术”来比喻这种技术成功。炼金术就是很多材料的巧妙搭配,产生化学反应的过程。人类科技史上,炼金术确实很管用,人们或是尝试了千百次,或是意外发现,找到了很多有价值的配方,催生了冶金、纺织和现代玻璃制造工艺,但这都不是科学。目前为止,AlphaGo的技术组合还没有能够建立在严谨、周密、可验证的科学知識之上。

当然,科技史上工程产品总是要先于理论一步,比如镜片和望远镜先于光学理论问世,蒸汽机先于热动力学问世,飞机先于飞行空气动力学问世,无线电和数据通信先于信息论问世,计算机先于计算机科学问世。AlphaGo或许只是先行了一步而已。其实,也并非像人们想象得那样,机器学得快、算得快,就能轻松战胜人类。在和李世石、柯洁的比赛中,AlphaGo赢了。但这是十年磨一剑,AlphaGo的胜利是很难的,也很了不起,在AI领域更是这样,十年磨一剑是常事。

当前的AI领域,是世界上最聪明的一些人在做最艰苦的技术磨砺。研发AlphaGo的部门“Google DeepMind”汇聚了一群异常聪明的天才,并且由杰米斯·哈萨比斯(Demis Hassabis)领头。哈萨比斯是一个彻头彻尾的工作狂,在哈萨比斯的坚持下,DeepMind被谷歌收购后仍在英国办公。每天他都要工作到夜里11点多,然后在大部分人都已经入睡时,他却开始了他所谓的“第二天”,与美国同事进行电话会议,一直持续到1点多。这之后,是他自己的思考时间,通常会持续至凌晨3点或4点,他的思考包括他的研究、下一个挑战等。基于优越的环境待遇和企业人文,无论谷歌的竞争对手如何在人工智能领域大举挖人,DeepMind的员工离职率至今仍为零。AlphaGo的每一个突破,都是世界顶级AI科学家艰难努力的结果。

人工智能存在了60多年,“机器学习”所基于的神经网络也存在五六十年了,而这个领域是跌宕起伏的,人类科学家在跌跌撞撞的艰难探索中,其实依然没有解决一个根本问题——人脑智能是如何产生的,这恰恰是人类科学需要解决的“元问题”。

推荐访问:是怎样炼成 高智商 AlphaGo

版权所有:首考文秘网 2015-2024 未经授权禁止复制或建立镜像[首考文秘网]所有资源完全免费共享

Powered by 首考文秘网 © All Rights Reserved.。备案号:冀ICP备15026071号-91