实时搜索: alphago为什么强

alphago为什么强

911条评论 4934人喜欢 2654次阅读 396人点赞
...

如何评价柯洁 alphago 第二局: 柯洁经历了英雄般的战斗后,依然第二局输给AlphaGo。
最有价值的信息可能来自AlphaGo之父萨比斯,中盘阶段他评论说:“不可思议,根据AlphaGo的评估,柯洁现在下得很完美。
”赛后萨比斯则评论:“这是一场惊心动魄的令人惊奇的比赛,柯洁几乎把AlphaGo逼到了极限。
”柯洁今天的最大收获是测出阿法狗的真实水平。
期望这次比赛能够验证。
当然它有两个前提条件,一是柯洁把最好水平发挥出来,二是AlphaGo能够经受真正的考验,而不是表面看它只赢一两个子,实际上后台胜率显示根本没有机会。
前天的第一局,AlphaGo赢了1.5目。
这是一个很小的差距,但柯洁下得谈不上多出色,因为从头到尾他基本没什么机会。
AlphaGo并不是一个赌徒,能赢100目绝不赢99;
它是根据胜率估算来行棋的,如果赢1目而它认为胜率是100%,就没必要去下赢100目而胜率只有99%的棋。
所以,第一局柯洁远远没有逼出AlphaGo的真正实力。
昨天AlphaGo方面的消息,认为这次虽然只是一个单机版,但棋力已经比去年赢李世石的时候提高了三子。
这是一个挺吓人的消息,因为它会让人类棋手觉得,目前这个版本至少比人类强三子以上。
老实讲这挺绝望的,三子以上,四子。
那等于彻底宣布人类棋手跟AlphaGo已经是天壤之别。
知道,面对一个可以让四子的对手,这是职业和业余的差距,比赛已经失去意义,准确地说那叫戏耍。
它可以只赢1目甚至半目,但不说明任何问题,就像柯洁也可以让只输半目,但那又能说明什么。
难道会跑大街上喊,快看,柯洁只赢了半目。
谁都知道,柯洁想怎么赢就怎么赢,半目和100目没差别。
今天的比赛,由于“几乎把AlphaGo逼到了极限”,虽然不是让子棋,但基本可以猜出,在人类棋手高水平发挥的前提下,目前AlphaGo让不到人类三子,可能是二子或者略多。
挂盘讲解的李世石也做出这种判断:AlphaGo并没有提升三子的实力,估计大概有二子。
至此,本次比赛人类棋手的目标或者说心愿已经达到:测试出AlphaGo的真正实力。
否则,AlphaGo就永远是上帝般的存在。
知道它强,但不知道它到底多强,所以它就是上帝。
知道,没有上帝。
如果由于无法评测AI(人工智能)的水平,而把它视为上帝一样的存在,这不是人类进化或者说发展的方向。
等于把命运交给未知,哪怕这个未知是人类创造出来的,也有理由疑虑甚至恐惧。
所以要感谢柯杰,不愧围棋第一人,他今天的勇气和表现,至少让暂时可以从外部角度了解到AlphaGo的真实水平。
这是比胜负更重要的事情。

谷歌AlphaGo到底有多强: 可以打的你妈都不认识

如何评价AlphaGo 最新版本 AlphaGo Zero: AlphaGo这个系统主要由几个部分组成:
走棋网络(Policy Network),给定当前局面,预测/采样下一步的走棋。
快速走子(Fast rollout),目标和1一样,但在适当牺牲走棋质量的条件下,速度要比1快1000倍。
估值网络(Value Network),给定当前局面,估计是白胜还是黑胜。
蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),把以上这三个部分连起来,形成一个完整的系统。
我们的DarkForest和AlphaGo同样是用4搭建的系统。DarkForest较AlphaGo而言,在训练时加强了1,而少了2和3,然后以开源软件Pachi的缺省策略 (default policy)部分替代了2的功能。以下介绍下各部分。
1、走棋网络
走棋网络把当前局面作为输入,预测/采样下一步的走棋。它的预测不只给出最强的一手,而是对棋盘上所有可能的下一着给一个分数。棋盘上有361个点,它就给出361个数,好招的分数比坏招要高。
DarkForest在这部分有创新,通过在训练时预测三步而非一步,提高了策略输出的质量,和他们在使用增强学习进行自我对局后得到的走棋网络(RL network)的效果相当。当然,他们并没有在最后的系统中使用增强学习后的网络,而是用了直接通过训练学习到的网络(SL network),理由是RL network输出的走棋缺乏变化,对搜索不利。

有意思的是在AlphaGo为了速度上的考虑,只用了宽度为192的网络,而并没有使用最好的宽度为384的网络(见图2(a)),所以要是GPU更快一点(或者更多一点),AlphaGo肯定是会变得更强的。
所谓的0.1秒走一步,就是纯粹用这样的网络,下出有最高置信度的合法着法。这种做法一点也没有做搜索,但是大局观非常强,不会陷入局部战斗中,说它建模了“棋感”一点也没有错。我们把DarkForest的走棋网络直接放上KGS就有3d的水平,让所有人都惊叹了下。
可以说,这一波围棋AI的突破,主要得益于走棋网络的突破。这个在以前是不可想像的,以前用的是基于规则,或者基于局部形状再加上简单线性分类器训练的走子生成法,需要慢慢调参数年,才有进步。
当然,只用走棋网络问题也很多,就我们在DarkForest上看到的来说,会不顾大小无谓争劫,会无谓脱先,不顾局部死活,对杀出错,等等。有点像高手不经认真思考的随手棋。因为走棋网络没有价值判断功能,只是凭“直觉”在下棋,只有在加了搜索之后,电脑才有价值判断的能力。
2、快速走子
那有了走棋网络,为什么还要做快速走子呢?有两个原因,首先走棋网络的运行速度是比较慢的,AlphaGo说是3毫秒,我们这里也差不多,而快速走子能做到几微秒级别,差了1000倍。所以在走棋网络没有返回的时候让CPU不闲着先搜索起来是很重要的,等到网络返回更好的着法后,再更新对应的着法信息。
其次,快速走子可以用来评估盘面。由于天文数字般的可能局面数,围棋的搜索是毫无希望走到底的,搜索到一定程度就要对现有局面做个估分。在没有估值网络的时候,不像国象可以通过算棋子的分数来对盘面做比较精确的估值,围棋盘面的估计得要通过模拟走子来进行,从当前盘面一路走到底,不考虑岔路地算出胜负,然后把胜负值作为当前盘面价值的一个估计。
这里有个需要权衡的地方:在同等时间下,模拟走子的质量高,单次估值精度高但走子速度慢;模拟走子速度快乃至使用随机走子,虽然单次估值精度低,但可以多模拟几次算平均值,效果未必不好。所以说,如果有一个质量高又速度快的走子策略,那对于棋力的提高是非常有帮助的。
为了达到这个目标,神经网络的模型就显得太慢,还是要用传统的局部特征匹配(local pattern matching)加线性回归(logistic regression)的方法,这办法虽然不新但非常好使,几乎所有的广告推荐,竞价排名,新闻排序,都是用的它。
与更为传统的基于规则的方案相比,它在吸纳了众多高手对局之后就具备了用梯度下降法自动调参的能力,所以性能提高起来会更快更省心。AlphaGo用这个办法达到了2微秒的走子速度和24.2%的走子准确率。24.2%的意思是说它的最好预测和围棋高手的下子有0.242的概率是重合的,相比之下,走棋网络在GPU上用2毫秒能达到57%的准确率。这里,我们就看到了走子速度和精度的权衡。

和训练深度学习模型不同,快速走子用到了局部特征匹配,自然需要一些围棋的领域知识来选择局部特征。对此AlphaGo只提供了局部特征的数目(见Extended Table 4),而没有说明特征的具体细节。我最近也实验了他们的办法,达到了25.1%的准确率和4-5微秒的走子速度,然而全系统整合下来并没有复现他们的水平。
我感觉上24.2%并不能完全概括他们快速走子的棋力,因为只要走错关键的一步,局面判断就完全错误了;而图2(b)更能体现他们快速走子对盘面形势估计的精确度,要能达到他们图2(b)这样的水准,比简单地匹配24.2%要做更多的工作,而他们并未在文章中强调这一点。

在AlphaGo有了快速走子之后,不需要走棋网络和估值网络,不借助任何深度学习和GPU的帮助,不使用增强学习,在单机上就已经达到了3d的水平(见Extended Table 7倒数第二行),这是相当厉害的了。任何使用传统方法在单机上达到这个水平的围棋程序,都需要花费数年的时间。在AlphaGo之前,Aja Huang曾经自己写过非常不错的围棋程序,在这方面相信是有很多的积累的。
3、估值网络

AlphaGo的估值网络可以说是锦上添花的部分,从Fig 2(b)和Extended Table 7来看,没有它AlphaGo也不会变得太弱,至少还是会在7d-8d的水平。少了估值网络,等级分少了480分,但是少了走棋网络,等级分就会少掉800至1000分。特别有意思的是,如果只用估值网络来评估局面(2177),那其效果还不及只用快速走子(2416),只有将两个合起来才有更大的提高。
我的猜测是,估值网络和快速走子对盘面估计是互补的,在棋局一开始时,大家下得比较和气,估值网络会比较重要;但在有复杂的死活或是对杀时,通过快速走子来估计盘面就变得更重要了。考虑到估值网络是整个系统中最难训练的部分(需要三千万局自我对局),我猜测它是最晚做出来并且最有可能能进一步提高的。
关于估值网络训练数据的生成,值得注意的是文章中的附录小字部分。与走棋网络不同,每一盘棋只取一个样本来训练以避免过拟合,不然对同一对局而言输入稍有不同而输出都相同,对训练是非常不利的。这就是为什么需要三千万局,而非三千万个盘面的原因。对于每局自我对局,取样本是很有讲究的,先用SL network保证走棋的多样性,然后随机走子,取盘面,然后用更精确的RL network走到底以得到最正确的胜负估计。当然这样做的效果比用单一网络相比好多少,我不好说。
一个让我吃惊的地方是,他们完全没有做任何局部死活/对杀分析,纯粹是用暴力训练法训练出一个相当不错的估值网络。这在一定程度上说明深度卷积网络(DCNN)有自动将问题分解成子问题,并分别解决的能力。
另外,我猜测他们在取训练样本时,判定最终胜负用的是中国规则。所以说三月和李世石对局的时候也要求用中国规则,不然如果换成别的规则,就需要重新训练估值网络(虽然我估计结果差距不会太大)。至于为什么一开始就用的中国规则,我的猜测是编程非常方便(我在写DarkForest的时候也是这样觉得的)。
4、蒙特卡罗树搜索
这部分基本用的是传统方法,没有太多可以评论的,他们用的是带先验的UCT,即先考虑DCNN认为比较好的着法,然后等到每个着法探索次数多了,选择更相信探索得来的胜率值。而DarkForest则直接选了DCNN推荐的前3或是前5的着法进行搜索。我初步试验下来效果差不多,当然他们的办法更灵活些,在允许使用大量搜索次数的情况下,他们的办法可以找到一些DCNN认为不好但却对局面至关重要的着法。
一个有趣的地方是在每次搜索到叶子节点时,没有立即展开叶子节点,而是等到访问次数到达一定数目(40)才展开,这样避免产生太多的分支,分散搜索的注意力,也能节省GPU的宝贵资源,同时在展开时,对叶节点的盘面估值会更准确些。除此之外,他们也用了一些技巧,以在搜索一开始时,避免多个线程同时搜索一路变化,这部分我们在DarkForest中也注意到了,并且做了改进。
5、总结
总的来说,这整篇文章是一个系统性的工作,而不是一两个小点有了突破就能达到的胜利。在成功背后,是作者们,特别是两位第一作者David Silver和Aja Huang,在博士阶段及毕业以后五年以上的积累,非一朝一夕所能完成的。他们能做出AlphaGo并享有现在的荣誉,是实至名归的。
从以上分析也可以看出,与之前的围棋系统相比,AlphaGo较少依赖围棋的领域知识,但还远未达到通用系统的程度。职业棋手可以在看过了寥寥几局之后明白对手的风格并采取相应策略,一位资深游戏玩家也可以在玩一个新游戏几次后很快上手,但到目前为止,人工智能系统要达到人类水平,还是需要大量样本的训练的。可以说,没有千年来众多棋手在围棋上的积累,就没有围棋AI的今天。

最强版AlphaGo40天登顶世界冠军是什么情况?:

10 月18 日,DeepMind 在杂志上发表了新论文,正式向世人介绍了AlphaGo 的最新版本——AlphaGo Zero,官方称之为AlphaGo 的「终极版」(Final Version)。

毫无疑问,AlphaGo Zero 就是当今世上棋力最强的围棋选手。更可怕的是,AlphaGo Zero 的成长,完全没有人类进行干预。



从一开始,AlphaGo Zero 就是一张白纸,人类只教给了它最基础的围棋规则,以致于最开始,AlphaGo Zero 甚至会填真眼自杀。

但仅仅过了三天,AlphaGo Zero 就有了惊人的进步,曾经击败李世乭的AlphaGo Lee,此时已经不是AlphaGo Zero 的对手。整整100 场对决,没有赢过AlphaGo Zero 一次。

自我对弈到21 天时,AlphaGo Zero 已经达到了Master 的水平,2016 年底,Master 曾在网上与数十位人类顶级棋手交战,最终以60:0 的大比分完胜。

最终,当AlphaGo Zero 自我对弈到第40 天时,已经击败了之前所有版本AlphaGo 程序,成为新晋的「世界围棋冠军」。





AlphaGo Zero 强大的秘密在哪里?

AlphaGo Zero 采用了新型的「强化学习」模型,让自己成为自己的老师。尽管一开始,对弈双方的水平都不怎么样,但经过将神经网络与强大的搜索算法相结合,不断地对棋路进行调整,最终得以预测对手的动作,并取得胜利。

AlphaGo Zero 进行自我对弈的好处在于,每一场对决,双方的棋力都处在同一水平线上,每场对弈过后,系统性能都会小幅上升,自我对弈的水准越来越高,AlphaGo Zero 也随之变得越来越强。


这项技术让AlphaGo Zero 得以完全摆脱人类的束缚,创造自己的知识体系。虽然调用的算力更少了,却能成为了更强大的棋手。

alpha-go的计算能力等同于多少台服务器: 找到一篇文章

这么说吧:1997年下赢国际象棋冠军卡斯帕罗夫的“深蓝”是一台超级计算机,而即将和李世石对决围棋的AlphaGo却是谷歌旗下公司DeepMind开发出来的人工智能程序。强行把这二者拉在一起比较……少年我们还是来谈谈世界和平吧。不过AlphaGo作为程序,最终还是要运转在计算机上才能去和人类比个高下的。所以把问题换成“即将和人类下围棋的那台计算机到底比深蓝厉害多少倍?”
  我们还是能够简单计算一下给出大致答案的。毕竟在衡量计算机性能方面,我们已经有了一个相当统一的标准:每秒浮点运算次数,为了方便起见,我们下面一律称之为“FLOPS”。
  千万别被“浮点运算”这个计算机术语吓跑,说人话的话,浮点运算其实就是带小数的四则运算,比如1.2加2.1就是一个典型的浮点运算。如果你的小学数学老师不是美国人的话,那么我们估计这会儿你早就心算出结果是3.3了。不过这对计算机来说,这个问题没那么简单。
  我们知道,计算机是以0和1构成的二进制数字进行运算的,比如在基础的二进制里,1就是1,2就变成了10,3是11,4是100……这种运算方式让我们可以用最简单的电路元件组装出稳定有效的计算机器,但它也带来一个问题:计算机能够处理的数字只有整数。如果想不借助任何其他的数学方法,用0和1表示一个0.1……少年我们真的还是来谈谈世界和平吧。
  解决这个问题的办法很简单:0.1可以看成是1除以10的结果,我们想让计算机计算一个带小数点的数字,只要告诉CPU这是一个被1后面加了多少个0整除的整数就行了。不过这样一来,计算机在处理小数点的时候,就多了好几个运算步骤。所以进行浮点运算的速度也就成了衡量计算机性能的标准。
  拿在国际象棋上击败人类的深蓝来说,它的计算能力是11.38 GFLOPS,意思就是深蓝能在每秒钟里计算113.8亿次带小数的加减乘除。而在二战期间帮助美国设计制造原子弹的第一台通用计算机ENIAC,它的性能只有300 FLOP。
  在今天看来,深蓝的性能怎么样?三个字:弱爆了。单就PC中使用的CPU来说,早在2006年,英特尔推出的第一代酷睿2就已经稳稳地超过了深蓝。这还没有算上显卡里GPU带来的效果加成,今天最普通的集成显卡,其性能也已经超过了700 GFLOPS。如果真要在性能上比个高下,深蓝这种上个世纪的超级计算机,就算组团也不一定能单挑你面前的这台笔记本电脑。
  那么今天的超级计算机已经达到了什么样的性能水平?我们国家的天河二号是世界最快的超级计算机,它浮点运算能力已经达到了33.86 PFLOPS。也就是说,深蓝要在性能上增长到自身的30万倍,才能和天河二号相提并论。
  不过对于深蓝来说,这样的比较实在是太不公平。因为即便在当年,深蓝也不是速度最快的超级计算机。相比之下,只有通过谷歌AlphaGo使用的电脑,我们才能比较出这20年里,我们的计算机到底经过了怎样惊人的发展。
  根据谷歌团队发表在《自然》杂志上的论文, AlphaGo最初是在谷歌的一台计算机上“训练”人工智能下围棋的。按照论文里的描述,谷歌利用这台计算机,让AlphaGo的围棋水平提升到了与欧洲冠军樊麾接近的地步。不过论文除了提到这台计算机装有48个CPU和8个GPU之外,对计算机的性能连一个数字都没有提到。好在AlphaGo是在云计算平台上运行的,我们只要找来竞争对手的计算机数据比较,就可以了解到大概了。
  比如说去年12月,阿里云对外开放的高性能计算服务。按照阿里云的描述,这些计算机的单机浮点运算能力是11 TFLOPS,而且同样可以用来训练人工智能自行学习。如果谷歌的计算机性能与阿里云接近的话,那么AlphaGo所驱动的硬件,性能至少是深蓝的1000倍。
  但故事到这里还没有完,AlphaGo并非只有“单机版”一个版本。为了达到更高的运算能力,谷歌还把AlphaGo接入到了1202个CPU组成的网络之中。联网后的AlphaGo算力猛增24倍,一下子从“单机版”不到职业二段的水平,跳跃到了职业五段上下的水准。
  所以AlphaGo比深蓝厉害多少倍?估计这会你已经得出答案了:2.5万倍。从这个角度,我们也能看出来,围棋究竟是怎样复杂的一种智力游戏,以至于计算机的性能需要20年的提高,才能在象棋上战胜人类后,再在围棋棋盘面前,坐到人类顶尖选手的对面。不过归根揭底,AlphaGo最重要的成就并不是采用了性能多么优秀的电脑,而是第一次让程序可以以人类的方式思考、学习和提高。所以过几天的比赛,无论谁输谁赢,我们见证的都是一个崭新纪元的开端。
  当然别忘了关注新浪科技,我们到时候会在最前方,带你迎接这个新纪元的第一道曙光。

的机器人牛吗,和 AlphaGo 下围棋哪个更厉害: 你好,他不是机器人是软件,是目前围棋最高水平

如何评价AlphaGo在第五局战胜了李世石?本局有什么值得关注的地方: 狗狗上一盘输了,这盘虽然赢了,但是失误不少。证明了狗狗现在还不是很完善。

谷歌如果回去完善这个问题,并且坚持训练。半年以后再拿出来,或许会更强。可能会独孤求败。

但是,狗狗或许还是有弱点的,这次发现了一些漏洞,不代表它没有其他弱点。谷歌回去也不一定能修复他们发现不了的漏洞。

但是狗狗最可怕的是进步神速,短短几个月能从欧洲冠军进步到世界冠军。

下次如果还有人机大战,人类对局成绩也不一定有这个好。因为它即便还存在弱点,短短五盘棋,人类不一定能发现,发现了也不一定是左右输赢的弱点。

很有可能的是,这次人机大战结果已分,谷歌可能不会再让狗狗继续玩围棋了。毕竟这都是很费钱的,所以,狗狗很可能不会再训练了

AlphaGo 算法的通用性到底有多广: 不是alphago聪明。 而是他后面的技术团队强大。 2010年在英国首都伦敦,三位年轻的极客首度建立Deepmind团队,这便是戴密斯·哈萨比斯、塞恩·雷格和穆斯塔法·苏莱曼。2014年,在谷歌和脸谱两家巨头之间为Deepmind曾展开过激烈竞争。

  • pptv西甲女主持是谁

    什么水果或者食物含有维生素ab: 维生素分为:A、B2、烟酸(维生素B族的一种)、B5、B6、生物素(维生素B的一种)、B12、B13、B15、B17、叶酸(维生素B族的一种)、对氨基苯甲酸(维生素B族的一种)、C、D。 作用我就不说了,我就说你缺什...

    548条评论 1527人喜欢 1716次阅读 871人点赞
  • 2017扫黄严打多久结束

    ABT改装版奥迪SQ8,一件堪称神作的艺术品: 奥迪SQ8是奥迪Q系列SUV家族中最顶级的高性能版本车型,它不仅拥有十分霸气的外形,关键是其强悍的性能甚至能和跑车媲美,也让人不禁称赞。而ABT Sportsline一直是大众汽车集团最主要的改装厂商之一,可以说被作...

    749条评论 1417人喜欢 4411次阅读 218人点赞
  • p9能用多久

    范冰冰和AB到底谁更美: 个人认为是范爷,范爷气场有范,AB是中印混血,在日本整容才成了现在的样子,360度美的无死角,不过网上说凤姐和AB就是一间整容医院的距离,到不是说她整容不好,只是看完《奔跑吧》就觉得AB这人有点烦人 ...

    591条评论 4475人喜欢 3563次阅读 637人点赞
  • 12岁善卡优锌硒宝片一次吃多少

    我有个朋友已经患类风湿病2年了,请问有什么ab办法吗?: 有位亲人得次病近二十年,现她基本什么事都能自理,除偶尔感到不适吃点消炎药,现也没吃什么要药,五十好几了身体没有顶大问题,只是力气差点,太重的活干不了。她最注重就是心情舒畅,多作适当的运动,活动四肢关节,常用热酒擦拭手...

    370条评论 5164人喜欢 2909次阅读 549人点赞