欢迎来到五星直播,今日还有0场体育赛事直播,敬请观看。

柯洁 alphago 没直播 鼎盛时期的吴清源会有希望战胜AlphaGo吗

发布时间:

2023年08月03日 09:25

类型:

资讯

来源 :

随着科技和社会的发展,柯洁 alphago 没直播领域不断创新和完善,为人类带来更多的健康和快乐。鼎盛时期的吴清源会有希望战胜AlphaGo吗将探讨柯洁 alphago 没直播领域的最新发展和趋势,柯洁 alphago 没直播为相关研究人员提供有益的信息和观点。

为什么说Alpha Go退役了,人类的大麻烦来了

是谁这么说的?奇怪~

前些天,AlphaGo重出江湖了,带来的可是好消息。

繁体字看着有点累:

大家好,很高兴向大家宣布,AlphaGo教学工具上线了。

这是一个AlphaGo教学的开局库,相关细节如下:

本教学工具总共收录了约6000个近代围棋史上主要的开局变化,从23万个人类棋谱中收集而来。

所有盘面都有AlphaGo评估的胜率,以及AlphaGo推荐的下法。

所有AlphaGo的胜率与推荐下法,AlphaGo都思考将近10分钟(1000万次模拟)。

每一个开局变化,AlphaGo都固定延伸20步棋。加上AlphaGo的下法,整个教学工具约有2万个分支变化,37万个盘面。

受限于投稿《自然》杂志的时程,本教学工具使用的版本是AlphaGoMaster。希望大家享受AlphaGo教学工具中的创新下法,也能从中有所收获。

也就是说,之前不断灭人类威风的AlphaGo现在化身为人类的围棋老师,要教人类下棋了。

棋士柯洁很快就做出反应:重新学习围棋,其实没那么严重。现在人人都可以登录AlphaGoTeach官网(https://alphagoteach.deepmind.com/zh-hans),与这位不知道段位的Go老师切磋棋艺。

这是官网标注的数据来源:

(图自腾讯野狐围棋)

项目主页的介绍支持英语、简体中文、繁体中文、日文和韩文阅读,还真是贴心,机友们有围棋爱好者不可错过良机啊。

点击棋盘上的彩色圆圈,或使用棋盘下方的导航工具,即可探索不同的开局变化,以及AlphaGo对于每一步棋的黑棋胜率预测。

浅蓝色虚线圆圈代表AlphaGo的下法,蓝紫色圆圈为人类棋手的下法。圈中的数字为黑棋的胜率,当轮到黑棋落子时,数值越接近100表示黑棋优势越大;当轮到白棋落子时,数值越接近0表示白棋优势越大。

大家可以看看DeepMind围棋大使樊麾在12月11号的微博,看大神是怎么说的。

不过我们还没回答文章开头的问题:它带来了什么好处呢?

摘录两位中国围棋院高手的说法:

很多人会担心今后布局的标准化,其实不必担心。教学工具并不是告诉大家“只能这么下”,而是告诉大家“有些下法不太好”以及“可以这么下”。有些图中没有的下法只是因为模拟的随机性而未被收录,它们之中包含很多高胜率的选点,仍可以大胆尝试。

AlphaGo教学工具,是提供给我们更多的想象和可能;而不是提供标准的答案。是打开我们的心灵,使我们有捷径通往寻求艺术的大门;而不是关闭我们的心灵,从而失去对艺术的求知和渴望。

两位棋士的话其实由浅入深的回答了关于AlphaGo甚至更多AI工具的作用:提供可能性和解决问题的捷径。

还有一个小小的好消息,尽管AlphaGo官方不会提供单机版的AlphaGo,但是其团队已经发表了论文,其他的AI会复制,借鉴AlphaGo的技术再往前去。

阿尔法元(AlphaGo Zero)为什么能无师自通

如果学习模仿人类,那最多也就只能模仿人类而已。在很多复杂的局面中,存在着人类永远发现不了的新见解。

掀翻世界围棋冠军后仅仅19个月,计算机程序AlphaGo跨越了一个更大的障碍:它现在能全凭自学达到前所未有的围棋水平。取名AlphaGoZero的新版程序刚开始对围棋策略一无所知,在不接受任何人为训练的情况下,只用了三天时间,就创造出几千年来人类围棋手从未想到的高明策略。这项突破让人工智能摆脱对人类知识的依赖,为智能机器的未来消除了一个主要限制。

早期版本的AlphaGo在人类的指导下,利用两种方法来学习围棋。一是监督学习,研究人员把10万场业余高手的对局输入程序,教它模仿人类的走法;二是强化学习,他们让程序自己下棋,从结果中吸取经验教训。

AlphaGoZero跳过了第一步。该程序从白丁开始,只知道围棋的规则,自己跟自己对弈。起初,它把棋子随机地放在棋盘上。随着时间的推移,它能更好地评估棋盘上的局势,发现有利的落子位置。它还学会了围棋策略中的很多诀窍,自己发明了新招数。

“如果你学习模仿人类,那最多也就只能模仿人类而已,”密歇根大学计算机科学家桑汀德·辛格(SatinderSingh)说,“在很多复杂的局面中,存在着你永远发现不了的新见解。”

经过三天的训练和490万场练习赛后,研究人员让AlphaGoZero和曾经打败世界围棋冠军的旧版AlphaGo一决高下。AlphaGoZero取得了100:0的全胜战绩。

在行家眼中,这个结果令人震惊。

围棋比国际象棋复杂得多,走法多不胜数,单纯的强化学习似乎无法掌握,你会认为AlphaGoZero将永远摸不着头绪,盲目地寻找可行的策略。然而,它很快就培养出了人类无法企及的能力。

高效的学习过程归功于反馈回路。和其前身一样,AlphaGoZero通过一个名为“树搜索”的过程来确定下一步棋的走法。该程序从当前的盘面入手,考虑可能的落子位置,接着考虑对手会怎么下,然后再考虑自己如何应对,以此类推,形成一个模拟不同落子组合、产生不同盘面的分支树图。

AlphaGoZero无法穷尽搜索树的每个分支,因为这需要极为强大的计算能力。它通过确定哪些路径最有取胜希望,有选择地修剪枝丫。它根据以前学到的致胜走法和盘面,来计算应该修剪哪些枝丫。

早期版本的AlphaGo也是这么做,但AlphaGoZero的新颖之处在于,它不是运行树搜索,然后走一步棋,而是记住树搜索的结果以及对弈的结果,然后利用这些信息,调整它对具有取胜希望的走法和不同落子位置的致胜可能性的判断。因此,下一次运行树搜索的时候,它能利用改善后的判断(经由以前的树搜索结果加以训练),来进一步改善对最佳可能走法的判断。

AlphaGoZero背后的计算策略很有效,特别是在拥有众多可能性、需要找到最优解的情况下。在描述AlphaGoZero研究的论文中,作者们写到,他们的系统可用于材料研究(识别让材料具有不同属性的原子组合)和蛋白质折叠(了解蛋白质的三维结构如何决定其功能)。

至于围棋,AlphaGoZero带来的影响可能是惊天动地的。迄今为止,游戏公司未能开发出世界级的围棋软件。AlphaGoZero可能改变这一点。美国围棋协会执行副总裁安德鲁·杰克逊(AndrewJackson)认为,不久后围棋应用程序将面市。这将改变人类围棋手的训练方式,也将使作弊变得更容易。

对于AlphaGo来说,其未来是无限宽广的。围棋十分复杂,没人知道一个能够自学的计算机程序将达到怎样的高度。现在,AlphaGo有了能够匹配围棋之广博的学习方法。

翻译:于波

来源:QuantaMagazine

造就:剧院式的线下演讲平台,发现最有创造力的思想

鼎盛时期的吴清源会有希望战胜AlphaGo吗

这是完全没有可能的。即使吴清源处于鼎盛时期,也没有任何可能战胜今天的AlphaGo。首先吴清源时代的围棋与今天的围棋差距甚多,主要是现代围棋比以前更加激烈了许多,将胜负从过去的中盘提前至布局;其次是阿尔法狗的深度学习功能实在强大,它每天的对局量相当于人类数百年,如果人类也有这样的对局量,相信人类的功力也会大增。

现代科技实在过于强大,已经超过人类智慧所及,比如说阿尔法狗的服务器一再升级,已经到了不再需要人类棋谱就能自己提高功力的地步。有说法是阿尔法狗的升级版Master要让2016年与李世石对战时的AlphaGo三个子,这意味着什么?等于说AlphaGo2.0版与AlphaGo1.0版的实力差距相当于职业与业余的巨大差距了!

吴清源的强大在于他跳出了前人的窠臼,不再拘泥于边边角角,将视角放到了广袤的中腹,他在棋上没有禁忌,什么棋都敢下,在当时简直就是离经叛道,正因为他在棋盘上更给自由和奔放,又拥有高出同时代棋手的天赋,所以他才成为那个时代的围棋巨擘。

但与AlphaGo比起来,鼎盛期的吴清源也完全不是对手,主要是技术上AlphaGo要先进得多,尽管吴清源在很多方面神似AlphaGo,比如下棋自由自在,看重中腹价值和行棋速度等等,但胜负是要通过真刀真枪比拼的,在技术上,AlphaGo已经达到了人类无法企及的地步。

如何评价DeepMind发表在Nature上的AlphaGo Zero

我个人认为,这个是人工智能发展的里程牌来的,同时也意味着人工智能会出现新的研究方向。再看看其他人,是怎么样评价的,其中柯洁回应最亮了

安全专家评价

金山毒霸安全专家是这样子评价的:AlphaGoZero(阿法元)“成神”了,不需要人类历史数据训练,并且已经100:0打败李世乭的大哥AlphaGo,也打败了AlphaGomaster(和柯洁对战的)。

知乎上的评价

作者:何之源

https://www.zhihu.com/question/66861459/answer/246746766

从技术上说,最主要的创新是以下两点:

从多网络到单网络。原AlphaGo用了两个网络,决策网络用于预测可能的走法,价值网络用于评价当前局势的优劣。这次的AlphaGoZero将这两个网络合二为一,新的网络同时输出走法p和局势打分v。从卷积网络到残差网络(此处再次膜拜KaimingHe大神)

论文作者证明了架构的改变对结果的影响非常大!请参考下面的对比图。“dual”表示使用合并的网络,“sep”表示分开的网络,“conv”表示一般的卷积网络,“res”表示残差网络。使用同样的训练样本,同样的训练步数,dual-res的elo分值比原先AlphaGo的sep-conv架构高出了1000多分,可见新的网络架构提升了网络的表达能力,训练起来也更加简单。

另外有人疑惑的是,算法是如何进行通过自我博弈来学习的?详细解释一下,假设一开始有一个完全随机的网络N,这个网络完全是一个围棋小白,不具备任何的知识。根据上面的架构,N有两个输出,预测的走法p和对局势优劣的判断v。如果稍微有一点点机器学习的相关知识,就会知道训练网络是需要训练样本的。应该如何得到训练样本?参考原论文中的训练过程:

在a步骤,N网络利用自身的输出p和v,自己和自己对弈。不管此时N网络是什么水平,最终都会有一个胜利者,我们就用胜利者的走子方式作为N网络的训练正样本。

再到b步骤。此时用a步骤得到的训练样本进行训练,就得到一个新的N网络。由于使用了胜利者的走子进行训练,这个N网络会比之前的N网络稍微“强一点点”。然后再重复自我对弈->训练->自我对弈……的过程,N网络就会不断迭代变得越来越厉害。如果你知道DQN算法或者PolicyGraident算法,就会发现这种迭代过程是和它们一模一样的。

可以预见的是,这篇文章之后,很快会有一大波“AlphaGo”横空出世,每个围棋爱好者都可以拥有自己的“AlphaGo”。原因有二,一是之前训练一个AlphaGo需要收集大量人类棋局数据,这其实是有门槛的,现在连搜集棋谱数据也不用了,直接就可以训练。二是需要的资源也大大减少。打败李世石的那个AlphaGo,需要在多台服务器上用48个TPU训练几个月的时间,这种资源别说是个人,就算是公司也很难的负担得起。作为对比,这次的AlphaGo仅仅需要一台机器4个TPU,训练3天就可以打败之前的AlphaGo,在计算资源的需求上少了太多,相信用单个GPU也能达到比较decent的结果。

最后,上一张官方的动图,可以直观感受到深度强化学习的威力(只用40天,超越人类几千年的经验):

最亮的回应

原话:一个纯净、纯粹自我学习的alphago是最强的...对于alphago的自我进步来讲...人类太多余了

PS:心疼柯洁三秒钟。。。。

PS:对此,大家有什么看法,欢迎大家关注、转发、点赞、评论、收藏等方式交流。

在柯洁与AlphaGo的三番棋赛中你会为AlphaGo加油吗,为什么

柯杰只能摆正心态,把正常的训练水平发挥出来,走出好棋自然会受到人们的尊重,因为身后眼睛太多,保持平常心都难,何况年轻气盛。放下输赢是关键,拿曾国藩一句话屡败屡战又何妨?

总之,本文的研究成果为柯洁 alphago 没直播提供了重要的参考和借鉴,希望未来的研究能够进一步深入探讨柯洁 alphago 没直播的问题,为其发展提供更多的有益信息和思路。

相关球队 
  • 视频集锦

  • 足球录像

  • 回放片段