机器虽然不完美,已经可以下出优美的棋

“我们的棋用不了多少年就会被遗忘,只有武宫的棋才会流芳百世。” – 藤泽秀行

刚好周末,用了整个周末来学习AlphaGo,最成功的太太也一起参与学习

 

  • 无论结果如何,大家都得其所,这是个很好的结局

    - 谷歌团队如愿以偿,发现了程序缺陷
    - 职业棋手已经正视AI,并成为共识
    - AI将来有能力成为职业棋手学习的新途径,人最的优势是学习,过去和古人学,现在与AI学习,有何不可?
    
    • 两天的全程看了直播,一场聂老讲解,一场古力讲解
    • 本以为盘面越小机器越有优势,结果是:
      • 用在收官是正确的,关子几乎完美,无错
      • 本以为善于局部战斗,结果战斗力非常差
      • 本以为布局会比较差和棋型很丑,结果完全相反,第三局的棋型极为优美
    • 原来推测的自学习会是出错的原因,在第四局上得了证实
      • 选择树的决策算法不足,在出现了未预计的算法时,不知所措,被逆转
      • 在被逆转以后,连续走出了极低效率的棋

以我追求的的围棋观开头,AI和围棋我都是业余水平

  • AI 工作中用不上,学习过一点公开课和开源项目,顺便推荐吴恩达(aka. Andrew Ng)的机器学习公开课
  • 围棋只是业余水平

    • 对于AI(DL)/围棋我都不是利益相关人
    • 我不属于相关了商业和派系中
  • 围棋是个奇怪的东西,成人被10来岁的小孩欺负是很正常是现象

  • 基本上15岁没入段,这辈子也就这样了,武宫如此,吴清源如此。
  • 专业棋手大多5岁学期、10余岁出入段,20余岁已是世界冠军

谣言四起时,我的态度

  • 有不服,开始约战
    • 赞!人怎么可以害怕机器
  • 有阴谋论,开始爆谣言和黑幕。
  • 各种解读开始出现,有一些在长篇解读中掺杂“有特殊目的的观点”
    • 这个不能接受
  • 媒体大肆渲染,“天网”,“终结者”,“人类末日”
    • 最糟糕
  • 攻击算法
    • 不服可以约战嘛, 机器和机器也可以比
  • 夸大算法复杂度
    • 不排除围棋中很多不可能的下法,简单的19*19的计算不科学
  • 。。。

说正题

  • 不论这次胜负结果,不论是否有商业因素,不论算法成熟这次比赛的积极意义要更多
  • 之前的 新旧三架马车 论文,触发的发展,已经使业内和普通百姓都开始受益
  • 这次即使是炒作,但引起了包括普通人的关注,那么就是前进

我有一箩筐的问题

  • 情感,精力上机器和人有本质区别
    • 人有爱有憎有贪,这时多半要丢棋,昨天和今天李世石都出了错
    • 机器不会累,人的耐力有限。已聂棋圣为例,擂台赛的时候他都需要吸氧,多次因为缺氧出昏招丢棋
  • 人与机器学习的过程类似,甚至机器还有记忆优势
    • 人学棋大致是模仿(看高手、打谱),水平提升快还得有水平相当的对手,下多了慢慢有自己的棋风
    • 慢慢的最优解会成为定式,这个机器的核心优势,机器基本不会出错,会小部分“大雪崩” 变化的已经可以是业余高手,每年新出很多“定式”,人不可能学穷,但机器可以
  • 机器的棋风是什么?
    • 100盘以后,人差不多会有棋风,这是人的天赋,机器是否有棋风?
  • 算法是否经得起考验
    • AlphaGo 有一方面通过缩小范围来简化复杂度来判断,一方面通过局面的优劣来判断,最终如何处理是上述两个结果的加权处理结果。那么问题来了,论文中的最终结果判断还显得粗糙,或者保密了(论文中一个有趣的结论是:两个大脑取平均的结果比依赖两者各自得出的结果都要好很多)

AlphaGo 都是谁参与,资源是否充足

项目最怕的就是预算,一分钱难死英雄汉
AI的比赛多见是大赛,胜利者可以拿奖金。但即便是1M美金,又怎么够呢?

AlphaGo阵容豪华,如果要形容就是类似运动比赛中的“梦之队”,人员和资源令人羡慕,Facebook的黑暗森林投入要小很多

AlphaGo 项目主页
Nature 论文

人类下棋与机器学习有什么异同?


人如何决策下一步怎么走?

  • 选择一个效率最高的貉子(价值最大化)
  • 或者选择一个最紧急的落子(急手)
  • 需要有限的时间内完成选择(决策)
  • 上述决策可能以来于 计算、习惯、直觉、常识
    • 习惯有些走法是比如的但与性格冲突,性格强或者有最求的棋手是不会选择的
    • 直觉是棋感
    • 常识是定式、征子等经验总结

人力怎么计算,可以计算多少步?

吴清源在对木谷实(日本著名围棋大师)的回忆中写道:即便是对业余棋手下让九子的指导棋,他一般每局也要用半天以上。……
曾问其为何长考的理由。他回答说,”他首先在作为直感而浮现于眼前的四、五手中,从最不可能成立的一手开始,一子一子地往下计算。”
吴清源:”但是,除了中盘的绞杀和收官以外,其他的地方无论如何也是算不尽的。况且,对方若在自己计算范围外的地方打下一手的话,那么一切还得再从零开始算。 与木谷实相反,我首先在最早浮现于眼前的几手中,从最有可能成立的一手开始算,如这一手不行,再考虑另一手。

  • 一般业余水平可以算 2/3 种变化,10余步
  • 业务高手可以算 30步以上
  • 职业选手可以算 60步以上

    传闻:日本著名棋手加藤的算路很深,一次在拆解一个变化时停下来说:“不行,下面第三十四手有一个双打,黑没法两全”。当时坂田荣男在边上说:“可以,接着走到第六十二手的时候可以反吃回来。”

  • 算 3 步就可以是象棋高手,聂卫平当年去日本中日擂台,船上无聊先学国际象棋,结果杀翻所有象棋代表

棋力相差有多大

基于围棋段位是比赛得出,不是考试得出,所以业余同段的差距非常大

历史上没有对弈过的棋手,也不能对比,更多的是评价对围棋的影响而不是是不是世界冠军,比如木谷实先生

  • 职业棋手可让业余棋手的子数

    • 九段最高,实际上水平差距也很大,都是九段更多看是否得到头衔,比如“本因坊”、“名人”
    • 职业初段有可能赢九段
    • “一子三段”,段位上相差三段,就可以让一子
  • 职业棋手可让业余棋手的子数

    • 业余每段一子
    • 业余很难升5以上,业余5段以上的水平很难真正评价,棋力堪比职业也是可能的
    • 职业对业余7段 让先

人类学棋与机器学习有什么异同?

AlphaGo 自对局是否有意义

  • 对局数的边际效应,可以确定并不是越多越好,但边界点不明确
  • 自然人自对局对棋力提升很有限,更多可能是精神分裂

AlphaGo 是否过分的利用的集群能力

  • 比我想象的要好,赞!
    引用论文:

    AlphaGo uses an asynchronous multi-threaded search that executes simulations on CPUs, and computes policy and value networks in parallel on GPUs.
    The final version of AlphaGo used 40 search threads, 48 CPUs, and 8 GPUs. We also implemented a distributed version of AlphaGo that exploited multiple machines, 40 search threads, 1,202 CPUs and 176 GPUs.

tbd

怎么看对局

还没有打谱,看到第二局的布局,有点像 “中国流”

tbd

AlphaGo 的机理

周末读完论文补充

tbd

AlphaGo 中可以借鉴什么

周末读完论文补充

tbd

AI 在哪些领域已经影响生活

谷歌AlphaGo 团队

我的学棋经历

首日听闻后期逆转AlphaGo赢了,认为只是发挥失误。次日又闻已经 2:0 领先
心情又点复杂,想整理一下,首先想起的是这句,“我们的棋用不了多少年就会被遗忘,只有武宫的棋才会流芳百世。” – 藤泽秀行
我自己9岁学棋,师从家父。巅峰时期居然也是初中时期,限于自己的天赋,水平一直不入流

  • 最大的原因是苦于找不到合适的对手,几年下来,水平反而下降了
  • 初一杀下了高三的学长拿了校冠军、
  • 高中时候刚好遇上省运动会,我按告示去学生会报名时,老师一脸诧异,大概没想到有愣头小子来报名
  • 实际上已经内定了三位高三的学长,我去报名了也不能这样了,约了下课时候比一场,结果2:0两盘中盘胜拿了三席
  • 那时候主学小林光一和武宫正树,打谱基本就是这两位先生,尤其爱星位
  • 现实很残酷,走小林基本没输过,走武宫多半输棋,跌倒无数次还是不能回头,
  • 代表学校出战时,试探手过后,发现对手略弱,心思就起来了,想赢得漂亮,结果反而输了比赛

推荐阅读

AlphaGo 项目主页

Nature 论文

Nature 报道

Dan Maas 对论文的浅显总结

Google工程师木遥的观点

what-you-wanted-to-know-about-ai/

“人机大战”围观必读:谷歌AlphaGo背后的霸道总裁和科学狂人
谷歌详解的人机围棋大战的意义材料翻译