我是黄士杰,AlphaGo人肉臂

2017-06-01 09:29 稿源:量子位  0条评论

 文/舒石 (来源:量子位 ID:QbitAI)

他面无表情,他冷静镇定,他会出现在对手的梦里,他是AlphaGo人肉臂。他热情幽默,多才多艺。他很少登台演讲。他不被允许接受采访。他是AlphaGo真正的创造者。他是Aja,黄士杰。

许峰雄绰号“CB”。

1980 年,许峰雄(Feng-Hsiung Hsu)从台湾大学本科毕业, 1985 年考入卡内基梅隆大学。 1988 年,CB制造出国际象棋程序Deep Thought(深思),后来经过学弟李开复介绍, 1989 年加盟IBM继续展开研究。

1997 年

这一年 5 月 11 日,卡斯帕罗夫与Deep Blue(深蓝)的第二次国际象棋人机大战落幕,最终人类棋王以2½-3½的总比分,不敌IBM的超级电脑。

这是载入人类历史的一战。

Deep Blue,就是CB许峰雄在IBM开发出的新一代国际象棋电脑程序,棋力数百倍于早先的Deep Thought。

△ 卡斯帕罗夫与深蓝的国际象棋人机大战

同年 7 月,台北成功高中的黄士杰参加联考。当年国文试题第 15 题,B选项是:现代电脑的优点多得「罄竹难书」令人不得不叹服 。

黄士杰最终考入台湾交通大学,四年后获得计算机与信息科学学士。 2001 年,黄士杰考入台湾师范大学攻读研究生学位。

2003 年,黄士杰硕士毕业。毕业论文:《电脑围棋打劫的策略》。在学校当了一年的研究助理后, 2004 年,黄士杰再次考入师大资讯工程研究所博士班。

2007 年

这年 2 月 28 日,台湾师范大学的学生组织了一次围棋同好聚会。随后这个定期的聚会,发展为师大围棋社,黄士杰是其中年纪最大的学长,并担任首届社长。 3 月,黄士杰拟定了首次对战分组表,比赛地点在男生宿舍地下餐厅。

△ 左一是师大就读期间的黄士杰

同年 5 月,黄士杰带领师大围棋社参加台湾大专杯围棋赛。曾经有台湾媒体报道称黄士杰曾经带领师大围棋社在这项比赛中夺冠。不过量子位仔细查找后发现,师范大学仅在 2009 年获得过第五名,其他年份均榜上无名。

同一赛事 15 个级别的个人战中,前八名也没有看到黄士杰的名字。2004- 2011 年间,黄士杰一直博士在读,而他的棋力水平是业余六段。

虽然没能在人类的围棋赛中获得瞩目成绩,但黄士杰在另一条路上继续进发。他的一个主要战场是国际计算机游戏协会(ICGA)组织的电脑棋类程序竞赛。顾名思义,来自全世界的电脑高手,在象棋、围棋等领域展开斗法。

在这个比赛中,黄士杰的名字写作:Shih-Chieh Huang。

2006 年,黄士杰独自开发的第一款围棋程序AjaGo,获得围棋大赛第 11 名;他参与的中国象棋程序Elephant(大象),获得大赛的铜牌。此后几年,黄士杰开发的围棋程序参赛成绩一直没有亮眼的成绩。

2010 年

这一年 9 月,哈萨比斯(Demis Hassabis)等三人在英国伦敦合伙成立了一家新公司,名字叫做DeepMind。

△2010 年黄士杰开发的Erica击败Zen获得冠军

同一个 9 月,黄士杰在Rémi Coulom的指导下,开发出围棋程序Erica,并在围棋比赛中击败日本的Zen,获得当年的冠军。这在当时可算了不起的成就。Rémi Coulom是另一个围棋程序Crazy Stone的作者。

因为Erica的夺冠,让黄士杰在参加博士毕业答辩前,就已经获邀前往加拿大阿尔伯塔大学攻读博士后,并担任电脑围棋程序的研究员。他的博士论文题目是:《应用于电脑围棋之蒙地卡罗树搜寻法的新启发式演算法》。

2011 年 6 月,黄士杰博士答辩通过, 7 月 1 日,黄士杰飞赴加拿大。

此时,他后来会遇到的席尔瓦(David Silver),早于一年前从阿尔伯塔大学离开,前往伦敦大学学院。在伦敦,席尔瓦会遇到哈萨比斯。

到阿尔伯塔大学后,黄士杰继续研究蒙特卡洛树搜索。他还浅度参与了Fuego的开发,这个团队里还有Markus Enzenberger、Martin Müller等人,这个围棋参加了当年的ICGA大赛,不过可谓一无所获。

当年 11 月,夺冠的还是Zen。

时间再过一年, 2012 年 11 月,黄士杰也来到伦敦,加入DeepMind担任高级研究员。至少从这个时候开始,黄士杰开始用新的英文名:

Aja Huang。

2014 年初

加入DeepMind的两年里,黄士杰似乎没有重大的研究成果。从论文发布量上看,也是如此, 2014 年前几乎搜不到他发的论文。

然而事情很快有了转机。

2014 年 1 月 26 日,Google宣布 5 亿美元收购DeepMind,拿下这家日后会大放异彩的初创公司。

△ 左为哈萨比斯,右为席尔瓦

有一天,席尔瓦走到黄士杰面前说:“Aja,我们准备启动一个围棋项目。最开始只有你和我”。 2014 年 2 月,AlphaGo项目正式启动,团队三个人:哈萨比斯、席尔瓦、黄士杰。哈萨比斯是整个公司的老板,席尔瓦是黄士杰的经理。所以,这个团队真正干活的只有黄士杰一个人。

AlphaGo项目,就是想搞出一个强大的围棋程序。而且从一开始,这个团队就决定不会尝试所有的方法,他们只有一个方向:沿着深度学习和强化学习的方向探索。也是从一开始,他们就知道这是一个非常困难的挑战。

哈萨比斯说,希望通过AlphaGo的研究,让机器获得直觉和创造力。

而更现实的困难是,与国际象棋相比,围棋的计算空间巨大,而且电脑无法理解一盘棋到底谁获得了胜利。

但他们就这样出发了。

2014 年 6 月- 2015 年 6 月

这年夏天,AlphaGo的第一个重要武器出现了。在卷积神经网络的帮助下,AlphaGo学习了很多人类高手的棋谱,能在 3 毫秒内做出比肩人类的下棋直觉。后来黄士杰给这个武器命名:“策略网络”,并且持续进行训练优化。

这个时候,AlphaGo的训练还是在GPU上完成的。

时间再过一年。 2015 年 6 月,AlphaGo拥有了更强大、分布式的搜索技术支持。阅读棋局的能力大幅提升,可以检索多种局面变化,并且找到最佳的应对方式。这个时候的AlphaGo,可以算出后续40- 60 步棋。

(量子位注:击败柯洁的最新版AlphaGo,也只算到 50 步棋就停止了。)

当时在相同的硬件条件下,AlphaGo对另一个围棋程序Crazy Stone取得了70%的胜率,换句话说棋力领先了一个子。这个成就让整个DeepMind都很受鼓舞,哈萨比斯这时候对黄士杰说:

“Aja,咱们要组一个团队,你不用再单打独斗了”。

从这时候开始,逐渐有更多的深度学习工程专家加入AlphaGo团队。黄士杰还为新加入的同事办了一个训练班,普及基本的围棋规则。

△ 黄士杰 2015 年 8 月

与此同时,另一个重要的节点已在不远。两个月后,AlphaGo将掌握称霸围棋世界最关键的能力:形势判断。

“事实上,形势判断是围棋过程中最难、最令人头疼的环节,要进行准确的判断,必须具备精确测算双方目数的能力,同时还要兼备综观全局的大势观、挖掘潜在价值的分析能力和推理能力……要下出真正具有水平的围棋,形势判断十分必要。”

上面这段话,来自李昌镐。这位绰号“石佛”的韩国棋手,从 1992 年夺得第一个世界冠军开始,到 2007 年为止共获得 18 次个人冠军、 13 次团体冠军,开创了“李昌镐时代”。

AlphaGo如何获得形势判断的能力?

解决这个问题的人是席尔瓦。有天他对黄士杰说:“Aja,我有一个主意,我觉得可能会管用”。席尔瓦的主意后来被称为“价值网络”。当时黄士杰对这个主意非常怀疑,他回复说:“能管用么?咱们试试吧。”

价值网络也是一个卷积神经网络,输入是落子位置,输出0- 1 之间的数字, 0 代表对手胜利, 1 代表自己胜利,如果差不多就输出0.5。(量子位注:Google最近公布的数字是-1~1,略有不同)。

总之,AlphaGo通过自我对弈,训练出价值网络,进而可以判断每一手棋背后代表的胜率。这就形成了形势判断的能力。

价值网络的出现,让AlphaGo棋力突飞猛进。与Crazy Stone的对弈中,AlphaGo胜率达到95%,也就是达到让两子的水平。

“当时AlphaGo已经可以碾压我了,我已经感觉到它的强大”黄士杰回忆说。

2015 年 10 月

也是 8 月,樊麾在参加欧洲围棋大会,回到法国的家中。他收到一封电子邮件,发件人是AlphaGo团队的Maddy。邮件内容非常简单:我们是一家伦敦的公司,希望邀请你来我们公司。也没有更多信息。

樊麾一度认为是垃圾邮件。但鬼使神差,他回了邮件说:“可以呀”。然后他们用Skype进行了在线沟通,席尔瓦当时也参加了,他们给樊麾讲述正在做有趣的项目,也讲述了自己是一家Google收购的公司。

随后樊麾上了DeepMind的官网,确定有这么一家公司,以及公司主页上还提到了围棋的字样。于是他下定决心过去看看。

双方第一次见面是 9 月底,当他确定自己要跟一个围棋程序对弈时,整个人一下就放松了,心说:“对付一个软件,还不分分钟的事儿”。樊麾当时甚至跟AlphaGo团队表示,他跟AlphaGo的下棋时间,只需要一个小时就够了。

当时黄士杰反复跟樊麾说AlphaGo很厉害。但樊麾根本听不进去。

△ 最后一局樊麾为自己的失误懊恼不已

2015 年 10 月 5 日- 9 日。樊麾再赴伦敦,跟AlphaGo大战五回合,当时代替AlphaGo落子的就是黄士杰本人。结果可能大家都知道,樊麾全输了。“当时我的整个围棋世界都崩溃了。”樊麾说。

和樊麾的比赛结果,DeepMind一直到 2016 年初才对外发布。那时樊麾已经受聘成为AlphaGo的教练。公布赛果那天,樊麾关闭了手机。外出买菜的樊麾妻子给家里座机打电话:“千万不要上网看评论,说的可难听了。”

聂卫平当时评价说:“樊麾水平太低,给我们丢脸了。”

有好的文章希望站长之家帮助分享推广,猛戳这里我要投稿

相关文章

相关热点

查看更多

关闭