第三章 人机大战:AI真的会挑战人类?(第2/11页)

2015年年初,Deep Mind第一次真正进入公众视角,是靠一个基于深度学习和增强学习技术驱动的,能自己学习如何打街机游戏的AI程序。显然,国际象棋大师和电脑游戏设计、开发的背景,为哈萨比斯的人工智能之路,奠定了一个不同寻常的基础。Deep Mind所研发的深度学习、增强学习等技术,在医药、金融、自动控制等众多领域有着广泛的应用前景,但这些行业应用离普通公众较远,Deep Mind的先进技术难以被大多数人了解。哈萨比斯和他的团队非常聪明地选择用大众最熟悉的电子游戏,来作为Deep Mind核心科技的第一块“试金石”。

Deep Mind选取了数十款当年在雅达利(Atari)街机上非常流行的小游戏,然后用人工智能程序尝试“理解”游戏当前画面,控制游戏操作接口,并根据每次游戏的输赢情况,不断调整策略,自主学习游戏技巧。2015年2月向公众展示时,Deep Mind的人工智能程序在大约四分之三的雅达利街机游戏中,达到或超过了人类高手的水平。类似技术随后被Deep Mind团队用于人工智能围棋软件,并由此诞生了震惊世界的Alpha Go。

Deep Mind的目标显然不是游戏本身。正如哈萨比斯在诸多场合所说过的那样,Deep Mind希望利用在游戏中证明过的技术,帮助人类解决计算机辅助医疗等更为复杂的问题。但游戏与Deep Mind的结缘,确实为这个独具特色的人工智能团队贴上了鲜明的标签。

历史总是充满巧合。20世纪70年代,初出茅庐的史蒂夫·乔布斯找到的第一份工作就是在雅达利游戏机公司打工。为了开发雅达利公司当时的主打街机产品“Pong”,乔布斯还请来了好朋友史蒂夫·沃兹尼亚克一起解决技术问题。40多年前,苹果公司的两位创始人在雅达利游戏机上研发的产品,成为40多年后哈萨比斯的Deep Mind团队磨炼人工智能算法的实验平台。在Deep Mind软件自主学习并熟练掌握的街机游戏名单上,“Pong”的名字赫然在列。

从乔布斯到哈萨比斯,从雅达利街机到苹果电脑再到人工智能,科技发展的进程中,每一个领军人物的每一次技术突破,都可能成为后续进展的铺垫与序曲。从早期的西洋跳棋程序,到能下国际象棋的IBM深蓝,再到Alpha Go,每一盘棋的每一场输赢,不也是人工智能技术从萌芽到发展再到成熟的最好见证吗?

Alpha Go的故事尚未完结,Deep Mind就将目光投向了更有挑战的游戏领域。2016年11月,在暴雪公司的Blizz Con大会上,Deep Mind正式宣布牵手暴雪,基于《星际争霸》游戏进行人工智能研究58。与围棋不同,《星际争霸》游戏的参与者需要在全局尚未明朗的情况下,只依据少数信息,猜测对手可能的战略、战术布置,并有针对性地设计自己的游戏策略。从技术上说,《星际争霸》的挑战要高于围棋,打赢《星际争霸》所需的决策技术,也许更接近人类在日常工作、生活中经常使用的思考与决策方法。从这个意义上说,Deep Mind正向着更高级智慧的方向迈进。

游戏既是Deep Mind团队最好的市场和公关手段,同时也帮助Deep Mind在人工智能领域迅速建立起不同寻常的技术优势。借助在游戏领域取得的经验和方法,Deep Mind已经开始用人工智能技术帮助谷歌的数据中心合理调度、分配电力资源,达到省电的目标。此外,Deep Mind与牛津大学合作开发了根据人类说话时的口型猜测说话内容的唇读技术Lip Net,与英国国家医疗服务体系(NHS)合作推出了综合性的医疗辅助应用Streams,与眼科医院合作帮助眼部疾病诊断……哈萨比斯说:“我坚信Deep Mind正在从事的研究对人类的未来至关重要,而且这值得我们做出一些牺牲。”59

从下象棋、开发游戏的天才少年,到利用人工智能技术造福人类的计算机科学家,哈萨比斯的梦想正在实现。一个会玩游戏的人工智能和一个会帮助医生诊疗疾病的人工智能,它们之间的技术,竟有如此之多的共同点——技术的神奇莫过于此。

德州扑克:开启新世界的大门?

我自己很喜欢打德州扑克,经常参加德州扑克比赛。在牌桌上,自我感觉是一名稳健型牌手,保持了还算不错的胜率。

围棋是一项讲究计算和形势判断能力的游戏。而德州扑克就与此不同,它讲究的是在多人博弈中,避免人性贪婪、恋战等弱点,并将科学的概率统计与灵活的实战策略很好地配合起来。人工智能已经在围棋领域取得历史性的突破,那么,在德州扑克的世界里,人工智能的表现又如何呢?

如前所述,在围棋、象棋等游戏中,人工智能可以和人类选手一样,在每一步决策前获得棋盘上的全部信息。这种限定规则,随时可以获取全部信息的游戏,我们可以称之为“完整信息的博弈游戏”。而在《星际争霸》或德州扑克中,人工智能和人类选手通常无法在特定时刻获得有关游戏的全部信息,比如,在德州扑克中,你无法知道对手的底牌是什么,你也不知道发牌员发出的下一张牌是什么,在这类“不完整信息的博弈游戏”里,人工智能必须像人一样,根据经验或概率统计知识,猜测对手底牌和下一张牌的可能性,然后再制定自己的应对策略。

显然,对于实现人工智能算法而言,不完整信息的博弈游戏在技术难度上要大得多。就在哈萨比斯的团队借助《星际争霸》磨炼下一代人工智能算法的同时,卡内基-梅隆大学的研究者选择了德州扑克作为他们攻克此类问题的出发点。

来自卡内基-梅隆大学的托马斯·桑德霍姆(Tuomas Sandholm)教授与他的博士生诺姆·布朗(Noam Brown)最早开发了一款名为Claudico的德州扑克程序。Claudico是一个拉丁文单词,对应于德州扑克中的一种特别的策略——平跟(limping),指的是翻牌之前,选择跟大盲注而不加注的策略。平跟这种策略,在人类德州扑克比赛中,使用的频率并不是很高,但据托马斯·桑德霍姆介绍,计算机通过学习发现,使用这种策略有许多好处。值得注意的是,托马斯·桑德霍姆的团队在研发德州扑克程序时,主要不是向人类职业选手学习打牌技巧,而是让计算机通过自我训练,自己寻找最好的方法。

Claudico从2015年4月到5月,在匹兹堡的河流赌场与人类选手同台竞技,在无限制投注的一对一比赛中,轮流与包括当时世界排名第一的道格·波尔克(Doug Polk)在内的四名人类顶尖高手过招。那次比赛历时13天,共计2万局牌。为降低运气成分,比赛使用的是重复牌局的玩法,即在不同房间的两张牌桌上使用完全相同但人机对调的两副牌。这次比赛,AI似乎还很稚嫩。比赛进行过半,人类就领先Claudico大约46万个筹码。最终,人类选手以大约73万个筹码的优势赢得了比赛。