第二章 AI复兴:深度学习+大数据=人工智能(第4/14页)

ELIZA所做的,几乎就是在一个相当有限的话题库里,用关键字映射的方式,根据病人的问话,找到自己的回答。比如,当用户说“你好”时,ELIZA就说:“我很好。跟我说说你的情况。”此外,ELIZA会用“为什么?”“请详细解释一下”之类引导性的句子,来让整个对话不停地持续下去。同时,ELIZA还有一个非常聪明的技巧,它可以通过人称和句式替换来重复用户的句子。比如,用户说“我感到孤独和难过”时,ELIZA会说“为什么你感到孤独和难过?”这样一来,虽然根本不理解用户到底说了什么,但ELIZA表面上却用这些小技巧“装作”自己可以理解自然语言的样子。

图22 ELIZA对话程序的一个现代实现:Emacs Doctor

ELIZA是那种第一眼会让人误以为神通广大,仔细看又让人觉得不过尔尔的小程序。当年虽有人宣称ELIZA可以通过图灵测试,但更多人只是非常客观地将ELIZA看成是人们第一次实现聊天机器人(Chatbot)的尝试。追本溯源,ELIZA是现在流行的微软小冰、苹果Siri、谷歌Allo乃至亚马逊Alexa的真正鼻祖!

针对图灵测试,人工智能领域还专门设立了一个每年一度的罗布纳奖(Loebner Prize),专门颁发给在图灵测试中表现最优秀的计算机程序。所有聊天机器人程序都可以参加罗布纳奖的评测,以判定是否有程序通过图灵测试。罗布纳奖的竞赛规则和评测方式历经许多次变化与调整。1995年以前以限定话题领域的测试为主,1995年起,罗布纳奖不再限定话题领域。对话时长则从最初的5分钟逐渐增加到2010年之后的25分钟。

评测时,人类评判员坐在电脑前,同时与一个计算机程序和一个真人通过键盘和屏幕对话。对话结束后,评判员根据对话内容,判定与自己对话的两位中,哪一位是电脑,哪一位是真人。如果判定错误,就表明计算机程序在这一次对话中“愚弄”了人类。如果计算机程序愚弄人类的次数超过30%(图灵本人建议的比例数字),就可以认为,该计算机程序通过了图灵测试。罗布纳奖成立至今,尚未有任何程序超过30%的关口。2008年时,一个名叫Elbot的程序骗过了12名人类评测员中的3位,这已经很接近30%的界限 了34。

非常有趣的是,2014年,为了纪念图灵去世60周年,雷丁大学在伦敦皇家学会举办了另一场图灵测试。测试中,一个名叫尤金·古斯曼(Eugene Goostman)的聊天机器人程序取得了33%的成功率。这个聊天机器人程序是由一个名叫普林斯顿人工智能(Princeton AI,虽然叫普林斯顿,但和普林斯顿大学没有任何关系)的小团队设计实现的,它成功地在33%的评判轮次中,让评判员误以为尤金·古斯曼是一个真实的、13岁左右的小孩子。雷丁大学随即宣称,尤金·古斯曼第一次通过了图灵测试!

尤金·古斯曼真的通过了图灵测试吗?消息刚一传出,质疑声就随之而来。根据公布的尤金·古斯曼的聊天记录,罗布纳奖的创立者休·罗布纳认为,雷丁大学的测试时长只有5分钟,远没有达到罗布纳奖25分钟的标准。用5分钟的聊天记录来判定一个程序是否具有智能,这太简单和草率了35。许多学者在亲自与尤金·古斯曼进行过网上聊天后,都觉得这个聊天程序离真正的智能还远得很。至少到目前为止,尤金·古斯曼还没有得到学界的一致认可。

我挑战图灵测试的故事

说起图灵测试,我总会想起我在哥伦比亚大学读书时的一段趣事。

在哥伦比亚大学,我读的不是计算机系,却对计算机相关的课程最感兴趣。当时,教我们自然语言处理课程的老师是迈克尔·莱博维奇(Michael Lebowitz)。他为我们讲述了诺姆·乔姆斯基(Noam Chomsky)的语言学基本理论,比如基本的词法、句法关系,以及人是如何通过语法结构理解自然语言的。

学到了这些语言学方面的基本知识,年轻的我就大胆提出:“我能不能挑战一下图灵测试呢?”其实,我当时提出的想法很简单,就是做一个聊天机器人,而且,是一个只关注自然语言处理这个领域,且在说话风格上模仿我们的老师迈克尔·莱博维奇的小程序。我当时和另一位非常有才华的华人同学胡林肯(Lincoln Hu)一起,完成了程序的设计和开发。

我们做的那个程序,名字就叫迈克尔·莱博维奇。学生可以把这个程序当作老师,与“他”聊任何与自然语言处理课程相关的话题。比如,我们可以问这个程序说:“你能告诉我,语言学是什么吗?”这个程序就会装出老师迈克尔·莱博维奇的口吻说:“语言学就是关于人类语言的科学研究,包含句法、词法、语音学等研究方向。”更有趣的是,这个程序甚至会讲许多老师迈克尔·莱博维奇当年常讲的课堂笑话。

我们的程序还很幼稚,有些时候表现得比较呆笨,根本不像一个聪明的人类对话者。但这个小程序还是让老师迈克尔·莱博维奇笑逐颜开,无论是程序本身的幽默感,还是代码中的技术含量,都超过了老师的期望。老师给了我们A+的高分。

从技术上说,今天那些流行的聊天机器人程序和我们那个时代做的小程序相比,已经有了很大的进步。它们都在模仿人类语言风格之外,引入了更大的知识平台作为后盾。例如,聊天程序基于搜索引擎索引到的互联网网页建立知识库,从海量的页面信息中搜集可能的常见问题、常见回答的组合,这已经成为一种非常成熟的技术。当我们与这些程序聊天时,实际上既是一次人机间的对话,也是一次对机器背后庞大知识库的搜索操作。

另一方面,那些以参加图灵测试比赛为目标的聊天机器人程序,往往在对话策略方面有着非常针对性的设计。比如,不少在罗布纳奖测试中排名靠前的聊天程序,都刻意使用了一种攻击性强的对话风格,它们试图更多地控制聊天时的话语权,不给评判员太多深入追问的空间,并用挑战性的问句或引导性的话语,尽量将聊天控制在自己熟悉的话题领域内。这也是罗布纳奖测试为什么在近年要将聊天的时长从5分钟扩展到25分钟的重要原因——没有足够的时间,评判员根本来不及根据自己的思路,与对方深入交流。

无论如何,图灵测试以及为了通过图灵测试而开展的技术研发,都在过去的几十年时间里,推动了人工智能特别是自然语言处理技术的飞速发展。我们憧憬着计算机程序真正使人信服地通过图灵测试的那一天,但我们更希望看到自然语言处理技术在文本理解与分类、语音识别、自动客服应答、自然语言控制界面等领域取得更多商业上的成功。