第二章 AI复兴:深度学习+大数据=人工智能(第2/14页)

如图19中的曲线所示,一种新科技的研发过程通常是这样的:初创公司接受第一轮风投,开发出第一代产品,虽然不成熟,但足以吸引一批早期接受者——粉丝。在早期阶段,产品的优点被粉丝放大,大众媒体跟风炒作,将该技术推向一个充满泡沫的膨胀期。随着盲目的追捧者激增,跟风研发、生产的初创公司越来越多,产品的不足被无限放大,负面报道开始出现,供过于求的市场竞争中,大批跟风入局的初创公司不是被兼并,就是走向倒闭,只有少数拥有核心竞争力的坚持了过来。跌入低谷后,第二轮、第三轮风投资金注入大浪淘沙后仅存的中坚企业,新一代技术和产品也随之问世,整个技术曲线步入稳步攀升的平台期和成熟期,潜在用户的接受程度也从5%以下逐渐提升到20%到30%,初创企业和风投资本开始迎来高额回报。

这条曲线概括了绝大多数高新技术的发展历程。更重要的是,每年高德纳公司都会根据当年度所有流行技术的发展、成熟状况,制作出一张当年各流行技术在高德纳曲线上的发展位置图示,标示出每种前沿技术是处在萌芽期、泡沫期、低谷期还是成熟期,以及每种未达成熟期的技术还需要几年才会真正成熟起来。技术人员、投资者经常根据高德纳曲线来判断时代潮流,选择投资方向。

将高德纳技术成熟度曲线对应到人工智能波折起伏的发展历程中,其实不难看到,人工智能此前两次表现出的热潮,更多应该被理解为一项新兴技术在萌芽期的躁动以及在泡沫期的过分膨胀。

20世纪50年代到60年代,伴随着通用电子计算机的诞生,人工智能悄然在大学实验室里崭露头角。以艾伦·图灵(Alan Turing)提出图灵测试为标志,数学证明系统、知识推理系统、专家系统等里程碑式的技术和应用一下子在研究者中掀起了第一拨人工智能热潮。但那个年代,无论是计算机的运算速度还是相关的程序设计与算法理论,都远不足以支撑人工智能的发展需要。例如,计算机科学和人工智能的先驱艾伦·图灵就曾在1951年发表过一份写在纸上的象棋程序30,可惜当年的计算机难以实现这样复杂的运算。这就像探险家发现新大陆一样,第一次踏足新大陆和真正让新大陆蓬勃发展起来是根本不同的两件事。于是,从20世纪60年代末开始,无论是专业研究者还是普通公众,大家对人工智能的热情迅速消退。

20世纪80年代到90年代,也就是我在卡内基-梅隆大学发明非特定人连续语音识别技术并将其用于苹果计算机系统的时代——那的确是人工智能研究者和产品开发者的一个黄金时代。传统的基于符号主义学派的技术被我和其他同时代研究者抛弃在一边,基于统计模型的技术悄然兴起,并在语音识别、机器翻译等领域取得了不俗的进展,人工神经网络也在模式识别等应用领域开始有所建树,再加上1997年深蓝计算机战胜人类棋王卡斯帕罗夫,普通人的积极性一度高涨起来。但是,那个时代的技术进步还不够好,不足以超过人类对智能机器的心理预期。拿语音识别来说,统计模型虽然让语音识别技术前进了一大步,但还没有好到可以让普通人接受的程度,测试环境稍稍变化就会造成识别效果大幅下降。那时,我在苹果公司开发的语音识别应用就更多被用于演示和宣传,实用价值十分有限。从整体上看,那一拨人工智能热潮仍然笼罩着浓厚的学术研究和科学实验色彩,虽然激发了大众的热情,但更像是跌入谷底前的泡沫期,远没有达到与商业模式、大众需求接轨并稳步发展的地步。

2010年前后,准确地说,是从2006年开始,随着深度学习技术的成熟,加上计算机运算速度的大幅增长,当然,还有互联网时代积累起来的海量数据财富,人工智能开始了一段与以往大为不同的复兴之路。

例如,2012年到2015年,在代表计算机智能图像识别最前沿发展水平的Image Net竞赛(ILSVRC)中,参赛的人工智能算法在识别准确率上突飞猛进。2014年,在识别图片中的人、动物、车辆或其他常见对象时,基于深度学习的计算机程序超过了普通人类的肉眼识别准确率31。

图20 Image Net图像分类比赛历年来识别错误率的变化趋势

人们在Image Net竞赛(ILSVRC)中取得的非凡成就是人工智能发展史上一个了不起的里程碑,也是当今这一拨人工智能热潮由萌芽到兴起的关键节点。随着机器视觉领域的突破,深度学习迅速开始在语音识别、数据挖掘、自然语言处理等不同领域攻城略地,甚至开始将以前被人们视为科幻的自动驾驶技术带入现实。此外,基于深度学习的科研成果还被推向了各个主流商业应用领域,如银行、保险、交通运输、医疗、教育、市场营销等,第一次实现了人工智能技术与产业链条的有机结合。

今天的人工智能是“有用”的人工智能

我觉得,和前两次AI热潮相比,这一次人工智能复兴的最大特点,就是AI在多个相关领域表现出可以被普通人认可的性能或效率,并因此被成熟的商业模式接受,开始在产业界发挥出真正的价值。

心理学上说,人们接受一件新事物,就像人们感受一种外界刺激一样,是有一个心理阈值的。外界刺激(比如声、光、电)的强度太小的话,人们根本不会有任何感觉;只有外界刺激的强度超过了一个人能够感知的最小刺激量,人们才有“听到了声音”“看见了东西”之类的明确感受。这个能引起人们感知反应的最小刺激量,心理学上叫绝对阈值(absolute threshold)32。

人工智能技术的发展正是如此。还是拿图像识别来说,在人工智能发展早期,如果一个计算机程序宣称可以识别出图片中的人脸,但它的识别准确率只有五成左右,那普通人只会将这个程序看作一个玩具,绝不会认为它拥有智慧。随着技术进步,当人脸识别算法的识别准确率提高到80%甚至接近90%的时候,研究者们当然知道,取得这样的进步十分不易,但这一结果其实还是很难被普通人接受,因为每五个人脸就认错一个,这明显无法在实际生活中使用——人们也许会说这个程序挺聪明,但绝对不会认为这个程序已经聪明到可以替代人类的眼睛。只有计算机在人脸识别上的准确率非常接近甚至超过普通人的水平,安防系统才会用计算机来取代人类保安完成身份甄别工作。也就是说,对于人脸识别这个应用,接近或超过普通人的水平才是我们关心的“绝对阈值”。