,作者:Celeste Biever,原文标题:《ChatGPT突破图灵测试:在“像人”和“不像人”方面都很行 〈自然〉长文》,头图来自:unsplash
世界上最好的人工智能(AI)系统可以通过困难考试,写出煞有介事的小论文,还能与人流利交谈,在很多人看来足以以假乱真。它们还有什么做不到的?——它们解不了简单的图形谜题。
在一项基于彩色图块的测试中,大多数人类都能识别出其中的模式。但根据今年5月发表的一篇论文[1],GPT-4——聊天机器人ChatGPT和搜索引擎Bing背后的最新版AI系统——在其中一类模式中只识别出了将近三分之一,在另一类模式中甚至只有3%。
提出这套逻辑题的团队的目的是能更好地评估AI系统的能力——以及帮助解决GPT-4这类大型语言模型(LLM)的一个难题。用某些方式测试,这些模型能轻松通过以前被认为是里程碑式成就的测试;换一种方法测试的话,它们就看起来没那么出彩了,会暴露出明显的弱项,并且也没法进行抽象概念的推理。
“AI领域的人们正在费尽心力研究这些系统如何评估。”圣菲研究所的计算机科学家Melanie Mitchell说。正是他的团队制作了这套逻辑谜题(见“击败机器的抽象思考测试”)。
人工智能系统至今为止仍未能在ConceptARC测试中达到人类的水平。这组逻辑题要求解答者在看过几组示范之后,根据相同的逻辑关系判断出彩色像素图形会变成什么样。以下是两套例题,你能根据相同的逻辑关系判断出来吗?
在过去的2~3年里,LLM已经在泛用性上碾压了之前的AI系统。它们的原理很简单,就是根据输入的文字生成最可能的下一个单词,依据的则是用以训练的上亿句网络文本中单词之间的统计相关性。对基于LLM建造的聊天机器人来说,还有一个要素:人类训练员为这些机器人该如何回话提供了详尽的反馈。
使用大量人类语言进行训练之后,这种“自动填充”式算法就显现出了惊人的泛用性。其他AI系统可能会在某一项任务上击败LLM,但它们必须使用先用问题相关的数据进行训练,并且没办法从一项任务中举一反三推广到另一项上。
大体上说,研究者对LLM台面之下发生了什么有两种截然不同的看法,哈佛大学的认知科学家Tomer Ullman说。一部分人将算法的成功归因于出现了一点点推导或理解能力。另一些人(包括他自己和Mitchell等人)则更为谨慎。
“争论各方都是很聪明的人。”Ullman说。他说,之所以意见有分歧,是因为哪一方都没有决定性的证据。“我们没有某种计数器,指一下就能说‘哔哔哔——有智能’。”
双方的研究员都认为,像这种能显示出人类与AI能力区别的逻辑测试是正确的方向。这种评价标准也可以用来说明今天的机器学习系统里缺了什么,由此细分人类智慧的组成,纽约大学的认知计算科学家Brenden Lake说。
有关如何测试LLM、以及测试能说明什么问题的研究,同样有着实用意义。如果要让LLM能在现实世界领域——从医学到法律——中应用的话,理解它们的能力限制就非常重要,Mitchell说:“我们必须理解它们能做什么,不能做什么,这样我们才能安全地使用它们。”
机器智能领域最著名的测试一直都是图灵测试。它是英国数学家和计算机先驱阿兰·图灵(Alan Turing)于1950年提出的,当时计算机领域才刚诞生。图灵提出了一种评估方法,他称之为“模仿游戏”[2]。在这个场景中,人类裁判会在看不见对方的情况下与一台电脑和一个人分别进行简短的文字对话。裁判能稳定判断出哪台是电脑吗?图灵认为,这个问题等价于“机器可以思考吗?”。
图灵没有说明这个场景中的很多细节,Mitchell强调,所以也就没有严格的评分标准。“它不是字面意义上能让机器做的那种测试——它更像是一个思想实验。”谷歌的软件工程师François Chollet说。
但是用语言来测试机器是否能思考的想法延续了下来。在之前几十年里,商业家兼慈善家Hugh Loebner出资举办了每年一度的图灵测试大奖赛,被称为Loebner奖。人类裁判会和机器与人进行对话,并尝试猜出来谁是谁。但该大奖赛到2019年就停办了,因为Loebner本人去世了,不再有资金举办比赛,英国人工智能和行为模拟学会的计算机科学家Rob Wortham说。该组织自2014年起代表Loebner举办竞赛。他说LLM现在在这类比赛中会有很高概率骗过人类。LLM兴起在赛事停办后不久则纯属巧合。
其他研究者们也同意,GPT-4和其他LLM现在可能能通过大众所知的那个版本的图灵测试,也就是它们可以骗过许多人类,至少当对话短的时候没问题。五月,以色列公司AI21实验室的研究者们报告说超过150万人玩过了他们基于图灵测试写出来的在线游戏。玩家被分配聊两分钟,对方可能是其他玩家,也可能是被研究者设置来模仿人的LLM聊天机器人。玩家正确识别出机器人的比率只有60%,研究者说这比盲猜没好多少[3]。
不过在这种游戏里,熟悉LLM的研究者们可能还是能赢。Chollet说他识别LLM很轻松——只要利用已知的系统弱点就可以。“如果你让我在这种情境里,问我‘在和LLM说话吗?’,那我肯定能说得上来。”Chollet说。
他说,关键是要让LLM脱离舒适区。他建议给LLM提一些和训练集中常见场景相似的变体。很多时候,LLM会参照训练集中的原始场景给出回答,而不是符合新场景的正确回答。
不过,Chollet等人怀疑用骗人测试作为计算机科学的目标并不合适。“这全部都是为了骗过陪审团。”Chollet说。这项测试会让聊天机器人的开发者把精力花在让AI玩把戏上,而不是开发一些有用或有趣的能力。
大多数时候,研究者评估AI时使用的不是图灵测试,而是用来评估特定能力的考题,例如语言能力,常识推理或数学能力。他们也在越来越多地使用为人类设计的学术和专业考试来作为考题。
当GPT-4于今年3月推出时,它背后的公司OpenAI使用了一套为机器设计的考题,其中包括了阅读理解、数学和编程。OpenAI说,GPT-4在其中大多数都得了高分[4]。该公司还给GPT-4出了约30套考题,其中包括:给美国高中学生出的各科“大学先修课程”试题;美国各州用来测试医师行医能力的考试;以及美国研究生入学选拔时的考试GRE。在美国的统一律师资格考试(许多州将之作为律师资格认定程序的一部分)中,GPT-4得到了能考进前10%的成绩(见“AI系统的部分考试成绩”)。
“很多语言模型在这些考试题上能做得很好,”Mitchell说,“但通常结论并不是它们在这些通用能力上超过了人类,而是试题有限。”研究者们提到的一个难题是,训练模型用的文本太多,它们可能已经在训练集里见过了类似的题目,因此实际上AI可能只是查了小抄。这个问题被称为数据污染。
OpenAI说它检查了问题和训练集中相似的词组,排除了这一点。从LLM中移除相似的词组后,它的表现没什么变化,也就是说其成功不能大部分归于数据污染。但是,有些研究者质疑这种检测够不够严格。
纽约大学的语言技术学家,同时也在AI公司Anthropic任职的Sam Bowman提醒说,不要把GPT-4的能力完全视作死记硬背而忽视了它的能力。数据污染“让问题复杂了一点,但我不认为这影响到问题本质。”
研究者们还注意到,LLM的成绩不够稳定,会做题不一定能做事。Mitchell说,稍微改一下考题就能让它们答错。例如,她从企业管理硕士生的考卷中拿了一道题目,稍微改了改说法。能做对原题的人类应该能答出改后的版本。但ChatGPT没答出来。
有关考试分数的意义还有一个更严重的问题。对人类来说,考高分可以可靠地证明智力水平——这词的含义有点模糊,不过其中一个意思是能在一系列任务中表现出色、并适应不同环境的能力。也就是说,考试考得好的人通常也能在其他认知测试中表现不错,也可以掌握某些抽象概念。但对LLM来说情况不是这样,Mitchell说;这些考试成绩和人类的情况截然不同。“用推断人类的方式去推断AI系统,往往不太行。”她说。
这可能是因为LLM只通过语言来学习;它没有现实世界中的身体,也无法像人一样体会到语言和事物、性质和感情之间的联系。“很显然,它们不是用人的方式来理解单词的。”Lake说。在他看来,LLM现在展现出来的是“流利的语言能力,但没有真正的理解力。”
往好的方面讲,LLM也有人类没有的能力——例如它能知道人类写过的几乎每个词之间的关联。这可能能让模型根据语言中的“怪癖”或是其他提示来解决问题,而不需要特意举一反三来扩展能力范围,Mitchell说。
OpenAI的研究员Nick Ryder也同意,(AI)在一项考试上得高分可能不像人类得分那样具有推广意义。“我觉得人们看到人类和LLM考试成绩后,不能简单地同等评估。”他说。OpenAI的分数“不意味着像人类一样的能力或类似人类的思考。它是用来说明模型在该任务上表现如何的。”
除了传统给机器设计的考题和人类考试以外,研究者们还对LLM作了更广泛的探索。3月,微软研究院的Sébastien Bubeck和同事们发表的《通用人工智能的火花:对GPT-4的初步实验》[5]预印本论文引发了热潮。他们记录了一系列令人惊讶的能力——很多都没有直接或明显地和语言相关。一项重大进展是它能通过心理学家用来测试心智理论的测试,这是让人类能预测并推理其他人精神状态的核心人类能力。文章中说,“考虑到GPT-4能力的广度和深度,我们认为它可以视为早期(但尚不完备)版本的通用人工智能(AGI)系统。”
但是,Bubeck也向《自然》澄清,“GPT-4明显没有像人一样思考,无论它展现出了何种能力,都是以它自己的方式做到的。”
虽然说得惊人,但这篇文章对LLM的能力的评估不够系统性,Mitchell说:“这更像人类学。”Ullman说要想说服人机器有心智理论,他就必须要看到对应人类心智理论的潜在认知过程证据,而不只是机器的输出和人类的答案一样。
要搞清楚LLM的长处和短处,就需要更全面更严格的评估,AI研究者说。这套彩色的逻辑谜题可能就是其中一项。
2019年,LLM闪亮登场之前,Chollet已在网上发布了一套给AI系统用的全新逻辑测试,叫做抽象与推理语料库(ARC)[6]。解答者需要看过几组一个网格图变成另一个网格图的示例,然后说明下一组图会变成什么样,来证明他们已经掌握了规则。“设计这套题目是为了测试适应没见过的东西的能力。”Chollet说,她认为这正是智力的本质。
ARC捕捉到了“人类智力的特征”,Lake说——即对日常知识进行抽象,并应用到此前未见过的问题上的能力。
Chollet于2020年组织了一届ARC比赛,那时LLM还没火起来。获胜的机器人是专门训练来解ARC类题目。