您现在的位置是:首页 >要闻 > 2020-11-19 08:23:55 来源:

新测试显示AI仍缺乏常识

导读 最近,自然语言处理(NLP)取得了长足进步,但是AI对其阅读的内容了解多少?据南加州大学计算机科学系的研究人员说,这比我们想象的要少。在最

最近,自然语言处理(NLP)取得了长足进步,但是AI对其阅读的内容了解多少?据南加州大学计算机科学系的研究人员说,这比我们想象的要少。在最近的论文中,助理教授助理项仁和博士。学生林雨晨(Yuchen Lin)发现,尽管取得了进步,但AI仍不具备生成合理句子所需的常识。

林说:“当前的机器文本生成模型可以写一篇可能使许多人信服的文章,但是它们基本上是在训练阶段看到的。” “本文的目标是研究当前最先进的文本生成模型是否可以编写句子来描述我们日常生活中的自然场景。”

了解日常生活中的场景

具体地说,Ren和Lin测试了模型的推理能力,并表明当前文本生成模型与人类表现之间存在很大差距。给定一组常见的名词和动词,使用最先进的NLP计算机模型来创建描述日常场景的可信句子。虽然这些模型生成的语法正确的句子,但它们通常在逻辑上是不一致的。

例如,这是一个由最新模型使用“狗,飞盘,投掷,抓住”一词生成的示例句子:

“两只狗互相扔飞盘。”

该测试基于以下假设:如果没有更深的常识概念,就不会产生连贯的想法(在这种情况下:“一个人扔飞盘,一只狗抓飞盘”)。换句话说,常识不仅仅是对语言的正确理解,这意味着您不必在对话中解释所有内容。这是开发通用AI的目标所面临的根本挑战,但是,除了学术界以外,它对消费者也很重要。

在不了解语言的情况下,基于这些最新自然语言模型构建的聊天机器人和语音助手很容易出现故障。如果机器人要在人类环境中变得越来越重要,这也至关重要。毕竟,如果您向机器人询问热牛奶,您会希望它知道您要一杯牛奶,而不是整箱牛奶。

Lin说:“我们还证明,如果生成模型在我们的测试中表现更好,它也可以使其他需要常识推理的应用程序受益,例如机器人学习。” “机器人在采取合理的行动与人互动之前,需要了解我们日常生活中的自然场景。”

常识测试

常识性推理或使用关于世界的基本知识进行推理的能力(例如狗不能互相扔飞盘这一事实)数十年来一直抵制AI研究人员的努力。先进的深度学习模型现在可以达到90%左右的准确度,因此NLP似乎已经接近其目标。

但是,自然语言处理专家Ren和他的学生Lin需要更令人信服的统计数据的准确性。他们在11月16日发表于《自然语言处理中的经验方法的发现》(EMNLP)会议上的论文中,他们挑战了基准测试的有效性,因此挑战了该领域实际取得的进步。