Voidgap GPT-3:OpenAI的语言生成器不知道它在说什么

测试表明,流行的AI在现实中仍然不熟悉







自从OpenAI在5月​​首次描述其新的文本生成人工智能(AI)系统GPT-3以来,包括MIT Technology Review在内的数百家新闻媒体就该系统及其功能撰写了许多文章。在Twitter上积极讨论了它的优势和潜力。纽约时报对此问题发表了一篇长文章。 OpenAI将于今年开始向公司收取使用GPT-3的费用,希望他们的系统很快成为各种AI产品和服务的骨干。



是否可以将GPT-3视为迈向通用AI(ION)的重要一步-可以使机器(如人)在广泛的逻辑范围内进行推理,而不必重新学习每个新任务? OpenAI的数据表很少涉及这个问题,但是对于许多人来说,该系统的功能似乎是向前迈出的重要一步。



但是我们对此表示怀疑。乍一看,GPT-3具有令人印象深刻的能力,可以产生类似人的文字。毫无疑问,它可以用来传递超现实的文本来娱乐。其他商业应用程序可能会出现。但是准确性不是她的强项。深入挖掘发现有些东西丢失了:尽管从惯用的角度来看,她的输出在语法上是正确的并且令人印象深刻,但她对世界的理解有时与现实严重冲突,因此您永远无法相信她的话。



以下是AI缺乏理解的一些示例-这些都是其中一位作者GPT-3的早期批评预言的



首先,值得注意的是,尽管该公司的名字[ Open AI-“ open AI” /大约。翻译]和监督组织的非营利组织身份。相反,OpenAI只是忽略了我们不断提出的要求,尽管它已赋予新闻界对该产品的访问权限。幸运的是,获得该系统访问权限的我们的同事Douglas Summers-Stay慷慨地同意为我们进行一些实验。



在我们看来,OpenAI的显着接近性似乎严重违反了科学道德,并且扭曲了与该项目相关的非营利组织的目标。这个决定迫使我们将实验限制在相对较小的示例集上,而且我们的研究时间少于我们想要的时间。由此可见,该系统可能存在更严重的问题,而我们没有机会去发现。但是,即使样本量很小,也可以在推理和理解的所有领域中立即看到GPT-3的重大问题。



在给出的示例中,我们的文本以常规字体给出,并且系统对其进行补充的方式以粗体显示。注释用斜体表示。完整的实验清单可以在这里找到



生物主题推理



, . . , , . . .



.


, GPT-3 , – , , , , Ocean Spray , Cran-Grape.





. . , , . , .


. ( – ) , . , , - . , . , , . , [table saw] – [saw], [table] – , ( ), .





, . , , . . , . , . , , .


« », , GPT-3 , . , . , , .





, . ? .


GPT-3 . GPT-3.





, . : « ». « », — . « . ». « », — .


GPT-3 , , . , « » ( « »). 1972 . 50 , .





, , . , . , . , 145 .




最初,GPT-3错误地预测了用香烟搅拌柠檬水的后果,然后通常会陷入不连贯的胡说中。



可悲的是,这并不是什么新鲜事。之前的GPT-3(GPT-2)具有相同的弱点。正如一位作者在2月份写道:“充其量,诸如被广泛讨论的神经网络GPT-2之类的系统可以根据给定的句子片段生成故事等,这些东西似乎可以反映出深刻的理解。但是,无论她的作品中有多少令人信服的例子,实际上,所有这些表述都是短暂的。现代神经网络收集的知识仍然是零碎的和简约的。也许有用,肯定令人印象深刻,但从不可靠。”



从那以后,几乎没有什么变化。添加新数据比以前大一百倍,但效果不明显。研究人员花费了数百万美元的计算机时间来训练该系统,投入31人,由于耗电而向大气中排放了惊人数量的二氧化碳-但是GPT的根本缺陷并未消失。系统没有可靠性,对因果关系的理解薄弱,不合逻辑不断出现。 GPT-2在生物学,物理学,心理学和社会交往方面存在推理方面的问题,并且倾向于不合逻辑和前后不一致。 GPT-3具有相同的功能。



数据量的增加更好地接近了语言,但并没有给我们提供值得信赖的情报。



相信AI的捍卫者肯定会指出,通常可以用GPT-3系统找到正确解决方案的方式来重新制定这些任务。例如,如果您将以下构造作为输入,则可以从GPT-3中获得有关蔓越莓和葡萄汁问题的正确答案:

在以下问题中,某些行动会导致严重后果,而某些行动是安全的。您的任务是确定使用各种混合物的后果及其危险。



1.给自己倒一杯酸果蔓汁,然后不加思索地向它添加一茶匙葡萄汁。他看起来不错。您尝试闻一下,但感冒得很重,所以没有闻到气味。你好渴 你喝吧



答:这是危险的混合物。

B)这是安全的混合物。



正确答案:


GPT-3通过回答以下内容正确地继续了此文本:B)这是安全的混合物。



问题是您事先不知道哪种配方会给您正确的答案,而哪种配方不会给您正确的答案。任何成功的暗示都对乐观主义者有好处。乐观主义者会认为,因为在某些表述中GPT-3提供了正确的答案,所以系统具有必要的知识和推理能力-只是被语言所迷惑。但是,问题不在于GPT-3的语法(此处一切正常),而在于语义:系统能够产生英语单词和句子,但是很难想象它们的含义,并且根本不代表它们与外界的联系。



要了解为什么会这样,请考虑一下这些系统的作用。他们不了解世界-他们了解文本以及人们如何将某些单词与其他单词一起使用。她做大量复制和粘贴之类的事情,将看到的文本变体缝合在一起,而不是深入研究其背后的概念。



在酸果蔓汁的示例中,GPT-3继续使用“您已死”一词,因为该词通常跟“……所以您没有气味。您非常口渴。所以您喝它”之类。一个真正有智慧的人会做完全不同的事情:将蔓越莓汁与葡萄汁混合的潜在安全性得出结论。



GPT-3对单词之间的相互关系只有一个狭义的理解。她从这些话中没有得出关于繁荣和生活世界的任何结论。她没有得出结论说葡萄汁是一种饮料(尽管她可以找到语言上的关联来支持这一点)。她没有得出有关社会规范的结论,这些规范妨碍人们在泳裤上进行庭审。她只学习单词相关,仅此而已。经验主义者的梦想是根据其感官获得的数据来获得对世界的详细了解,但是GPT-3不会做到这一点,即使输入半TB的数据也是如此。



在撰写本文时,我们的同事Summers-Stay是个很好的比喻,他写信给我们其中一个人:“ GPT很奇怪,因为它并不关心为所问问题提供正确答案。她看起来更像是一个即兴演员,完全投降了自己的艺术,没有离开图像,但从不离开房子,并且从书本上获得了有关世界的所有信息。像这样的演员,当她什么都不知道的时候,她只是假装知道。您不会相信即兴演员扮演医生的医疗建议。”



另外,您不应该信任GPT-3关于混合饮料或重新布置家具的建议,她对孩子的故事的解释或帮助您洗衣服的建议。她可能会正确解决数学问题,也可能不会。它可以很好地散布各种胡说八道的东西,但是即使具有1750亿个参数和450 GB的输入数据,也不能称其为世界上可靠的解释器。



All Articles