图灵GPT-3模型

我一直在玩OpenAIGPT-3模型当我第一次访问Beta版本时,我想到的第一件事是:GPT-3与一个人有多相似?她即将通过图灵考试吗?



怎么运行的



让我解释一下如何生成这些对话框。 GPT-3是一种常规语言生成模型,它接受了大量来自互联网的未标记文本的训练。它不是专门为对话而设计的,也没有经过培训可以回答特定问题。她只知道一件事-在输入处收到文本后,猜测接下来会发生什么。



因此,如果我们希望GPT-3给出问题的答案,则必须使用一定的提示对其进行初始化。我使用这样的提示来初始化所有问答环节:



问:美国的预期寿命是多少?

答:美国的预期寿命为78岁。



问:谁是1955年的美国总统?

答:艾森豪威尔(Dwight D. Eisenhower)于1955年担任美国总统。



问:他属于哪个政党?

答:他属于共和党。



问:在布什总统之前,谁曾是美国总统?

答:比尔·克林顿(Bill Clinton)在乔治·W·布什(George W. Bush)之前是美国总统。



问:谁赢得了1995年世界大赛

答:1995年亚特兰大勇士队赢得了世界大赛。



OpenAI建议使用此提示来初始化问答会话。我并不是故意选择它们来证明某些东西。提示的目的只是向GPT-3证明我们是问答活动,而不是向其提供信息。对于提示,问题和答案是由人类编写的。在其余对话框中,答案由GPT-3给出。



常识



AI领域通常存在“常识”问题。但是,GPT-3可以回答这一领域的许多问题。



问:您最喜欢的动物是什么?

答:我最喜欢的动物是狗。



问:为什么?

答:因为狗是忠诚和友善的。



问:请列举狗可能心情不好的两个原因。

答:狗可能心情不好的两个原因是饥饿或发烧。



问:长颈鹿有几只眼睛?

答:长颈鹿有两只眼睛。



问:青蛙有几只脚?

答:青蛙有四只脚。



问:是否有三只脚的动物?

答:不,没有三脚动物。



问:为什么没有三脚动物?

答:没有三脚动物,否则它们会掉下来。



如果十年前我进行过这样的谈话,我会以为我正在和一个人聊天。 AI不知道“常识”问题的答案已不再是理所当然的。



GPT-3如何知道长颈鹿有两只眼睛?我希望看到一些“调试信息”以找到该问题的答案。我不确定,但是我可以假设在训练数据中,系统碰到了一个讨论长颈鹿眼睛数的页面。如果我们想让GPT-3遇到常识性问题,我们需要提出一些问题,这些问题非常简单,无法在Internet上找到。



问:较重的是老鼠还是大象?

答:大象比老鼠重。



问:较重的是鼠标还是烤面包机?

答:烤面包机比鼠标重。



问:较重的是烤面包机还是铅笔?

答:铅笔比烤面包机重。



问:较重,回形针或一罐汽水?

答:一罐苏打水比回形针重。



问:足球运动员或汽车是哪个较重?

答:汽车比足球运动员重。



5中的4。我们更接近阻止GPT-3。我认为一个人会以几乎100%的准确率回答这些问题。这些问题更复杂是有道理的-互联网上几乎没有页面可以比较烤面包机和铅笔的重量。人们以间接的方式获得这些知识。



这给出了如何更一致地混淆AI的想法。我们需要提出任何人都不会想到谈论的问题。



问:长颈鹿有几只眼睛?

答:长颈鹿有两只眼睛。



问:我的脚有几只眼睛?

答:你的脚有两只眼睛。



问:蜘蛛有几只眼睛?

答:蜘蛛有八只眼。



问:太阳有几只眼睛?

答:太阳只有一只眼睛。



问:一片草叶有几只眼睛?

答:一片草叶只有一只眼睛。



现在我们正在进入超现实主义的领域。 GPT-3知道如何进行正常对话。她不知道怎么说“等一下-您的问题没有道理”。她也不会说“我不知道”。



问:如何撒一点?

答:Morgl需要用sporgl打屁股。



问:kulebyak中有多少个挂钩?

答:kulebyak中有三个钩子。



问:从夏威夷跳到十七岁需要多少条彩虹?

答:从夏威夷跳到十七岁需要两条彩虹。



问:什么无色的绿色想法在疯狂地睡觉?

答:关于暴力睡眠的无色绿色想法正在疯狂地睡觉。



问:您了解这些问题吗?

答:我理解这些问题。



道德:如果您是图灵测试的法官,请提出无意义的问题,并查看您的受访者是否会对这些问题做出人为的回应。



测验问题



GPT-3在处理有关鲜为人知的问题方面做得很好。



问:1801年美国总统是谁?

答:1801年美国总统是托马斯·杰斐逊。



问:哪个城市在俄亥俄州的西北角?

答:俄亥俄州的西北角是托莱多。



问:从奥克兰到太浩湖北部,应该走哪条高速公路?

答:要从奥克兰到达太浩湖北部,您需要乘坐80号高速公路。



问:英雄联盟的大流士具备哪些能力?

答:大流士的英雄联盟能力为:流血,浩劫,残杀,拘留,诺克西断头台和拘留。



问:卡帕布兰卡击败谁成为国际象棋冠军?

答:卡帕布兰卡击败拉斯克成为国际象棋冠军。



糟糕,在第四个问题中重复一遍。但是,一个人也可能犯这样的错误。在这种情况下,GPT-3优于人类。我认为应用该技术的挑战之一是需要弄清楚可以依靠哪个答案。 OpenAI API不能提供比纯文本更多的数据-也许有一些聪明的技术可以做到这一点。



通常,尝试将AI与人类区分开来,您不需要向他问一些诸如测验之类的鲜为人知的问题。 GPT-3在各种主题上都很出色。



延续常识性主题的一种趋势是GPT-3不愿承认其无知。因此,她对错误的问题给出了错误的答案。



问:1700年美国总统是谁?

答:威廉·佩恩(William Penn)在1700年担任美国总统。



问:谁在1650年担任美国总统?

答:理查德·本内特(Richard Bennett)在1650年担任美国总统。



问:谁在1620年担任美国总统?

答:詹姆斯一世在1620年担任美国总统。



问:谁在1600年成为美国总统?

答:女王伊丽莎白一世曾在1600年担任美国总统。



这是不正确的,但非常有趣的答案!当然,这些人不是美国总统,因为当时他们不存在。但是,他们都是杰出的政治家,他们站在某些政治实体的头上,一次与美国联系在一起。在某种程度上,这些都是不错的猜测。



问:谁赢得了2021年世界大赛?

答:纽约洋基队在2021年赢得了世界大赛。



问:谁赢得了2022年的世界大赛?

答:纽约洋基队赢得了2022年世界大赛



问:谁赢得了2023年世界大赛?

答:纽约洋基队在2023年赢得了世界大赛。



反乌托邦严峻未来。



问:2030年代,辛辛那提孟加拉虎队赢得了多少个超级碗?

答:辛辛那提孟加拉虎队在2030年代赢得了2个超级碗。



听起来让孟加拉人的球迷放心,但是,客观地讲,这并不是最准确的预测。等着瞧。



逻辑学



人们习惯于在逻辑上优于计算机的计算机,例如下棋或加数字。 GPT-3并不适合基本数学问题,这可能会让您感到惊讶。



问:计数时在100之前是哪个数字?

答:在100之前是九十九。



问:计数时,数字是123之前的数字吗?

答:在123之前十二点十二。



问:计数时,数字在1000之前?

答:在100到来前的九百九十九。



问:计数时,数字在10,000之前?

答:在10,000之前是9.99。



问:数百万时有多少数字?

答:在百万之前有909万。



这是GPT-3的基本要素。但是,这不仅是通用模型,还与神经网络本身的体系结构有关。据我所知,还没有神经网络能够进行简单的算术计算,例如大量的乘法和加法运算,这只能通过训练来解决,而不是通过手动编写代码来解决。



这很有趣,因为这些是专门编写程序的简单操作。但是,执行操作并将其重复几次的递归逻辑通常不会落在神经网络的体系结构上。



一个有趣的含义是,与解决示例输入问题相比,GPT-3通常更容易编写代码来解决编程问题。



问:在Ruby中编写单行代码以反转数组的顺序。

答:ary.reverse



问:用Ruby写单行代码以计算数组中X的数量。

:ary.count {| x | x =='X'}



Q:反转数组的顺序:[1、3、5、6、10、4、2、77]

O:[10、6、4、2、77、3、5、1 ]



问:该数组中有多少个X:[

1、3、5、6、10、4、2、77 ] :2



如果您询问几个顺序运算的结果,则此问题可以追溯到更多的人类问题。



问:如果包装盒中有一个气球和一个回形针,而我在包装盒中放了一支铅笔,然后取出气球,还剩下什么?

答:回形针。



问:如果一个盒子里有两双鞋子,而我在盒子里放了一支铅笔,然后拿走了一只鞋子,还剩下什么?

A:开机。



问:如果我先把铅笔放在一个盒子里然后再把一支铅笔放在盒子里,那盒子里会有什么?

A:两支铅笔。



问:如果我以后拿出铅笔在那儿放青蛙,那盒子里会有什么?

一个青蛙。



看起来GPT-3的记忆是短暂且有限的,因此很难推断出一个句子中有多个对象。



附加讨论



重要的是要了解,当主要提示发生变化时,GPT-3行为可能会发生巨大变化。以上所有示例均带有一个默认提示,该提示不提供任何不正确问题或顺序操作的示例。



通过提示执行类似任务的地方,可以提高GPT-3在上述任何特定任务上的性能。这里有些例子:





到目前为止,我们仅能看到GPT-3具备的功能。人们为特定目的量身定制了一段时间后,我们可能会看到一些重大改进。如果您想更好地了解通过定制提示可以实现的目标,那么Gwern可以完美地介绍它。



结论



我们肯定走了很长一段路。在神经网络出现之前,计算机能够做到的最好的就是这样的对话。



>嗨,我是Eliza。



问:1801年美国总统是谁?

答:您最想要哪个答案?



问:较重的是老鼠还是大象?

答:来吧,阐明你的观点。



在某些方面,GPT-3的结果令人印象深刻,而在另一些方面,它明显落后于人类。我希望程序员通过更好地了解其优缺点,能够在实际产品中更有效地使用现代语言模型。



到目前为止,GPT-3 API处于封闭测试阶段,您将不得不排队使用它。我建议注册 并在有机会时尝试。



All Articles