关于人工智能的理解

人工智能现在由各种系统表示,但是只能在人工智能(AI)的对话系统中谈论理解。人工智能中理解的主题归结为人工代理与人之间对话交互的几个方面:



  1. 对话系统生成的文本对应于“常识”。
  2. 系统的响应与对话的上下文和个人的期望相匹配。
  3. 理解对话中某人陈述的目的和意图。


理解含义不能完全归因于理解对话上下文的主题,因为对话者陈述的含义可以用不同的方式解释,并且不清楚理解状态应对应哪种解释。对话者(人)认为“错误”是否可以解释为系统对表达含义的不同理解?在更大程度上,理解含义是指理解陈述的意图和目的,这是心理理论中的一个单独主题。作为理解标准的“常识”可以被更精确地解释。在一般意义上,这是答案与世界图片的对应关系,这是可验证的。今天,这是理解诸如对话机器人之类的人工代理对话环境的最佳标准。但是到目前为止,机器人还没有在此方面取得成功。



方法分析



相关答案是机器人理解对话者(人)的最简单标准。但是这个标准很容易“伪造”,Loebner奖的参加者已经多次证明了这一标准。通过在神经网络识别的“意图”上放置大量可变响应模板来实现此目的。很难称呼这种理解。但是,这种机器人的成功也并不多见-他们对混合意图的认识非常差。模板和系统之外的一个问题失败了。在诸如Yandex的Alice和Apple的Siri之类的机器人上可以轻松地进行检查。可以说,关于此类系统的世界知识是零碎的。



另一种方法是构建覆盖所有关于世界的知识的本体,以便获得问题的答案。这是通过在本体分支上识别问题并基于嵌入的知识构建正确答案的能力来实现的。本体声称用本体覆盖了整个世界。 CYC和ABBYY Compreno等项目已使用此方法。现在我们可以说这种解决“理解”问题的方法失败了。由开发工程师进行的这种本体的数十年的手工构建不允许他们构建即使在简单的孩子的问题下也不会失败的本体。本体论的问题主要与语言和同名的隐喻性质有关,这不能始终如一地放在树状的本体的“逻辑”结构中。相同的尝试包括FrameNet项目(Fillmore),包括基于语义框架构建场景以反映世界事实。但是出于同样的原因,该项目无法开发。可以说,这样的系统无法实现语言的简约性,因为它只能通过词汇量有限的隐喻机制来描述大量概念。



自2010年以来,神经网络受到了更多的关注,但是它们的局限性在于它们只能在训练集中出现的世界图景的框架内做出假设。 OpenAI项目中的GPT-3(2019年2月)之类的网络建立在Transformer架构上(一个生成的网络,接受了数十亿个单词的文本训练),生成的语法正确的“人类”文本完全没有意义,这表明对它们的完全误解是“如下例所示。



示例:



您:狼有几只眼睛?

GPT-3:狼有四只眼睛。

你:为什么四个?

GPT-3:两个是用于在黑暗中观看的。

你:为什么两个?

GPT-3:狼需要查看食物是否准备就绪。

您:人类有几只眼睛?

GPT-3:一个人有两只眼睛和两只耳朵可以听到。

您:几只眼睛有草叶?

GPT-3:草叶片有一只眼睛和一只耳朵可供观看和聆听。

你:为什么一个?

GPT-3:确保不会被踩踏。



可以说,这样的系统可以针对任何问题生成陈述,即使在教育教科书中也找不到,但是不能保证它们建立与世界图画相对应的“常识”事实。



有多种组合方法,例如由Yejin Choi(1)创立的COMET,其中使用了原子世界事实的“手写”知识库来重新训练经过预训练的语言模型GPT-2。结果,该网络开始产生明显更真实的事实,而原子和GPT训练集中都没有这些事实。但是到目前为止,由于没有确定的答案,因此该项目的成功也很少。



令人感兴趣的是DeepMind系统,该系统除具有神经网络外,还具有事实(或经验)的外部存储,使他们无需老师即可学习“游戏规则”,只需在环境中活跃并记录其结果即可。而且通过这种学习方式,甚至在彼此玩耍时,即使在Go之类的游戏中也可以击败人类玩家。现在,这被认为是“了解游戏世界”的建筑代理商的主流。但是,这种自学习系统的体系结构不允许将其扩展到比黑白鹅卵石游戏或原始计算机游戏Atari更为复杂的现实。教学方式显然具有复杂性的技术限制。可以说,这样的系统不是通过使用知识来积累新知识来节省系统资源,而是创造了“世界图景”。因此,即使在恶劣的环境中,他们也需要太多的资源来学习。



概要



那么,从务实的角度来看,什么可以被称为对人造系统的“理解”?常见的答案是代理必须具有知识。同时,如经验所示,不可能构建全面的知识。另一个答案可能是系统响应的一致性。但是,正如我们所看到的,接受大量文本训练的系统在生成的语句中在逻辑上没有不同。



人工智能系统的理解意味着它有能力从零碎的世界事实知识中得出有关世界画面的合理假设。为了节省金钱,系统必须能够使用有限的语言来描述无数个事实,这可以通过隐喻之类的机制来实现。但是,目前,这种机制还不十分清楚,无法体现在程序代码中。隐喻的可用概念不是特定于算法的,例如概念隐喻或混合。数学尚未适用于它们,但是作者的工作是朝着这个方向进行的。



作者认为,这种完成是人造系统理解能力的主要标准。例如在国际象棋中限制“世界图片”时,我们能够显式地确定用于产生知识(即可能的移动)的算法,以便国际象棋可以将自己定向为以前从未遇到过的任何棋子。但是如何在现实世界中如何做到这一点呢?在现实世界中,还有更多数量级的规则,尚不清楚什么构成作者研究的主要方向。



参考书目



1.常识更接近计算机,Quantamagazin,2020年4月30日



All Articles