理解顺序组织的数据（无论是语言，音乐还是视频）都是困难的，尤其是当它高度依赖于其周围的上下文时。例如，如果某个人或任何物体从录像的视场中消失并在相当长的一段时间后重新出现，许多模型将忘记他的外观。在语言处理领域，长短期记忆（LSTM）神经网络提供了足够的上下文来成功地逐句翻译。在这种情况下，上下文窗口（即模型在翻译时要考虑的数据覆盖范围）可以包含10到100个字。较新的变压器模型不仅提高了连续翻译的质量，而且可用于通过汇总多个文档来生成整个Wikipedia文章。由于Transformer将上下文窗口扩大到一千个单词，因此这是可能的。另外，这种广泛考虑的上下文允许使用变形器不仅处理文本，而且还处理像素或音符，在此基础上可以生成图像或音乐。