在机器学习中使用光子技术的新方法

美国乔治华盛顿大学电气与计算机工程系的Mario Miskullo和Volker Sorger在他们的应用物理评论(Applied Physics Review)中的文章“光子处理器实现更多性能的机器学习”中,描述了一种用于执行神经网络计算的新方法使用光子张量内核而不是图形处理单元(GPU)进行机器学习。



Miscuglio


Mario Miskullo是乔治华盛顿大学电气与计算机工程系的助理教授。 Mario是由Volcker J. Sorger教授领导的OPEN Lab神经形态计算小组的小组负责人。 Mario在哈佛大学/麻省理工学院担任研究员期间,从都灵理工学院获得了电气和计算机工程硕士学位。他为意大利理工学院热那亚大学的光电子博士学位做辩护,同时在国家实验室的分子铸造研究所担任研究助理。伯克利的劳伦斯。他的兴趣扩展到科学和工程领域,包括纳米光学和光-物质相互作用,超表面,傅立叶光学和光子神经形态计算。



作者认为,采用这种方法的结果是,光学数据流的处理性能可以比GPU高2-3个数量级。作者还认为,光子处理器可以在5G网络中的外围设备上出色地工作。



research-highlight-volker-sorger-007-2


— , (OPEN) . , .



, , - . — , , PMAC/s . , (PECASE), AFOSR , . - , OSA , OSA , SPIE . - IEEE, OSA SPIE.




在研究的方法中,光子张量内核并行执行矩阵乘法,从而提高了深度学习的速度和效率。神经网络学习如何学习如何执行不受控制的决策并建立不可见数据的分类。一旦训练了神经网络处理数据,它就可以推断出对对象,模式进行识别和分类,并在数据中找到签名。



TPU光子处理器使用电光连接并行存储和处理数据,当光子TPU与其他体系结构交互时,该电光连接可以有效地读写光学存储器。



“我们发现,内置光存储器的光子平台可以执行与张量处理器相同的操作。同时,它们消耗的能量更少,生产率更高。开发商之一Mario Miskullo说,它们可以用来以光速执行计算。



大多数神经网络会拆散互连神经元的多层,以模拟人脑的工作方式。表示这些网络的有效方法是将矩阵和向量相乘的复合函数。该视图允许通过专用于矢量化操作(例如矩阵乘法)的体系结构执行并行操作。



光子张量核心和点积引擎


来源: 文章马里奥Miskullo和沃尔克Sorger。



(a) 光子张量芯(PTC)由16根光纤组成,根据其性质,它们独立地执行逐行乘法和逐点累积。



(b) . WDM, (, -) . J- . , , (MRR), ( ), , , MAC.



任务越困难,对预测准确性的要求越高,则网络变得越复杂。这样的网络需要大量数据来计算,并且需要更多的功率来处理该数据。适用于深度学习的现代数字处理器(例如图形处理单元(GPU)或张量处理单元(TPU))由于执行所需的功能而受到限制,无法执行复杂的高精度操作。而且还因为处理器和内存之间电子数据的传输缓慢。



本文的开发人员和作者已经表明,TPU的性能可以比电TPU的性能高2-3个数量级。光子是计算网络和在5G等网络边缘执行高带宽智能任务的节点到节点操作的理想选择。来自监视摄像机,光学传感器和其他来源的数据信号可能已经是光子的形式。



Miskullo补充说:“光子专用处理器可以通过减少响应和缩短处理时间来节省大量能源。” 对于最终用户,这意味着在这种情况下,数据的处理速度要快得多,因为大多数数据都是经过预处理的,这意味着只有部分数据可以发送到云或数据中心。



光电数据传输的新方法



本文提供了一个选择用于执行机器学习任务的光路的示例。在大多数神经网络(NN)中,它们暴露了相互连接的神经元/节点的多层,每个神经元和神经元层以及网络本身的连接对于训练网络的任务都很重要。在所考虑的连接层中,神经网络高度依赖于矢量矩阵数学运算,其中,根据学习过程将输入数据和权重的大矩阵相乘。复杂的多层深度神经网络需要显着的带宽和低延迟才能满足执行大型矩阵乘法所需的操作,而又不牺牲效率和速度。



您如何有效地将这些矩阵相乘?在通用处理器中,矩阵运算是顺序执行的,需要不断访问高速缓存,这在冯·诺依曼体系结构中造成了瓶颈。诸如GPU和TPU之类的专用架构通过启用一些强大的机器学习模型来帮助缓解这些瓶颈。



GPU和TPU在CPU上特别有用。但是,当将它们用于训练深度神经网络,对诸如图像之类的大型二维数据集进行推理时,它们会消耗大量能量,并且需要更长的计算时间(超过几十毫秒)。对于不太复杂的推理任务,矩阵乘法仍然会遇到延迟问题,这主要是由于对各种内存层次结构的访问限制以及GPU中每条指令的延迟所致。



作者认为,在这种情况下,有必要探索和重新发明现代逻辑计算平台的操作范例,其中矩阵代数依赖于持久性存储器访问。在这方面,光的波特性以及相关的固有操作(例如干涉和衍射)可以在提高计算吞吐量同时降低神经形态平台的功耗方面发挥重要作用。



开发人员预计,未来的技术必须使用自己的物理操作在其时变输入域内执行计算任务。从这个角度来看,光子非常适合用于分布式网络的计算,可以在网络边缘(例如5G)上对大数据执行智能任务,其中数据信号已经以光子的形式存在(例如视频监控摄像机,光学传感器等)。 ),从而进行预过滤并智能调整允许流向数据中心和云系统的数据流量。



在这里,他们使用光子张量内核(PTC)分解了一种新方法,该方法能够在一个步骤中(即,不是迭代地)用经过训练的内核执行4x4矩阵的乘法和累加;换句话说,经过训练后,神经网络权重存储在直接在芯片上实现的4位多级光子存储器中,而无需其他的电光电路或动态随机存取存储器(DRAM)。光子存储器具有低损耗,相变纳米光子电路,该电路基于沉积在平面波导上的G2Sb2Se5导体,可以通过电热开关对其进行更新,从而能够进行光学读取。使用与相变存储器(PCM)传感器相互作用的钨加热电极可实现电热切换。



表。张量内核性能的比较。

图片


来源:文章马里奥Miskullo和沃尔克Sorger。



与Nvidia的T4和A100相比,以电子方式提供的光子张量芯(PTC)(在左列)的吞吐量提高了2-8倍,对于光学数据(例如相机),放大倍数约为60倍(面积)微电路仅限于一个晶体(〜800 mm2)。



测试表明,光子芯片的性能是当今市场上的产品的两到三倍。它们中的数据处理速度可以达到每秒2 petaflops,而它们消耗的能量约为80瓦,其中95%将用于维护芯片,而只有5%用于计算。



本文的作者强调,这项工作代表了实现存储数据并并行处理它们的光子张量处理器的第一种方法。这样的处理器可以将乘法累加(MAC)操作的数量扩展几个数量级,同时与现有的硬件加速器相比,可以显着减少功耗和延迟,并提供实时分析。



与依赖于逻辑门的数字电子设备不同,在集成的光子学中,可以利用光信号的电磁特性提供的固有并行性来非迭代地执行乘法累加和许多其他线性代数运算。在这方面,集成光子学是用于在硬件中显示特定复杂操作的理想平台。



All Articles