admin管理员组文章数量:1440489
Nature正刊:曦智和Lightmatter的大规模光电混合计算加速卡
◆ 曦智的PACE光电混合计算卡
一、 背景及目标
矩阵乘加(MAC)在深度学习和神经网络中起关键作用,并占据了训练和推理所需的大部分计算资源,传统电子晶体管在MAC操作上能耗高、延迟大,光子计算利用光的并行特性,允许光信号在波导中传输时同时进行乘法和累加,大幅减少了数据流动节省了能耗。
在传统的数字MAC操作如TPU脉动阵列处理,点积操作被解耦并按矩阵元素逐个执行,随着计算矩阵规模的增大,时延会显著增加。而基于模拟计算的光MAC操作(oMAC),时延仅受光程长度限制,与矩阵规模成线性比例,时延增长因子仅为TPU的千分之一。这种对比凸显了大规模光子加速器在高吞吐量、低时延应用中的潜力。
基于高吞吐量和低时延优势,大规模光计算系统是实现启发式递归算法的理想平台。曦智瞄准开发大规模集成光子加速器,实现高速、低延迟MAC运算,验证其在求解计算密集型问题(如Ising模型)中的优势。
二、系统与实现
1. 大规模64×64矩阵规模的集成光电芯片
基于65nm工艺加工硅光计算芯片,采用非相干光架构,通过MZM和锗光电探测器(PD)完成光信号调制与转换,避免相干光的复杂校准。64×64规模的芯片需要集成超16,000个光子组件,包含1×64数据调制模块、64×64权重调制模块和接收阵列,外部激光通过光栅耦合器输入,经调制后完成矩阵-向量乘法,光电探测器将光信号转换为电流并累加。最终实现支持64×64矩阵-向量运算,完成光域MAC操作(oMAC)。
其中光纤耦合器在1310nm处的平均耦合损耗为1dB,向量调制器工作频率1 GHz(1位精度),权重调制器10 MHz(8位精度),调制效率0.69 mW/π相移;而PD的响应度1 A/W,一致性非常好,带宽29 GHz,噪声密度10 pA/√Hz。
通过标准化设计和工艺控制确保器件一致性,相比imec的130nm工艺加工的芯片,65nm改良工艺的芯片计算信噪比有12dB以上的提升。
2. 光电协同设计与封装
电芯片采用28nm CMOS工艺,集成逻辑、内存(SRAM)和控制功能,支持数据输入输出、阈值比较和迭代逻辑。通过DAC驱动调制器,跨阻放大器(TIA)放大电信号,8位比较器生成下一次迭代的二进制向量,SRAM存储中间状态和权重数据。
封装上由于10000多个引脚没法采用传统绑线扇出,这里使用的创新2.5D混合封装技术(倒装芯片键合),实现光子芯片(65nm硅光子技术)与电子芯片高密度互连,解决大规模信号路由问题。接口采用PCIe尺寸电路板集成PIC和EIC,通过SPI总线和以太网与主机通信,支持5000次迭代收敛求解。
3. 系统工作原理
1×64二进制向量通过EIC中的DAC和DRV输入PIC中的向量调制器阵列,实现光信号的亮暗状态,对应向量中的1和0状态。调制后的向量信号随后发送到64×64矩阵权重模块进行进一步调制,以实现等效的线性矩阵-向量乘法。向量和权重数据通过两组不同的光学MZM调制,以1 GHz频率运行,采用NRZ调制方案。
由于给定Ising问题的矩阵权重是固定的,权重调制器模块的设计与向量调制器阵列不同。为实现可重构权重单元,权重调制器优化为以10 MHz的较低频率运行,同时由相邻的DAC和DRV以更高的位分辨率驱动,相应设计的调制精度为8位。输出光信号在PD阵列转换合并,并通过TIAs放大。数千个集成Ge PD作为接收器阵列收集调制信号并实现光信号加法功能。最后,放大的信号在EIC域与8位比较器比较,转换回向量用于生成下一次迭代的递归向量。运行中,系统可实现约8.19 TOPS的吞吐量。能效测量为约4.21 TOPS/W(不含激光器)和2.38 TOPS/W(含激光器),显著优于同类系统。
三、实验验证与成果
1. 精度与鲁棒性
为验证光子域的MAC性能,系统以位精度为指标进行表征。通过注入30,000个随机向量的实测点积误差分布,在无实时主动反馈调整权重的条件下,实现了平均0.06最低有效位(LSB)误差,标准差σ≈1.18 LSB。相应地,有效位数(ENOB)分布超过65%的概率达到8位,超过80%达到7位以上。
在25 MHz数据速率下,系统平均实现接近7.61位精度,无需任何主动反馈控制。应用特定的初步校准以维持系统精度,系统还能耐受±5°C的温度波动,有效位仅下降1位。假如进行系统的主动反馈控制和监测,环境温度影响可减轻,位精度有望进一步提高。
2. Ising问题求解
验证组合优化问题(如最大割问题、图像记忆问题),通过迭代矩阵MAC运算和噪声注入收敛到基态分布。其中,为了完全实现算法中描述的启发式架构,PACE系统需要在电路中引入可控噪声以实现有效的位翻转,从而实现解的有效搜索。系统中存在多种可控噪声源,主要来自激光、DRV、TIA以及数字控制电路中设计的数字噪声。光芯片本身产生的噪声相当小。为了增加噪声驱动的位翻转,同时保持系统收敛的平衡,通过输入激光功率、接收器TIA增益配置和数字域的数字噪声注入主动调谐SNR。
实验实现了5 ns延时设置下收敛率超92.72%,5000次迭代总计算时间仅为2.7 μs,相比NVIDIA A10 GPU的798.1 μs提升两个数量级,充分展示了PACE系统在计算速度上的优势。
◆ Lightmatter的通用光AI计算卡
一、研究背景与目标 电子芯片受限于摩尔定律和Dennard缩放,难以满足AI模型复杂度指数级增长的需求,光计算凭借高带宽、低延迟和高能效成为重要替代方向,但存在精度不足、系统集成困难、与先进AI架构兼容性差等问题。 本工作首次报道了能够执行最先进神经网络的光子处理器,包括Transformer、卷积网络分类与分割以及强化学习算法。关键的是,该光子处理器在高级任务上实现了接近32位数字浮点系统的精度,即使不使用微调和量化感知训练等先进技术,也验证了其计算完整性。
该设计在单个封装中集成了6个芯片,利用垂直堆叠封装的光子张量核心(PTC)与控制芯片之间的高速互连,从而实现AI计算的高效率和可扩展性。这项工作聚焦于准确执行最先进的神经网络,能够以78W的电功率和1.6W的光功率实现每秒65.5万亿次自适应块浮点35(ABFP)16位运算。这项工作代表了光子处理领域实现的最高集成水平。
二、整体系统架构 1. 硬件架构:光子张量核心(PTC)与数字控制接口(DCI)
① PTC(光子张量核)
4个128×128 PTC,基于Global Foundries 90nm光子工艺,单芯片尺寸14.00×24.96 mm,集成128个10位向量单元和128×128个7位权重单元。调制区用硅波导,走线波导用SiN波导。
核心功能:执行矩阵-向量乘法(MVP),支持差分向量编码和权重单元动态调整,通过MZM和Ge PD实现光信号调制与转换。
② DCI(数字控制接口)
2个12nm CMOS工艺DCI芯片,单芯片尺寸31.4×25.0 mm,集成64个RISC-V核心、268MB统一缓冲区和高速ADC/DAC。 功能:管理数据输入输出、权重存储、校准算法执行,通过PCIe 4.0与主机通信。 2. 先进封装与集成
① 混合封装
6芯片集成(4 PTC + 2 DCI),通过有机中介层实现高密度互连,封装尺寸80×65 mm,支持高速数据传输(权重接口带宽1,024 GB/s)。
②光纤耦合
每PTC配备12通道光纤阵列Vgroove 耦合,实现外部激光输入与光信号输出,耦合效率1.56 dB。
3. 数字架构(Digital Architecture)
① RISC-V控制单元
每个DCI包含64个RISC-V核心(SiFive E76-MC),运行NuttX实时操作系统,负责校准、指令调度等控制任务,与主机通过PCIe Gen4 x16总线通信。 ② 统一缓冲区与数据接口
268MB统一缓冲区存储权重、激活值等数据,支持1,024 GB/s的权重传输带宽和256 GB/s的IO管道带宽,确保数据高效流转。统一缓冲区作为“数据中枢”,衔接主机内存、RISC-V核心本地存储和PTC寄存器,通过DMA引擎减少CPU干预,提升计算效率。 4. 神经计算引擎(NCE) ① SIMD并行处理
作为128路单指令多数据(SIMD)流处理器,支持bfloat16运算,包含16个矩阵寄存器(存储128×128向量)和16个向量寄存器(存储128元素向量),支持256 GB/s的并发数据流。 ② 混合精度计算
矩阵乘法在PTC中以自适应块浮点格式(ABFP)处理(权重7位、激活值10位),非线性函数通过分段线性查找表实现,累加和非线性操作使用bfloat16保持精度。 5 . 数据流与计算协同 ① 双缓冲权重设计
在MVP计算时实时更新权重,10ns的权重稳定时间与数字管道延迟匹配,确保数据流不间断。 ② 输出流水线优化
支持“读-修改-写”操作,将PTC输出累加至统一缓冲区,减少数据搬运开销,提升密集型张量运算效率。 通过异构集成和数据流优化,在当前的500MHz时钟下,处理器实现65.5万亿次ABFP16操作/秒(78W功耗,光芯片占1.6W),未来进行DCI时钟树优化后,在设计峰值2 GHz时钟下可达262万亿次/秒,算力密度显著高于传统电子加速器。
三、PTC架构
1. 设计 PTC是光子处理器的计算核心,集成了光子器件与模拟电路,专用于执行矩阵向量乘积(MVP)等张量运算,支持ResNet、BERT等复杂AI模型的底层计算需求。但设计时需平衡权重编程速率与向量输入速率,以支持数据依赖型AI任务(如Transformer的动态权重选择)。 2、核心组件与技术细节 ① 权重单元 将数字权重代码转换为模拟电流,对输入光信号(代表激活值)进行幅度调制,实现光电混合乘法运算。每个单元由差分光电探测器与7位分段式R-2R梯形DAC组成,支持±1范围内的权重编程,通过可编程斜率参数校准制造误差。积分非线性(INL)0.4 LSB,微分非线性(DNL)0.08 LSB,带宽1.5 GHz,可实现高速权重更新。 ② 向量编码器 基于10位伪差分电阻DAC驱动的MZI,通过热光相位调制及mPD反馈稳定MZI工作点,补偿温度漂移(精度±1 LSB)。更新速率为2 GHz,有效位数(ENOB)8.3,支持高速向量数据输入。采用了16路光子二叉树分配光信号,确保128个向量单元的功率均匀性,降低非线性失真。 ③ TIA 可编程增益TIA(典型增益2.8 kΩ,带宽0.8 GHz)将光电探测器输出的微弱电流转换为电压信号,支持1.5 Vpp差分输出摆幅,为后续ADC提供高信噪比输入。 ④ ADC 4通道时间交织、两级流水线逐次逼近ADC,11位精度,采样率2 GSPS,ENOB 9.8位,决定PTC的峰值张量运算速率。 3. 计算流程与信号传输 - 输入阶段:激活值通过向量编码器调制为光信号,经光子二叉树分配至128×128权重单元矩阵。 - 运算阶段:权重单元通过DAC对光信号加权,经电流求和网络完成矩阵向量乘积(MVP),输出模拟电流信号。 - 输出阶段:TIA将电流转为电压,ADC量化为11位数字信号,通过比例因子(ABFP格式)恢复为bfloat16精度,存入统一缓冲区。
四、实际AI负载下的性能测试
1. 图像分类与卷积模型 ①ResNet18性能
在CIFAR-10、Imagenette、ImageWoof等数据集上,精度分别达86.4%、79.3%、79.7%,为FP32精度的97.8%、93.3%、94.6%,其中MNIST达99.3%(FP32的99.8%),接近电子芯片水平。复杂数据集(如ImageWoof)精度略低,主要受限于硅波导非线性吸收导致的增益不足(实际增益1.86,设计目标4)。 ②SegNet语义分割
Oxford-IIIT Pet数据集精度63.7%(FP32的77.4%),因分割任务依赖像素级精确输出,对模拟噪声更敏感。 2. 自然语言处理(NLP) ①BERT-Tiny任务对比: 分类任务(IMDb情感分析):精度83.2%(FP32的96.5%),分类任务对输出误差不敏感,因决策边界内的输出视为同一结果。 回归任务(SQuAD):分数仅12.0%(FP32的27.5%),因回归依赖精确数值,对ADC量化噪声和模拟增益波动更敏感。 3. 强化学习(打游戏) 成功运行了Beamrider和吃豆人游戏,但光子处理器执行步骤数(有效决策次数)分别为6,430和1,825,低于FP32的30,304和3,329,主因是模拟计算噪声影响奖励预测精度。 4. 精度差异原因分析 ① 硬件非理想性 硅波导非线性吸收:向量编码器区域的硅波导导致增益损失,限制系统动态范围,复杂模型(如ResNet34)精度下降更明显。未来探索铌酸锂等新材料,提升调制速度与线性度,支持更高精度计算。 时钟频率限制:因数字控制接口(DCI)时钟树未优化,当前运行在500 MHz(峰值2 GHz但不稳定),影响数据吞吐量。 ② 任务特性敏感程度 分类任务:对精度容忍度高,因离散决策可掩盖部分噪声。 回归与强化学习:依赖连续数值精确性,噪声导致奖励计算或输出回归值偏差,性能下降显著。 5. 量化感知训练(QAT)和微调 训练阶段模拟硬件量化效应,使模型适应低精度表示,减少对FP32的依赖。ResNet18在ImageWoof数据集上,通过QAT将精度从64.4%提升至79.7%,证明模拟硬件可通过训练技术补偿噪声。 五、总结 这项工作代表了AI光子计算的重大进展,展示了一种在复杂人工智能模型上实现接近数字精度和性能的光子处理器。成功实现ResNet和BERT等模型,并演示了对强化学习算法(包括DeepMind Atari深度学习算法)的熟练处理。
尽管此处展示的光子处理器在计算能力上取得了显著进步,但该领域仍有若干挑战和机遇需要解决。未来通过使用先进的封装技术(如混合键合或μ bump)减少DCI和PTC之间的互连间距,进一步缩小PTC的面积。从而在单个reticle上扩展到512×512计算单元。PTC和DCI的3D堆叠可以实现远超此处所示四核实现的阵列。
光子计算的能效随张量核大小呈非线性扩展,更大的核心提供更高的效率。然而,实现这一优势需要设计新的神经网络架构,通过每次数据加载执行更多计算来最小化内存查找。这种转变可以大幅减少数据移动和内存访问的能耗,解决针对图形和TPU优化的人工智能系统中的主要瓶颈。光子处理器架构可以通过波分复用进行性能增强,为提高此处展示的光子处理器的计算密度提供了一条途径。
更高时钟速率所需的光功率受到硅光子器件(尤其是pn结和热光移相器)中非线性吸收的限制。未来设计必须通过器件工程创新、自适应功率控制或补充硅特性的混合材料来克服这一限制。比如铌酸锂、BTO和新兴二维系统等新材料可以降低光学非线性、提高调制速度并实现更紧凑的单元单元。这些创新有望增强计算能力、能效和可扩展性,为混合光电计算提供更多可能。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-10,如有侵权请联系 cloudcommunity@tencent 删除芯片架构设计数据系统本文标签: Nature正刊曦智和Lightmatter的大规模光电混合计算加速卡
版权声明:本文标题:Nature正刊:曦智和Lightmatter的大规模光电混合计算加速卡 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/biancheng/1747729770a2750711.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论