通用计算架构是指采用传统通用计算芯片实现人工智能算法, 如 CPU (central processing unit), GPU (graphics processing unit) 等. 大量实验和测试结果已表明传统的通用芯片已无法满足应用场景对高 能效和高有效算力的严苛要求 [1] . 专用计算架构是指专门针对神经网络等人工智能算法定制的专用 处理器, 其典型代表如: 美国麻省理工 (Massachusetts Institute of Technology) Eyeriss [2] 芯片、谷歌张 量处理器 TPU (tensor processing unit) 芯片 [3] 等. 然而, 目前的人工智能芯片的发展仍面临着一系列 挑战和限制. 人工智能模型的推理和训练均需要大量的计算和数据移动, 大量的数据需要在计算单元 和存储单元之间频繁流动, 传统冯 • 诺依曼架构的 "存储墙" 问题日益成为该计算架构的发展瓶颈. 随 着神经网络应用规模快速增长, 最先进的 AI (artificial intelligence) 芯片使用近存计算技术以缓解 "存 储墙" 瓶颈. 例如采用三维堆叠的 HBM (high bandwidth memory) 和 2.5D 的 Chiplet 集成方式以提 升芯片外部至芯片内部的数据带宽, 同时节约数据搬运的能量消耗. NorthPole [4] 采用分布式片上存 储的近存计算, 将片上存储均等分布于所有计算阵列中, 依靠庞大的片上存储系统部署整个网络, 避 免芯片外部与芯片内部的数据交互. 然而 220 MB 的片上存储依然无法满足大模型需求, 同时庞大的 片上存储将会产生额外的芯片面积代价. 针对传统冯 • 诺依曼计算架构面临的 "存储墙" 瓶颈, 存算一体这种新兴计算架构旨在把传统以 计算为中心的架构转变为以数据为中心的架构, 减少或避免数据搬移, 从而消除传统冯 • 诺依曼结构 架构面临的 "存储墙" 瓶颈. 存算一体作为一种新兴计算范式, 其核心思想就是将计算操作与数据访 存过程结合在一起, 从而提高计算性能和效率. 根据存储墙的介质不同, 常见用于存算一体架构的存储 技术路线包括 RRAM (resistive random access memory), SRAM (static random access memory), Flash