2023 IEEE International Solid- State Circuits Conference (ISSCC) 2023
DOI: 10.1109/isscc42615.2023.10067260
|View full text |Cite
|
Sign up to set email alerts
|

A 28nm 64-kb 31.6-TFLOPS/W Digital-Domain Floating-Point-Computing-Unit and Double-Bit 6T-SRAM Computing-in-Memory Macro for Floating-Point CNNs

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2
1
1

Citation Types

0
2
0
2

Year Published

2023
2023
2024
2024

Publication Types

Select...
5
1

Relationship

0
6

Authors

Journals

citations
Cited by 35 publications
(4 citation statements)
references
References 5 publications
0
2
0
2
Order By: Relevance
“…相较于工业界偏向稳定性、鲁棒性和灵活性的实用性探索, 学术界关于 SRAM 存算一体技术的 研究更加注重于尝试针对各种不同应用需求提出新的可能的解决思路和方案. 在 2023 年 ISSCC 会议 上, 北京大学介绍了在 22 nm 工艺节点上设计的差值求和的模拟域存算一体芯片 [21] , 目的是解决边缘 端 AI 场景中存在大量不变的冗余数据信息所导致的计算功耗浪费问题; 东南大学则针对高精度、片 上训练等需求, 以及边缘端深度可分离卷积神经网络的加速效率问题, 在 28 nm 工艺节点上分别设计 了数字域浮点存算一体芯片 [22] 和基于水平权重移位与垂直输入移位的模拟域存算一体芯片 [23] ; 此 外, 北京清华大学和台湾清华大学等高校也在该领域深耕多年, 在国际会议上持续发表了一系列研究 成果. 综上所述, 相较于其他新型非易失性存储器, 基于 SRAM 的存算一体技术路线尽管起步较晚, 但 凭借其工艺兼容性、设计灵活性、电路可靠性等优势, 近 5 年发展十分迅猛, 在学术界不断尝试和探 索的过程中逐渐引起工业界的重点关注, 在 AI 算法愈发向更大模型演进使得硬件算力和功耗愈发受 到重视的今天, 基于 SRAM 的存算一体技术展现出了强劲的性能优势和应用潜力, 使得多个国际芯片 巨头开始在该领域进行研发和产业布局.…”
Section: Sram 存算一体芯片研究现状与发展趋势unclassified
See 1 more Smart Citation
“…相较于工业界偏向稳定性、鲁棒性和灵活性的实用性探索, 学术界关于 SRAM 存算一体技术的 研究更加注重于尝试针对各种不同应用需求提出新的可能的解决思路和方案. 在 2023 年 ISSCC 会议 上, 北京大学介绍了在 22 nm 工艺节点上设计的差值求和的模拟域存算一体芯片 [21] , 目的是解决边缘 端 AI 场景中存在大量不变的冗余数据信息所导致的计算功耗浪费问题; 东南大学则针对高精度、片 上训练等需求, 以及边缘端深度可分离卷积神经网络的加速效率问题, 在 28 nm 工艺节点上分别设计 了数字域浮点存算一体芯片 [22] 和基于水平权重移位与垂直输入移位的模拟域存算一体芯片 [23] ; 此 外, 北京清华大学和台湾清华大学等高校也在该领域深耕多年, 在国际会议上持续发表了一系列研究 成果. 综上所述, 相较于其他新型非易失性存储器, 基于 SRAM 的存算一体技术路线尽管起步较晚, 但 凭借其工艺兼容性、设计灵活性、电路可靠性等优势, 近 5 年发展十分迅猛, 在学术界不断尝试和探 索的过程中逐渐引起工业界的重点关注, 在 AI 算法愈发向更大模型演进使得硬件算力和功耗愈发受 到重视的今天, 基于 SRAM 的存算一体技术展现出了强劲的性能优势和应用潜力, 使得多个国际芯片 巨头开始在该领域进行研发和产业布局.…”
Section: Sram 存算一体芯片研究现状与发展趋势unclassified
“…SRAM 存算一体技术由于具备工艺成熟度高和强鲁棒性的优势, 已经成为当前主流存算一体解 决方案之一. SRAM 存算一体从早期的模拟域计算 [24] , 逐渐发展到现在的能够支持无精度损失的数 字域计算, 支持更复杂的算法模型和与算法一致的量化方案, 提供更高的鲁棒性和更低的设计复杂度; 从早期较为落后的工艺节点, 发展到现在能够采用先进的 5 nm 及以下 [15,16] 的设计方案, 使得算力 密度和能效享受到极大的工艺微缩带来的性能红利; 从早期只能支持低精度数据格式, 逐步发展为支 持 INT8/INT16 以及 BF16 等更高精度的数据格式 [22] ; 从早期的只能支持神经网络推断功能, 发展至 同时支持网络训练和推断的训推一体化 [25] ; 从单存算一体宏阵列 IP 设计发展至多阵列集成的 SoC (system on chip) 实现 [20] ; 以及从支持简单全连接、卷积等单一算子, 逐渐演变为支持多种、多类型的 张量计算算子 [26] , SRAM 存算一体技术正向着更高精度、更高性能、更低功耗、更高的系统复杂度 发展.…”
Section: Sram 存算一体芯片发展趋势与挑战unclassified
“…Finally, Table 1 presents a comparison of this work with other works [4][5][6][7]. Compared with analog domain MAC, the proposed scheme increases the calculation speeds and substantially reduces the difficulty of quantization, thereby improving the energy efficiency.…”
Section: Fig 2 (A) the Apgu Implements Multiplication And Accumulatio...mentioning
confidence: 99%
“…In the digital domain, multiply-and-accumulate (MAC) operations are realized primarily using embedded multipliers that can occupy large areas and consume large amounts of energy [5]. The advantages of MAC operations in the analog domain include energy savings and easy implementation of multibit multiplication; however, several disadvantages are also evident.…”
Section: Introductionmentioning
confidence: 99%