
近日,北京大学人工智能研究院孙忠研究员团队与集成电路学院课题组成功研制出基于电阻式存储传输的高精度、可扩展的模拟矩阵计算芯片,首次实现了精度可与数字计算相媲美的模拟计算系统。
在解决大规模MIMO信号检测等基础科学问题时,该芯片的计算能力和能效比当前领先的数字处理器(GPU)高出数十万倍。相关论文于10月13日发表在《自然电子》杂志上。
对于大多数习惯数字计算机(0和1)的公众来说,“模拟计算”是一个古老而又新颖的概念。什么是模拟计算?
提交人孙忠用一个形象的比喻阐释了这一点:“现在所有的芯片都是数字计算,数据需要转换成符号串首先是 0 和 1。例如,数字‘十’需要翻译成‘1’和‘0’,算作‘1010’。”如果用二进制表示“1+1=2”,则应记录为“1+1=10”。
孙忠说,“模拟计算不需要这种程度的‘翻译’。它是一种‘模拟计算’,可以直接用连续的物理量(如电压、电流)来对应数学数字。比如数学中的‘十’可以直接用十伏或十毫伏的电压来表示。”
模拟计算机在计算机发展的早期(从 20 世纪 30 年代到 1960 年代)被广泛使用。然而,随着计算任务变得更加复杂,其精度瓶颈逐渐显现,并逐渐被数字计算所取代。孙忠指出,这项研究的核心是解决模拟计算中“计算不准确”的痛点。
合影
目前市场上主要的CPU和GPU有两款数字芯片,均采用冯诺依曼结构,将计算和存储功能分离,通过01数字流的编译+计算+解码实现信息计算和传输。
基于电阻式存储器传输的模拟计算的优点之一是省去了“将数据转换为二进制数字流”的过程,不需要执行“数据存储过程”,从而将数据计算和数据存储的过程融为一体,实现了计算能力的解放。
孙忠指出,相比其他“存储计算一体化”的解决方案,国内外很多团队都专注于矩阵乘法(AI的核心推理)的研究,而他的团队的特点是专注于更具挑战性的矩阵方程求解(二阶AI训练的核心)。矩阵求逆运算需要极高的计算精度,时间复杂度达到立方级。仿真计算依赖于物理定律的直接计算,具有低功耗、低延迟、高能效、高并行性的先天优势。只要能够不断降低计算误差、不断提高计算精度,就将为传统GPU计算能力的释放带来突破。
高精度矩阵计算,求解矩阵方程
在计算精度方面,团队成功实现了24位精确点精度的16×16矩阵的实验旋转。求解矩阵方程10次迭代后,相对误差可小于10⁻⁷。计算性能方面,在解决32×32矩阵求逆问题时,其计算能力超过高端GPU的单核性能;当图像尺寸扩大到128×128时,计算吞吐量达到领先水平的1000倍以上荷兰国际集团数字处理器。这款芯片可以在一分钟内完成传统GPU一天的工作。
孙忠
关于应用前景,孙忠认为,模拟计算在未来人工智能领域的定位是一个强有力的补充。最有可能快速实施的场景是在计算智能领域,例如训练机器人和人工智能模型。
谈及与现有计算架构的关系,孙忠强调,未来将是互补统一:“CPU作为通用的‘统帅’,因其成熟度和经济性而难以拆除,是对现有算力体系的有力补充。”
来源:北京大学、科技日报(记者:张嘉伦)