存储与算力矛盾激化 安防“AI芯”需要哪种架构创新?

存算一体和存储优先方案的试水,也算是给了业界更多的思路。但不论如何,编者认为方案的性价比仍然是决定其能否被市场接受并成为主流的核心考量因素。因此,谁能最终在性价比上技高一筹,谁就能在日益兴盛的AI安防芯片市场大放异彩。

安防无疑是目前整个AI大板块当中最为火爆的一类应用场景。鉴于其庞大的数据体量以及复杂多样的数据结构,加之越发智能化的分析模式,让如今的芯片技术在既需要对数据做高速计算的同时,也要随时快速的调用庞大的存储资源。

但随着芯片当中运算单元的增加,每个运算单元能够使用的存储器的带宽和大小却在逐渐减小,譬如安防领域如今很多的AI推理运算中,90%以上的运算资源几乎都消耗在数据搬运过程上,芯片内部到外部的带宽以及片上缓存空间限制了运算的效率。这也成为横亘在AI安防芯片技术与市场之间的最大障碍,如何通过架构的创新去突破现有桎梏,是当下一众AI安防芯片玩家们打出市场差异化的关键。

存储和算力矛盾日益“激化”架构创新成AI安防“芯”唯一出路

众所周知,如今的各种AI功能实现的背后,其核心的算法无疑都仰赖着一个个庞大而复杂的网络。通常,在算法运行的过程中,会有大量参数需要被存储,与此同时芯片也更要快速完成海量数据的计算,从而产生出更多新的数据,这在当下的安防应用场景可谓十分常见。对此,不少芯片厂商的设计思路基本都是通过增加并行的运算单元,例如上千个卷积单元,但这却会使得系统在有限的存储资源条件下需要调用更大的存储空间,让存储与算力之间的矛盾越发突出。

随着算法的发展和数据的变大,系统对存储带宽的要求也会越来越高,业内资深人士谢源表示:“无论是TPU、BPU,还是XPU,PU做得再快,数据还是在存储那里,所以我们需要把数据从内存搬到PU当中。但这个数据搬移过程需要的能量在整个计算中占非常大的比重,而且数据搬运的效率不会因为摩尔定律的发展而提高。”

业内资深人士谢源

“要突破芯片的瓶颈,并不能只是简单的往上累积算力,而是一定要把数据存储管理做好。”北京探境科技有限公司创始人兼CEO鲁勇这样认为。因为对于传统芯片来说,如今应用于以安防为代表的各类场景的AI芯片所带来的挑战,并不只是计算架构上的,更多是在存储架构间的。

毕竟,传统的芯片采用的是冯·诺依曼架构,其核心架构中的计算模块和存储单元是分离的,其中的CPU和内存并不集成在一起,只在CPU中设置了容量极小的高速缓存。这也意味着CPU在执行命令时必须先从存储单元中读取数据,谢源举例到,比如每一项任务如果有十个步骤,那么CPU会依次进行十次读取、执行、再读取、再执行,这就会造成延时,以及大量功耗花费在数据读取上。

北京知存科技有限公司CEO王绍迪

更具体来看,北京知存科技有限公司CEO王绍迪表示:“当前,由于商用的神经网络非常庞大,一般都拥有数百万至数千万的权重参数,或者推理过程中需要完成几百万到上千万个乘加法运算。传统的计算系统需要将网络权重参数存在片外的非易失性存储器中,例如NAND Flash或NOR Flash。而运算过程中,又需要把部分需要的权重参数搬运到DRAM,再把小部分参数传入到芯片中的SRAM和eDRAM中,之后导入寄存器和运算单元完成运算。神经网络运算需要大面积SRAM和eDRAM来减少片内外数据搬运和提高运算效率,但是由于片上存储成本的限制,也需要高成本、高速度的DRAM来缓存片上无法容纳的权重参数和临时数据。”

这在现今的AI实际应用中,问题就会非常突出。事实上,如今大量AI芯片公司虽然都在采用不同的路径打造芯片,但归根究底都是在努力思考如何解决这一问题,且大部分针对AI加速神经网络处理而提出的硬件架构创新,实际上也都是在与这个问题做斗争。因此,如何在这个问题上走出不同的路径,并获得最受市场认可的成果,也是当前各AI安防芯片玩家致胜安防市场的差异化之道。

存储优先OR存算一体:主流市场终将作何选择?

针对这一瓶颈,目前业界也走出了多条不同的路径。其中,较为常见的方法就是通过加大存储带宽的方式,即采用高带宽的外部存储,从核心算法入手来设计低比特权重的神经网络模型。除此之外,谢源指出:“未来的计算机体系结构可能要改变传统的把计算和存储分开的冯·诺依曼架构,其中的一个架构创新的方向是计算和存储一体化(process-in-memory),在存储里面加上计算的功能,让存储器件也能做神经网络的计算。”

这种存算一体化的模式,有几条不同的演变路径。据编者了解,其中一种方式是在DRAM和SSD中植入计算芯片或者逻辑计算单元,这被叫做内存内处理或近数据计算,此种方式非常适合云端的大数据和神经网络训练等应用;而另外一种,就是将存储和计算模块完全集成在一起,采用存储器件单元直接来完成计算工作,这比较适合于神经网络的推理型应用。

知存科技就是采用第二种路径,即将存储和计算结合到闪存单元中的存算一体的方式,来优化存储与算力之间的矛盾,王绍迪解释到:“知存科技的存算一体化原理是,Flash存储单元本身就可以存储神经网络的权重参数,同时又可以完成和此权重相关的乘加法运算,就是将乘加法运算和存储全部融合到一个Flash单元里。例如,只需要100万个Flash单元,就可以存储100万个权重参数,同时并行完成100万次乘加法运算。采用这种方式,深度学习网络可以被映射到多个Flash阵列,这些Flash阵列不仅存储,还和深度学习网络同时完成网络的推理,这个过程不需要逻辑计算电路。这种方式的运算效率非常高,单个Flash单元能够完成7、8 bit的乘加法运算。”

不过,对于存算一体化的处理模式,也并不是所有人都看好。鲁勇认为:“存算一体的处理方式,其实违反了芯片中的成本结构。芯片中之所以设计和区分片上的缓存SRAM以及片外的DRAM,就是因为如果所有存储都放入芯片内部,成本就会大幅上升,且会上升几十倍到上百倍。”

这也是存算一体化的模式没有得到业内的普遍认可的原因,当然不仅仅只是成本问题。更具体来讲,也是因为现阶段存算一体芯片还没有进行大规模量产的缘故,少了点说服力。因此,探境科技打造了自己独创的SFA存储优先架构方案,鲁勇表示:“不同于常见的解决内存瓶颈的方法,SFA即存储优先架构是‘以存储调度为核心’的计算架构,数据在存储之间的搬移过程中就完成了计算,这对于数据来说只是一种演变。与通常计算的先有计算指令后提供数据相反,SFA架构中,存储是优先的出发点。考虑数据在搬移过程中做计算,也就是由数据带动计算而非算子带动数据。具体到安防领域,该领域的数据处理在于两个维度,第一是每秒处理的帧率要越来越高,其二是图像分辨率上要高。基于SFA架构的芯片,能够更好地优化存储和计算,从而高效地解决该问题。”

但可以看到的是,对于存算一体的方案,目前业内包括大部分的半导体公司以及AI公司都已经开始慢慢认可这种技术方向,包括美国的英特尔、ARM、软银、微软、亚马逊、博世、摩托罗拉等都参与到存算一体技术方向的投资。

王绍迪表示:“存算一体技术确实是非常复杂的,这也是为什么大部分半导体公司AI公司都选择投资创业公司去完成这件事情,而不是自己从头去开发,包括我们公司在存算一体技术上的积累已经也是超过六年才完成,流片已经超过十次,技术本身非常复杂,目前来看良率其实并不是一个问题,因为它本身是一个成熟的工艺,在工艺方面并没有做调整,所以良率都是可以保证的。但在芯片不断的流片设计当中会发现很多新的问题需要去解决,包括一些新的技术优化方式去提高运算效率,在发现这些新的点之后,我们会去改变,优化设计,尝试提出新的架构,然后去不断地优化芯片,去把芯片从工作到量产当中这样去不断的推进。”

编者预计,在诸如安防监控这类需要对超大规模数据进行集中快速处理的场景,未来存储与算力之间的矛盾将长期存在,这还需要各路AI芯片厂商在架构层面上做出更多的创新和探索。存算一体和存储优先方案的试水,也算是给了业界更多的思路。但不论如何,编者认为方案的性价比仍然是决定其能否被市场接受并成为主流的核心考量因素。因此,谁能最终在性价比上技高一筹,谁就能在日益兴盛的AI安防芯片市场大放异彩。

本文来自信息化观察者网,转载请注明出处。

 

扫码加入本站知识星球小密圈,获取1万+行业最新精选报告。

注:本站文章除标明原创外,均来自网友投稿及分享,如有侵权请联系dongxizhiku@163.com删除。

         

发表评论