清华大学:人工智能芯片技术白皮书(2018)(附下载)

AI 芯片发展现状

从2015 年开始,AI 芯片的相关研发逐渐成为学术界和工业界研发的热点。到目前为止,在云端和终端已经有很多专门为 AI 应用设计的芯片和硬件系统。同时,针对目标应用是“ 训练”还是“推断”,我们可以把AI 芯片的目标领域分成4 个象限,如图表3-1 所示。其中,在边缘/ 嵌入设备中以推断应用为主,训练的需求还不是很明确。有些高性能的边缘设备虽然也会进行训练,但从硬件本身来说,它们更类似于云端设备。未来的边缘和嵌入设备可能都需要具备一定的学习能力,以支持在线学习功能。其他几个象限都有自身实现的需求和约束,目前也都有针对性的芯片和硬件系统。

云端AI 计算

在云端,通用GPU,特别是NVIDIA 系列GPU 芯片,被广泛应用于深度神经网络训练和推理。与CPU 相比,拥有数千个计算内核的GPU 可以实现10-100 倍的吞吐量。其最新的Tesla V100 除了GPU 核之外,还专门针对深度学习设计了张量核(Tensor Cores),能够提供120 TFLOPS(每秒120万亿次浮点指令)的处理能力。同时,NVIDIA GPU 还有比较完善的软件开发环境,同时,NVIDIA GPU还有比较完善的软件开发环境,是目前AI 训练领域使用最广泛的平台。面向云端AI 应用,很多公司开始尝试设计专用芯片以达到更高的效率,其中最著名的例子是GoogleTPU,可以支持搜索查询、翻译等应用,也是AlphaGo 的幕后英雄。由于使用了专用架构,TPU 实现了比同时期CPU 和GPU 更高的效率(如图表3-2 所示)。第一代的TPU 仅能用于推断,面对目前被NVIDIA GPU 赚得盆满钵满的深度学习训练市场,Google 随后又发布了第二版TPU(TPU2),除了推断以外,还能高效支持训练环节的加速。Google 最近还通过云服务把TPU 开放商用,处理能力达到180TFLOP,提供64GB 的高带宽内存(HBM),2400GB/s 的存储带宽。

边缘AI 计算

随着人工智能应用生态的爆发,越来越多的AI 应用开始在端设备上开发和部署。对于某些应用,由于各种原因(如延迟,带宽和隐私问题),必须在边缘节点上执行推断。比如,自动驾驶汽车的推断就不能交由云端完成,否则如果出现网络延时,则会发生灾难性后果。再比如,大型城市动辄百万的高清摄像头,其人脸识别如果全交由云端完成,高清录像的数据传输会让通信网络不堪重负。边缘设备实际上覆盖了一个很大的范围,其应用场景也五花八门。比如自动驾驶汽车可能就需要一个很强的计算设备,而在可穿戴领域,则要在严格的功耗和成本约束下实现一定的智能 。在未来相当一部分人工智能应用场景中,边缘设备主要执行推断计算,这就要求边缘处的终端设备本身具备足够的推断计算能力。而目前边缘处理器芯片的计算能力并不能满足在本地实现深度神经网络推断的需求。因此,业界需要专门设计的AI 芯片,赋予设备足够的能力去应对越来越多的人工智能应用场景。除了计算性能的要求之外,功耗和成本也是在边缘节点工作的AI 芯片必须面对的重要约束。

 

 

PDF报告全文下载:

下载隐藏内容:
升级VIP

 

 

注:本站文章除标明原创外,均来自网友投稿及分享,如有侵权请联系dongxizhiku@163.com删除。

         

发表评论