王硕:北京大学高能效计算与应用中心(CECA),2015级博士研究生,导师梁云研究员。主要研究方向基于FPGA的异构计算。研究工作发表于 DAC、FPGA、HPCA、TC 等电子设计自动化和计算机体系结构顶级会议。
报告题目:FPGA Accelerated DNN Inference Engines for Embedded Systems based on Structured Model Compression and Quantization
报告摘要:FPGA是一种可重构计算芯片,随着其架构的不断迭代,更多的专用计算单元(DSP)、大容量存储(BRAM)、高带宽资源(HBM)被集成到了FPGA芯片内部,使其拥有了更强的通用计算能力。由于其支持高度定制化的加速器架构和较高的能效比,越来越多的嵌入式设备基于FPGA构建深度学习加速器引擎。但是,嵌入式设备通常有更严格的功耗、存储和算力约束,如何在嵌入式端部署复杂的深度学习应用成为了一个挑战。本文提出了一种软硬件协同优化的方案来解决这一难题,在软件层面通过模型压缩和量化构建轻量化的深度学习模型,在硬件层面提出高度定制的硬件加速器设计,从而实现高能效的FPGA深度学习嵌入式端加速器。
(1) C-LSTM: Enabling Efficient LSTM using Structured Compression Techniques on FPGAs (ACM/SIGDA FPGA’18)
(2) REQ-YOLO: A Resource-Aware, Efficient quantization Framework for Object Detection on FPGAs (ACM/SIGDA FPGA’19)
Spotlight:
基于分块循环矩阵的模型规则化压缩技术;
基于混合精度的模型量化技术;
DNN Inference Engine 自动化生成工具链。
赵永威:中科院计算所2015级硕博,导师徐志伟研究员。主要研究方向为神经网络加速器设计。研究工作发表于体系结构领域顶级会议ISCA。
报告题目:Cambricon-F: Machine Learning Computers with Fractal von Neumann Architecture
报告摘要:随着机器学习加速器的发展,机器学习计算机的性能与能效大幅提高;而机器学习计算机异构化、并行化、层次化的特点,使编程效率成为了制约机器学习计算机发展的首要难题。本工作提出一组分形机器学习计算机Cambricon-F,利用分形思想设计体系结构,在达到较高的效率的同时解决了编程难题。
Spotlight:
编程难题是机器学习计算机面临的主要挑战;
机器学习应用负载可以通过分形操作来表示;
通过设计分形指令集和分形冯诺依曼结构,Cambricon-F可以同时具有易编程和高效率的性质。
本期论坛的两位讲者将为我们分享他们在机器学习硬件上的研究,从硬件层来观察机器学习算法。
1. An Exploration of Parameter Redundancy in Deep Networks with Circulant Projections
推荐理由:这篇文章利用DNN网络中结构化的冗余信息,对神经网络的进行压缩和加速。虽然DNN网络中结构化的冗余信息早就有前人探索过,但是这篇文章中提出的基于循环矩阵的压缩方法,不仅能够大比例的压缩网络规模,还可以利用硬件友好的快速傅里叶变换将计算复杂度进一步降低,启发了后来大量硬件友好型DNN压缩算法的研究。
推荐理由来自:王硕
2. Simba Scaling Deep-Learning Inference with Multi-Chip-Module-Based Architecture
推荐理由:MICRO 2019的Best Paper Nominee。我们所提出的Cambricon-F在同级节点的组织拓扑上采用了总线结构,接下来探索具有其他拓扑的分形机器学习计算机将很有价值,例如2D-Mesh和Systolic Array。Simba具有近似于“2D-Mesh分形”的硬件结构,但关注点仍然集中在延迟和功耗上,对分形机器学习计算机如何取得高效率很有启发,这是我对该工作格外感兴趣的原因。
推荐理由来自:赵永威