谢佳明:北京大学高能效计算与应用中心在读硕士,主要研究方向为神经网络的GPU加速和分布式异构系统。
报告题目:面向神经网络的GPU集群调度
报告摘要:神经网络近年的迅猛发展,得益于具有超高并行性、超强计算力的计算设备GPU的迅猛发展。几乎所有的神经网络都由使用GPU训练得到。因此,许多AI企业和大型神经网络(如BERT)都使用大规模GPU集群对网络进行训练与部署。如何在大规模GPU集群中对神经网络负载进行安排与调度,是提高集群利用率、减少神经网络训练用时的重点。然而,与CPU相比,GPU设备本身不具有良好的虚拟化能力;与其他的工作负载相比,神经网络这种负载具有许多独特的特点——这些都为GPU集群调度带来新的机会与挑战。
Spotlight:
GPU集群调度中的难点与挑战;
神经网络在GPU集群中进行调度的常见策略。
1. Gandiva Introspective Cluster Scheduling for Deep Learning
推荐理由:本文将CPU调度中的许多策略引入到神经网络负载的GPU调度中,并对性能进行了分析。其解决方法具有一般性。
2. Nexus:A GPU Cluster Engine for Accelerating DNN-Based Video Analysis
推荐理由:本文对一种特殊的神经网络负载:视频流分析,进行了深入的研究和优化。其解决方法具有特殊性。