Megatron-LM:借助GPU 并行性训练有数十亿参数的语言模型

Megatron-LM:借助GPU 并行性训练有数十亿参数的语言模型

时间:2020年08月17日 到 2020年08月17日
地点:NVIDIA在线研讨会
人数:1000
活动内容
在这次网络研讨会中我们将介绍一种高效的模型并行方式,该方式仅对现有 PyTorch Transformer 实施进行少量针对性修改。

近期,训练超大型神经语言模型已成为推动最新 NLP 应用发展的最佳方式。但是,对于参数超过 10 亿的模型,单个 GPU 的显存无法满足模型和训练参数的需求,因此需要通过模型并行将参数分割至多个 GPU。我们将展示使用 512 个 GPU,采用 8 路模型并行和 64 路数据并行,训练一个具有 83 亿参数的 Transformer 语言模型,这也使其成为有史以来规模最大的 Transformer 语言模型。该模型推动了下游任务的最新技术成果。




点击以下链接观看中文字幕版视频并下载讲义。

URL: https://developer.nvidia.com/gtc/2020/video/s21496/cn
订阅英伟达 NVIDIA 技术月刊
输入电子邮件,订阅 NVIDIA 加速计算或深度学习电子月刊
订阅