Megatron-LM：借助GPU 并行性训练有数十亿参数的语言模型 - 精彩活动 - 英伟达AI计算专区

活动内容

在这次网络研讨会中我们将介绍一种高效的模型并行方式，该方式仅对现有 PyTorch Transformer 实施进行少量针对性修改。

近期，训练超大型神经语言模型已成为推动最新 NLP 应用发展的最佳方式。但是，对于参数超过 10 亿的模型，单个 GPU 的显存无法满足模型和训练参数的需求，因此需要通过模型并行将参数分割至多个 GPU。我们将展示使用 512 个 GPU，采用 8 路模型并行和 64 路数据并行，训练一个具有 83 亿参数的 Transformer 语言模型，这也使其成为有史以来规模最大的 Transformer 语言模型。该模型推动了下游任务的最新技术成果。

点击以下链接观看中文字幕版视频并下载讲义。

URL: https://developer.nvidia.com/gtc/2020/video/s21496/cn

我要报名

更多活动

致敬科学家：GPU 助力突破重大科研挑战

2021-01-20 15:03

订阅英伟达 NVIDIA 技术月刊