GPU助力Square充分发挥会话式AI的优势
2020-04-23 18:43
Gabor Angeli是Square公司的工程经理及团队成员,他曾发表过一篇论文,内容是关于如何将AI助手打造成一个能够和对话者产生共鸣的听众。文章中描述了一种AI模型,这种模型通过印证式倾听(reflective listening)技术来使机器达到类人的表现。所谓印证式倾听(reflective listening),指的是听众能够重述对方的请求,从而使对方知道自己的需求被其听到了。
如今,他的团队正在努力将Square Assistant 从一个虚拟调度器扩展成为一个能够驱动公司所有产品的会话式AI引擎。
Angeli说:“在买家和卖家之间有一个巨大的对话空间,我们可以而且应该帮助人们,为他们在这一空间领域提供指引。” Angeli将在GTC Digital(现在可以免费注册)演讲中介绍此项工作。
Square以其时尚的支付终端而闻名,它为小企业提供多种服务,从处理工资单到建立忠诚计划等。
灵感起源
十多年前,一位加州大学伯克利分校(UC Berkeley)教授的AI课程点燃了Angeli对自然语言处理领域的兴趣。他在大学的AI实验室开始了对这一新兴领域的研究,并最终与伙伴共同创立了Eloquent公司,这是一家NLP初创公司,于去年5月被Square收购。
六个月后,Square Assistant作为一个虚拟调度器诞生了。
Angeli说:“我们想做出能够快速呈现在顾客面前的,更好的产品。我们正在为Square Assistant 添加更多高级功能,我们的目标是使其能够驱动我们所提供的全部功能。”
从目前情况看来,这种期待是有望实现的。Square Assistant可以理解75%的客户问题并为其提供帮助,而且它可以将没有预约的问题减少10%。
但是为了让NLP真正成为大家街头巷尾所讨论的热门话题,这个团队还面临着棘手的语言和技术挑战。例如,如何理解“下个星期六”,其指的是这周的星期六,还是下周的星期六?
更重要的是,这其中有一个常见的关于客户查询的长尾问题。随着Square Assistant的工作描述从几十个任务扩展到几千个任务,其神经网络模型也将随之扩大,这意味着它需要更多的训练。
“看到BERT能够做到一些我们认为不可能的事情,比如显示阅读理解的AI,真是令人兴奋,我惊讶于这竟然是可能实现的。但这些规模巨大模型对模型训练和部署的时长提出了挑战。”
GPU加速推理、训练
在Eloquent 时期,Angeli的团队使用配置了单卡NVIDIA GPU的台式机运行CUDA。在加入Square后,团队转而使用带有双卡GPU的台式机,并使用运行于AWS云服务之上的GPU进行超大型参数训练。
在测试中,Square发现,对于一般大小的模型来说,在GPU上运行推理作业,其运行速度是CPU的2倍。而对于如RoBERTa这样的大型模型来说,在AWS GPU服务上运行推理的速度比CPU快10倍。
他在报告中表示,训练工作的性能差别“更为明显”。“没有GPU,很难训练现代机器学习模型。如果我们必须在CPU上进行深度学习,那么我们将落后其他人10年,”他补充说。
他说,更快的训练也能够鼓励AI开发者们更频繁地迭代设计,从而得到更好的模型。
他的团队混合使用了小型、中型和大型NLP模型,运用预训练技巧,证明了它们在计算机视觉应用程序中的价值。他相信,从长远角度来看,工程师们将会发现通用模型能够很好地处理各类任务。
同时需要强调的是,开发会话式AI是一场需要相互配合的“两人三足赛跑”,即需要有像Angeli团队这样的开发者团队设计出高效的模型,还需要有GPU架构师们设计更强大的芯片。
正如Angeli所说的:“要完成这项工作,一半的努力在于算法设计,而另一半的努力则在于需要NVIDIA制造更适合机器学习的硬件,运行更大规模的模型。”
如今,他的团队正在努力将Square Assistant 从一个虚拟调度器扩展成为一个能够驱动公司所有产品的会话式AI引擎。
Angeli说:“在买家和卖家之间有一个巨大的对话空间,我们可以而且应该帮助人们,为他们在这一空间领域提供指引。” Angeli将在GTC Digital(现在可以免费注册)演讲中介绍此项工作。
Square以其时尚的支付终端而闻名,它为小企业提供多种服务,从处理工资单到建立忠诚计划等。
灵感起源
十多年前,一位加州大学伯克利分校(UC Berkeley)教授的AI课程点燃了Angeli对自然语言处理领域的兴趣。他在大学的AI实验室开始了对这一新兴领域的研究,并最终与伙伴共同创立了Eloquent公司,这是一家NLP初创公司,于去年5月被Square收购。
六个月后,Square Assistant作为一个虚拟调度器诞生了。
Angeli说:“我们想做出能够快速呈现在顾客面前的,更好的产品。我们正在为Square Assistant 添加更多高级功能,我们的目标是使其能够驱动我们所提供的全部功能。”
从目前情况看来,这种期待是有望实现的。Square Assistant可以理解75%的客户问题并为其提供帮助,而且它可以将没有预约的问题减少10%。
但是为了让NLP真正成为大家街头巷尾所讨论的热门话题,这个团队还面临着棘手的语言和技术挑战。例如,如何理解“下个星期六”,其指的是这周的星期六,还是下周的星期六?
更重要的是,这其中有一个常见的关于客户查询的长尾问题。随着Square Assistant的工作描述从几十个任务扩展到几千个任务,其神经网络模型也将随之扩大,这意味着它需要更多的训练。
“看到BERT能够做到一些我们认为不可能的事情,比如显示阅读理解的AI,真是令人兴奋,我惊讶于这竟然是可能实现的。但这些规模巨大模型对模型训练和部署的时长提出了挑战。”
GPU加速推理、训练
在Eloquent 时期,Angeli的团队使用配置了单卡NVIDIA GPU的台式机运行CUDA。在加入Square后,团队转而使用带有双卡GPU的台式机,并使用运行于AWS云服务之上的GPU进行超大型参数训练。
在测试中,Square发现,对于一般大小的模型来说,在GPU上运行推理作业,其运行速度是CPU的2倍。而对于如RoBERTa这样的大型模型来说,在AWS GPU服务上运行推理的速度比CPU快10倍。
他在报告中表示,训练工作的性能差别“更为明显”。“没有GPU,很难训练现代机器学习模型。如果我们必须在CPU上进行深度学习,那么我们将落后其他人10年,”他补充说。
他说,更快的训练也能够鼓励AI开发者们更频繁地迭代设计,从而得到更好的模型。
他的团队混合使用了小型、中型和大型NLP模型,运用预训练技巧,证明了它们在计算机视觉应用程序中的价值。他相信,从长远角度来看,工程师们将会发现通用模型能够很好地处理各类任务。
同时需要强调的是,开发会话式AI是一场需要相互配合的“两人三足赛跑”,即需要有像Angeli团队这样的开发者团队设计出高效的模型,还需要有GPU架构师们设计更强大的芯片。
正如Angeli所说的:“要完成这项工作,一半的努力在于算法设计,而另一半的努力则在于需要NVIDIA制造更适合机器学习的硬件,运行更大规模的模型。”