GPU助力Square充分发挥会话式AI的优势

2020-04-23 18:43

Gabor Angeli是Square公司的工程经理及团队成员，他曾发表过一篇论文，内容是关于如何将AI助手打造成一个能够和对话者产生共鸣的听众。文章中描述了一种AI模型，这种模型通过印证式倾听（reflective listening）技术来使机器达到类人的表现。所谓印证式倾听（reflective listening），指的是听众能够重述对方的请求，从而使对方知道自己的需求被其听到了。

如今，他的团队正在努力将Square Assistant 从一个虚拟调度器扩展成为一个能够驱动公司所有产品的会话式AI引擎。

Angeli说：“在买家和卖家之间有一个巨大的对话空间，我们可以而且应该帮助人们，为他们在这一空间领域提供指引。” Angeli将在GTC Digital（现在可以免费注册）演讲中介绍此项工作。

Square以其时尚的支付终端而闻名，它为小企业提供多种服务，从处理工资单到建立忠诚计划等。

灵感起源

十多年前，一位加州大学伯克利分校（UC Berkeley）教授的AI课程点燃了Angeli对自然语言处理领域的兴趣。他在大学的AI实验室开始了对这一新兴领域的研究，并最终与伙伴共同创立了Eloquent公司，这是一家NLP初创公司，于去年5月被Square收购。

六个月后，Square Assistant作为一个虚拟调度器诞生了。

Angeli说：“我们想做出能够快速呈现在顾客面前的，更好的产品。我们正在为Square Assistant 添加更多高级功能，我们的目标是使其能够驱动我们所提供的全部功能。”

从目前情况看来，这种期待是有望实现的。Square Assistant可以理解75%的客户问题并为其提供帮助，而且它可以将没有预约的问题减少10%。

但是为了让NLP真正成为大家街头巷尾所讨论的热门话题，这个团队还面临着棘手的语言和技术挑战。例如，如何理解“下个星期六”，其指的是这周的星期六，还是下周的星期六？

更重要的是，这其中有一个常见的关于客户查询的长尾问题。随着Square Assistant的工作描述从几十个任务扩展到几千个任务，其神经网络模型也将随之扩大，这意味着它需要更多的训练。

“看到BERT能够做到一些我们认为不可能的事情，比如显示阅读理解的AI，真是令人兴奋，我惊讶于这竟然是可能实现的。但这些规模巨大模型对模型训练和部署的时长提出了挑战。”

GPU加速推理、训练

在Eloquent 时期，Angeli的团队使用配置了单卡NVIDIA GPU的台式机运行CUDA。在加入Square后，团队转而使用带有双卡GPU的台式机，并使用运行于AWS云服务之上的GPU进行超大型参数训练。

在测试中，Square发现，对于一般大小的模型来说，在GPU上运行推理作业，其运行速度是CPU的2倍。而对于如RoBERTa这样的大型模型来说，在AWS GPU服务上运行推理的速度比CPU快10倍。

他在报告中表示，训练工作的性能差别“更为明显”。“没有GPU，很难训练现代机器学习模型。如果我们必须在CPU上进行深度学习，那么我们将落后其他人10年，”他补充说。

他说，更快的训练也能够鼓励AI开发者们更频繁地迭代设计，从而得到更好的模型。

他的团队混合使用了小型、中型和大型NLP模型，运用预训练技巧，证明了它们在计算机视觉应用程序中的价值。他相信，从长远角度来看，工程师们将会发现通用模型能够很好地处理各类任务。

同时需要强调的是，开发会话式AI是一场需要相互配合的“两人三足赛跑”，即需要有像Angeli团队这样的开发者团队设计出高效的模型，还需要有GPU架构师们设计更强大的芯片。

正如Angeli所说的：“要完成这项工作，一半的努力在于算法设计，而另一半的努力则在于需要NVIDIA制造更适合机器学习的硬件，运行更大规模的模型。”

分享到微信分享到微博

精彩推荐

GTC22 秋季10大精彩内容