拓展新“视界”,NVIDIA GPU 赋力 Pinterest 加速训练视觉搜索
2020-12-30 15:32
Pinterest 正在为用户提供最好的视觉搜索体验,超过 4.4 亿的月活跃用户在高频率的使用其广受欢迎的图片分享和社交媒体服务。
视觉搜索让使用 Pinterest 的用户能够通过文本、截屏或相机中的图片来搜索图片。而在 Pinterest 基于用户兴趣和计划分类的不同主题钉板(Board of Pins,图片墙)背后是以 AI 为核心的技术支持。在 Pinterest 上搜索到的图片为用户提供购物灵感,促使他们采取行动,例如购买图片中的产品。
不过,要想管理超过 2400 亿张图片和 50 亿个钉板绝非易事。
这需要视觉聚合(Visual Embeddings)的支持——对场景中物体的数学表达。视觉聚合使用模型自动生成和评估视觉效果,以显示两幅图片的相似程度——例如,电视节目上展示的客厅沙发和零售商出售的沙发。
Pinterest 正在通过在更小的数据集上预训练视觉聚合模型来改进其搜索结果,其最终目标是借此来提高平台整体的视觉聚合能力,使其在关键业务方面发挥更好的作用。
为实现此目标,Pinterest 的视觉聚合由多个 NVIDIA V100 Tensor Core GPU 提供支持,通过在约 13 亿张图片的子集上对 Pinterest 的神经网络进行预训练,从而提高数千亿张图片之间的关联性。
该公司负责视觉搜索的机器学习研究员 Josh Beal 表示,利用上述模式改进统一视觉聚合让 Pinterest 上的所有应用都能受益。
“在多任务数据集上对 Pinterest 的视觉聚合模型进行适当调整是为了大规模拓展该模型。” Josh Beal 说道。
优化 Shop the Look 服务
面对现有的庞大图片资源以及不断增加的图片, Pinterest 在持续训练其神经网络,以便更好的识别同类和其它图片。
Pinterest 上深受欢迎的视觉搜索功能 Shop the Look,为消费者提供家居和时尚物品的购买灵感和途径。借助视觉聚合技术,Shop the Look 可以识别 Pin(指 Pinterest 上的图片)中的物品,并为他们提供相关产品的线上购买链接。
产品匹配度是上述基于视觉的商业模式的关键。因此,对于 Pinterest 这种拥有大量图片的平台来说,虽然实现起来并不容易,也必须解决。
为此,Pinterest 开发的另一个视觉功能是搜索图片内的特定产品。利用视觉聚合提高搜索结果的精确性和推荐让产品匹配度得以提升,进而大幅增强用户的产品搜索体验。
Pinterest 的附加功能,镜头相机搜索(Lens camera search)功能则允许用户使用他们自己相机拍摄的图片在 Pinterest 上搜索相关的图钉(Pins 即图片)。
Beal 说,“统一的视觉聚合有助于这些下游应用的视觉搜索。”
拓展视觉搜索“视界”
Pinterest 的多个团队一直在努力改进其数千亿张图片的视觉搜索。但考虑到这项工作的巨大规模、需要耗费的成本和有限的工程资源,Pinterest 希望通过改善其平台架构来实现优化。
而仅需要根据建议优化 ResNeXt-101 架构,并将系统升级到包括 cuDNN v8,自动混合精度和 NCCL 等最新的 NVIDIA 库,Pinterest 就能将其模型的训练性能提高 60%以上。
NVIDIA的GPU加速库正在不断更新,以使 Pinterest 等公司能够从现有的硬件投资中获得更好的性能。
Beal 表示,“NVIDIA GPU 加速库正在改善我们的视觉聚合质量,并借此帮助用户获得更好的视觉搜索结果。”