从原理到代码:GPU 加速的 Apache Spark 3.0

从原理到代码:GPU 加速的 Apache Spark 3.0

时间:2020年08月04日 到 2020年08月04日
地点:NVIDIA在线研讨会
人数:1000
活动内容
Apache Spark 已成为非常受欢迎的框架。借助 Spark,企业可以在短时间内利用服务器集群处理大量数据,整理和转换数据,或者分析数据并生成业务洞见。Spark 提供一系列简单易用的 API,用于 ETL、机器学习 (ML),以及对来自各种数据源的大型数据集进行图形处理。

随着 Apache Spark 3.0 的发布,GPU 加速成为此版本中的一大亮点。GPU 加速对于开发者而言是透明的,无需更改代码即可获得并行加速的优势。在 Spark 3.0 中,NVIDIA 带来了全新的以下特性:

--- 数据科学家和工程师可以基于 NVIDIA GPU 加速 Apache Spark ETL 工作负载,以加快查询并减少工作流程的端到端总时间。
--- Spark 3.0 中使用了 NVIDIA 的 RAPIDS。RAPIDS 是基于 CUDA 的开源库,支持完全在 GPU 上执行端到端数据科学和分析作业。
--- Spark 3.0 在 Catalyst 查询优化器中提供了列处理支持,这也正是 NVIDIA RAPIDS 加速器为了加速 SQL 和 DataFrame 运算所采用的功能。
--- NVIDIA 优化了 Spark 3.0 内的作业调度器,支持在特定 GPU 资源上启动 Spark 应用。

Apache Spark 3.0 可以协调各种端到端作业,包括数据收集、模型训练以及可视化。相同的 GPU 加速架构可用于 Spark 和 ML(机器学习)/DL(深度学习)框架,免除使用不同集群的需求,使整个流程得到 GPU 加速。GPU 加速对于开发者而言是透明的,无需更改代码即可获得这些优势。



在本次网络研讨会中,您将学习:
--- Apache Spark 3.0 及 GPU 加速概览
--- GPU 加速的 ETL
--- Spark 中 GPU 加速的 Dataframes 及 SQL
--- 加速特性如 Spark Shuffle、作业调度等

主讲人

徐彦哲
NVIDIA 软件工程师


专注于基于 Spark 平台的大数据软件生态体系。帮助合作伙伴及客户利用 GPU 赋能大数据处理,提升数据计算效率。在大数据领域 有丰富的经验。


沈国一
NVIDIA 软件经理


带领上海 Spark 团队,专注于在大数据处理平台 Spark 上实现 GPU 加速的开发和支持,通过基于 GPU 加速后的 Spark ETL, XGBoost on Spark 等来解决 ML 或 DL 中对于大数据处理的各种需求,帮助合作伙伴及客户拓展人工智能应用场景以及性能上的提升。
订阅英伟达 NVIDIA 技术月刊
输入电子邮件,订阅 NVIDIA 加速计算或深度学习电子月刊
订阅