首页 > 最新资讯 > DevZone | NVIDIA cuBLAS库
DevZone | NVIDIA cuBLAS库

DevZone | NVIDIA cuBLAS库

2022-09-05 13:56

#人工智能 #深度学习


cuBLAS 库可提供基本线性代数子程序(BLAS)的 GPU 加速实现。cuBLAS 利用针对 NVIDIA GPU 高度优化的插入式行业标准 BLAS API,加速 AIHPC 应用。cuBLAS 库包含用于批量运算、跨多个 GPU 的执行以及混合精度和低精度执行的扩展程序。通过使用 cuBLAS,应用将能自动从定期性能提升及新的 GPU 体系架构中受益。cuBLAS 库包含在 NVIDIA HPC SDKCUDA 工具包中。

cuBLAS 多 GPU 扩展

cuBLASMg 提供了先进的多 GPU 矩阵间乘法,您可在多台设备间以 2D 块循环方式分发每个矩阵。cuBLASMg 目前已加入 CUDA 数学库抢先体验计划。

立即申请加入此体验计划:https://developer.nvidia.cn/cudamathlibraryea

cuBLAS 性能

cuBLAS 库针对 NVIDIA GPU 上的性能进行了高度优化,并利用 Tensor Core 对低精度和混合精度矩阵乘法进行加速。

cuBLAS 的主要特性

全面支持 152 个标准 BLAS 例程

支持半精度和整数矩阵乘法

GEMM 和 GEMM 扩展程序针对 Volta 及 Turing Tensor Core 进行了优化

针对各种深度学习模型中使用的规模调整 GEMM 性能

支持用于并发操作的 CUDA 流

点击阅读原文,了解更多 NVIDIA cuBLAS 库相关内容

 

NVIDIA 深度学习培训中心

 
 
 

我们的 NVIDIA 深度学习培训中心还推出了 NVIDIA cuBLAS 相关课程,您可以复制链接查看课程详情。

加速计算基础——CUDA C/C++

您将能够使用最基本的 CUDA 工具和技术,加速和优化仅适用于 CPU 的 C/C++ 应用程序。您将了解 CUDA 开发的迭代风格,这将帮助您快速发布加速应用程序。

详情请见:https://courses.nvidia.com/courses/course-v1:DLI+C-AC-01+V1-ZH/

加速计算基础——CUDA Python

您将了解使用 CUDA 和 Numba 编译器在大规模并行 GPU 上加速运行 Python 应用程序的基本工具和技能。 

详情请见:https://courses.nvidia.com/courses/course-v1:DLI+C-AC-02+V1-ZH/

通过 CUDA C++ 在多个 GPU 之间扩展工作负载

您将学习如何在单个节点上使用多个 GPU,构建强大高效的 CUDA C++ 应用程序。

详情请见:https://courses.nvidia.com/courses/course-v1:DLI+S-AC-02+V1-ZH/

通过并发流加速 CUDA C++ 应用程序

您将在 CUDA C++ 应用程序中,学习利用 CUDA Streams 进行复制/计算重叠。

详情请见:https://courses.nvidia.com/courses/course-v1:DLI+S-AC-01+V1-ZH/

 
 

 

 

相关新闻