NVIDIA AI 计算专区
首页
|
最新资讯
|
精彩活动
|
NVIDIA AI 大讲堂
|
白皮书下载
产品推荐
知识问答
登录
注册
是否可以介绍下TAO里关于内存访问密集型layer的优化?
阿里巴巴高级算法工程师王梦娣:
这里的优化原则就是对于访问密集型计算可以进行一定fusion,用于减少访存量。当然也没有那么简单,比如把相应的kernel结合在一起,如果底层没有Kernel支持,我们会有CUDA代理的支持类,自动产生相当于跟fuse的多样的pattern可以匹配的一个Kernel。
登录查看完整答案
问题来源
PAI自动混合精度训练的实现与应用 | NVIDIA专场第21讲
分享至: