是否可以介绍下TAO里关于内存访问密集型layer的优化?
阿里巴巴高级算法工程师王梦娣:
这里的优化原则就是对于访问密集型计算可以进行一定fusion,用于减少访存量。当然也没有那么简单,比如把相应的kernel结合在一起,如果底层没有Kernel支持,我们会有CUDA代理的支持类,自动产生相当于跟fuse的多样的pattern可以匹配的一个Kernel。