是否可以介绍下TAO里关于内存访问密集型layer的优化？

阿里巴巴高级算法工程师王梦娣：

这里的优化原则就是对于访问密集型计算可以进行一定fusion，用于减少访存量。当然也没有那么简单，比如把相应的kernel结合在一起，如果底层没有Kernel支持，我们会有CUDA代理的支持类，自动产生相当于跟fuse的多样的pattern可以匹配的一个Kernel。

问题来源