如果利用工具定位瓶颈算子改进和回归测试
NVIDIA资深并行计算技术经理池哲贵:
可以用Nsight去看,用Nsight去profile你的应用,找到里面耗时比较长的CUDA应用,看这个GPU应用是memeryband还是computer band,然后根据这两部分去改进,如果是computer band,你就改进他的计算部分,看下是否可以减少他的计算量,如果是memeryband就通过CUDAmemery改善他的内存吞吐。