FP32 to FP16 cast是在Tensor Core里做还是CUDA Core里做的？

FP32 to FP16 cast是在Tensor Core里做还是CUDA Core里做的？

NVIDIA系统架构师齐家兴：

因为从FP32到FP16的转换不涉及太多的计算，所以转换是在CUDA Core里进行的。

问题来源

PAI自动混合精度训练的实现与应用 | NVIDIA专场第21讲