量化在nlp问题上应用怎样?
NVIDIA数据科学家徐添豪:
对于NLP问题,我举一个现在非常火的例子,就是关于BERT的量化。对于这个模型,在现实应用中会有很多的修改,比如说我的层数会比较少,或者检查头数上,以及对应的参数都会有一定的修改。这种情况下,它的量化大同小异,相同的点是在于你在量化的时需要针对性的去选择哪些层可以量化,差异在于不同的模型结构下,可以优化的层又不太一样,这一块的量化,很多头部公司基本上已经都做了,他们的网络在T4上的INT8计算推理情况下,已经得到了很大的提升。