目前合成用的是端到端的神经网络模型么?是自己设计的还是用已有方案呢?
字节跳动智能语音方向工程负责人司徒文畅:
是端到端的,有自研优化的部分,另外声码器是纯自研的