目前合成用的是端到端的神经网络模型么？是自己设计的还是用已有方案呢？

目前合成用的是端到端的神经网络模型么？是自己设计的还是用已有方案呢？

字节跳动智能语音方向工程负责人司徒文畅：

是端到端的，有自研优化的部分，另外声码器是纯自研的

问题来源

大规模音频理解与合成解决方案及应用 | NVIDIA&字节跳动联合专场