如果一段音频有好几个人讲话，能识别出哪些话是第一个人说的，哪些话是第二个人说的吗？

字节跳动智能语音方向工程负责人司徒文畅：

答案是可以，这里介绍两个方案，第一个是无监督的方案，就是可以把整段音频切分出很多小段，然后对所有的小段进行说话人的聚类，然后通过聚类的结果来判断有哪几个人，哪个小段子属于哪个人。另外一种是有监督的方案，比如你在参加一个会议之前，每个人先进行声纹的注册，等你注册完以后，就能根据你的身份的信息来判断到哪一段是你说的话。

问题来源

大规模音频理解与合成解决方案及应用 | NVIDIA&字节跳动联合专场