如果一段音频有好几个人讲话,能识别出哪些话是第一个人说的,哪些话是第二个人说的吗?
字节跳动智能语音方向工程负责人司徒文畅:
答案是可以,这里介绍两个方案,第一个是无监督的方案,就是可以把整段音频切分出很多小段,然后对所有的小段进行说话人的聚类,然后通过聚类的结果来判断有哪几个人,哪个小段子属于哪个人。另外一种是有监督的方案,比如你在参加一个会议之前,每个人先进行声纹的注册,等你注册完以后,就能根据你的身份的信息来判断到哪一段是你说的话。