这个是联合背景音一起识别 还是单独上行啊?转写的标点符号呢,没看到呢?
字节跳动智能语音方向工程负责人司徒文畅:
一起的,没有专门做分离;字幕场景目前是故意不加标点的