训练框架中,错误重试和断点续算那块是做到自动化了吗?如果可以做到,是如何做到的?利用MPI的机制?
字节跳动智能语音方向工程负责人司徒文畅:
目前还是通过 checkpoint 来手动恢复,自动化的方案正在建设中