医疗人工智能平台如何实时监测数据处理过程中可能的突发问题,大规模的运算如何进行作业的有效管理?
希氏异构人工智能首席科学家周斌:
医疗人工智能平台在实时监测数据的处理过程中会有一些突发性的问题,这也是我们为什么在整个平台设计中会设计监控的主节点的原因,这个主节点主要负责资源的调度,比如某一个节点出现了问题,我们可以进行及时的任务迁移以及一些检查点的保存等模式。对于作业的有效管理,已经被研究得非常深入,目前有非常多的开源软件可以实现,从基础的调度上来讲,有很多不同的调度算法,而目前用的Mesos资源调度系统的是一个比较快捷和高效的调度系统。如果仅从硬件或者任务软件执行的角度上来讲,人工智能平台监测数据处理过程还是比较直接的,只需要监测特定任务的执行工作情况即可。但是其他的突发问题,比如有一些抢占性任务或者时效的问题,暂时不在我们平台设计的规格之内,尤其是实时监测数据,实时监测数据我们是通过前端来部署Inference系统来解决,而不是完全仅仅依靠后台云端作业来解决。