摘要:为了解决超万卡智算集群硬件故障多、任务训练故障率居高不下、跨域问题定位困难等稳定性保障问题,提出了一种基于数据和知识驱动的保障超万卡智算集群稳定性的方案。首先,通过异构资源一体化采集技术、分布式实时大数据抽取—转换—加载(extract-transform-load,ETL)技术采集集群性能数据;然后,基于改进的自注意力机制的双向长短期记忆(self-attention-based bidirectional long short-term memory,SA-BiLSTM)网络深度学习模型实现故障诊断;最后,通过知识图谱分析匹配诊断模型输出的结果,完成故障诊断报告的输出,提升诊断模型输出的可解释性。在深度学习模型提取时序性特征时引入特征权重系数,对不同尺度提取的特征加权融合,提高模型故障诊断精度。在基于1.8万卡智算集群故障诊断仿真实验中,损失值逐渐收敛并稳定在0.047,准确率达到了98.4%。实践表明,该稳定性保障方案能有效保障大模型训练,提升智算集群的可靠性,为未来更大规模的智算集群建设与大模型训练提供坚实的基础。