(图文|孙伟城、郝志刚 审核人|李国亮)3月14日上午,学院2022年第4期“Happy Hour”在逸夫楼C603会议室及腾讯会议平台同步举行。微软云服务部数据科学家党映农博士应邀做客本期Happy Hour交流会,作了题为“云计算智能运维前沿和进展”的学术报告。交流会由副院长李国亮教授主持,张红雨教授、李立教授、倪福川副教授、刘世超博士等40余名师生线上线下参加了交流会,仔细聆听了报告并进行了热烈讨论。
此次会议邀请到了微软云服务部数据科学家党映农博士作为会议的主讲嘉宾。会议伊始,李国亮教授对主讲嘉宾作简要介绍,并欢迎党映农博士参与本次会议报告。党博士以“智能运维(AIOps)的概念和作用”为开篇,结合自己在微软的工作经历,详细介绍了智能运维在云计算平台中发挥的作用和重要意义。云计算(cloud computing)是分布式计算的一种,是通过网络“云”将巨大的数据计算处理程序和资源分布在不同空间,完成单一物理资源不容易完成的计算任务。像微软这样的云计算头部企业,在云计算的运行维护中,需要满足多方面的需求,比如系统快速开发、系统自我诊断、自我修复、客户需求的预判等。如何管理、维护上百万、上千万台的云计算平台设备并满足各方需求,是云计算运维中的重大挑战。针对当前工业界的现状及需求,党博士从目前的云计算运维发展模式和面对的挑战开始,逐步过渡到“智能运维”,详细解释了为什么要使用云计算智能运维,以及当前智能运维的发展趋势,内容由浅入深,叙述结构层次分明,使与会者真正地了解了当前智能运维的前沿技术和发展现状。
随后党博士以自己当前的研究为例,开始介绍机器学习和强化学习在智能运维中的应用。微软的云计算平台拥有上千万台物理设备,如何能够在设备出现故障之前正确地预测出可能出现问题的机器,并将该设备上的服务进行热迁移到另外一台机器、而不影响客户的工作,是领域内的一个突出难题。
党映农博士重点介绍了其团队研发的Gandalf模型,提供端到端地分析在大型系统基础设施中安全部署的服务。Gandalf模型能够分析各种故障信号,使用一种空间和时间相关算法将每个信号与所有正在进行的部署相关联,并利用集成排序策略来判断故障信号对软件部署的影响。该模型可自动检测云服务器的安全状态,从而为工程师提供检测证据及调查线索,极大程度上提高了效率,与之前的工作相比该模型在性能上获得极大提升。
另外,考虑到由于虚拟机中断对用户造成的影响,党映农博士介绍了团队的另一项工作——基于强化学习预测云虚拟机出现故障的可能性。该模型能够通过每台设备的运行情况以及磁盘使用时间等信息,在一些专家规则的帮助下预测到设备未来一段时间的出故障几率。当检测出问题时,系统还要能够根据“用户影响(Customer Impact)”来选择合适的解决措施。该模型不仅可对虚拟机是否会出现故障做出预测,还可及时对故障虚拟机进行热迁移,从而降低对用户的影响。报告最后,党博士分享了他们团队在研究过程中遇到的一些问题,如数据质量、模型的可解释性等,并提出一些解决措施,包括AB Testing等,为参会的同学提供了一些问题解决思路。
报告结束,与会师生均对云计算智能运维表现出浓厚兴趣,并与党映农博士展开热烈讨论和深入交流。在场的老师和同学向党博士咨询一些关于模型数据的格式问题以及微软的云计算设备情况,党博士一一解答,并和在场同学分享了一些微软的面试经验,同学们收获颇丰。
会议最后,李国亮老师和与会师生再一次表达了对党博士的感谢,期待着党映农博士在疫情结束后能够做客华农,进行深入的学术交流。
背景介绍
云计算(cloud computing)是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。云计算早期,简单地说,就是简单的分布式计算,解决任务分发,并进行计算结果的合并。因而,云计算又称为网格计算。通过这项技术,可以在很短的时间内(几秒钟)完成对数以万计的数据的处理,从而达到强大的网络服务。现阶段所说的云服务已经不单单是一种分布式计算,而是分布式计算、效用计算、负载均衡、并行计算、网络存储、热备份冗杂和虚拟化等计算机技术混合演进并跃升的结果。[1]
1. 许子明,田杨锋.云计算的发展历史及其应用[J].信息记录材料,2018,19(8):66-67.