显卡在计算机中起着至关重要的作用,显卡故障又是实际使用过程中不可避免的问题。比如,正常使用中的显卡故障会导致服务不可用,此时运行在该显卡上的服务都不应该再继续执行,需要被及时调度走,将故障显卡进行有效屏蔽非常关键。
此前,物理机GPU集群上有故障显卡屏蔽方案,在迁移到例如基于kubernetes和容器的虚拟化云环境中,由调度器分配,应用具体运行的宿主机也是不确定的,导致经常受调度器的调度而迁移。对于客户端来说,能感知到的也就是一个入口地址,对于后面的运行环境完全不知。因此,在物理机环境下工作的故障显卡屏蔽方案无效,现有技术中不存在针对云端环境的显卡故障处理方法,需要针对云端环境重新设计。
如何在虚拟云环境中对GPU显卡故障进行有效屏蔽?日前,一套为虚拟云环境中显卡故障的处理方法及装置的解决方案为这个棘手问题打开了一扇窗。该方案监听表征显卡故障的变动事件;根据变动事件对存储的显卡资源信息进行数据同步处理,显卡资源信息包括虚拟云环境中的集群节点、显卡和服务之间的拓扑结构及显卡状态信息;基于同步后的显卡资源信息,对虚拟云环境中的显卡故障进行后续处理,并同步更新显卡资源信息,保证虚拟框架的稳定运行。
该方案是作业帮教育科技(北京)有限公司申请的一项技术专利,专利号CN 113157476 A。公开资料显示,作业帮教育科技(北京)有限公司成立于2015年,一直致力于用科技手段助力教育普惠,运用人工智能、大数据等前沿技术,为学生、老师、家长提供更高效的学习、教育解决方案,智能硬件产品等。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
责任编辑:kj005
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com