美团云“零感知”在线迁移解决方案(2)

小大扫描到手机

扫描到手机×

2016-05-31 17:05:23 IT168 参与评论()人

-第二步：磁盘

对于磁盘来说，通常对于这种块设备的迁移有两种方法。

一种是基于共享存储(EBS)的，支持在多点同时打开同一块盘。于是在B的虚拟机空壳上我们也会挂载上原先的这块磁盘，并且由QEMU自身保证。如果存在写入，则先在A上写，直到迁移完成的瞬间才开始在B上写。单点写入能够保证数据的一致性。

另一种方案是针对本地存储的。美团云的默认磁盘使用的是本地存储，为了避免迁移的时候需要拷贝大磁盘，我们使用了一个用户态的文件系统工具 fuse，它既可以像NFS一样方便地使用mount远程挂载磁盘，同时以用户态程序规避了内核难以调试的问题，并且和http整合到一起，形成了一个服务。在B端的空壳QEMU上新准备的磁盘也是空的，使用 fuse mount 挂载A上的远程磁盘文件，并将其设置成空壳QEMU的 backing_file，凭借QEMU的 copy_on_write 技术，A上的磁盘对于B的虚拟机来说变成本地可用。当内存迁移完成，新QEMU在B上运行后，我们还需要往B的QEMU monitor上发送 block_stream 命令，以一个较小的速度(30MB/s)从A上同步磁盘，这个同步动作和用户在虚拟机内部的IO访问是不冲突的，用户这段时间做出的磁盘修改都会被记录在B本地，直到最终同步完成，才会去 merge 这些差异的数据。

因此这两种方案都能保证迁移的过程中磁盘的数据同步过程中，原来的数据盘A都是可用的，从而保证原有的业务不会中断。

- 第三部：内存

最后一步是迁移内存。假设某个时刻网络和磁盘都在B上就绪了，虚拟机的整个系统仍然在A上运行着，为了保证业务不中断，我们一边从A往B拷贝着内存，填充空壳，另一方面仍然不能暂停A上QEMU的运行。但是只要在运行，内存就会有变化，可能拷贝了几十秒后(由网速决定)达到终点，但此时原先拷贝过的区域内一部分内存又变化了，因此，QEMU自身会在拷贝过程中记录下那些发生变化的脏页，针对它们再进行一次拷贝，如此循环。由于拷贝速度比内存变化速度快，所以在某个时刻，A与B上的QEMU内存会达到完全一致，A主动终止执行下一条CPU指令，B随即按照程序栈接替A执行，这样便完成了虚拟机系统从A到B的无缝切换。

下面就是整个迁移过程的框架：

美团云“零感知”在线迁移解决方案