本文为您介绍如何使用 OceanBase 迁移服务(OceanBase Migration Service,OMS)社区版迁移 MySQL 数据库的数据至 OceanBase 社区版。
背景信息
在 OMS 社区版控制台创建从自建 MySQL 数据库迁移数据至 OceanBase 社区版的数据迁移任务,您可以通过结构迁移、全量迁移和增量同步,无缝迁移源端数据库中的存量业务数据和增量数据至 OceanBase 社区版。
MySQL 数据库支持单主库、单备库和主备库等模式。迁移 MySQL 数据库的数据至 OceanBase 社区版时,不同类型的数据源支持的操作也不同。
类型 | 支持的操作 |
---|---|
单主库 | 结构迁移 + 全量迁移 + 增量同步 + 全量校验 + 反向增量 |
单备库 | 结构迁移 + 全量迁移 + 增量同步 + 全量校验 |
主备库 | 主库(数据库使用主库连接):支持反向增量 备库(数据库使用备库连接):支持结构迁移 + 全量迁移 + 增量同步 + 全量校验 当源端为 主库+备库 时,如果您配置了增量同步和反向增量,数据库使用主库链接;如果您配置了结构迁移、全量迁移、增量同步和全量校验,数据库使用备库连接。 |
前提条件
-
已为自建 MySQL 数据库开启 Binlog,详情请参见 为 MySQL 数据库开启 Binlog。
-
已为源端自建 MySQL 数据库和目标端 OceanBase 社区版创建专用于数据迁移任务的数据库用户,并为其赋予了相关权限。详情请参见 创建数据库用户。
使用限制
-
源端数据库的操作限制
请勿在结构迁移和全量迁移阶段执行库或表结构变更的 DDL 操作,否则可能造成数据迁移任务中断。
-
目前支持的 MySQL 数据库版本为 V5.5、V5.6、V5.7 和 V8.0。同时,OMS 社区版支持 MySQL 数据库 InnoDB、TokuDB 和 XENGINE 存储引擎,其它类型引擎无法使用数据迁移功能。
-
如果主键是 FLOAT 或 DOUBLE 类型,预检查会失败。强烈建议您请勿使用该类型作为主键。
-
目标端是数据库的情况下,OMS 社区版不支持目标端存在 Trigger。如果存在,可能导致数据迁移失败。
-
OMS 社区版不支持 MySQL 数据库的索引字段大于 767 个字节(191 个字符)。
-
数据源标识和用户账号等,在 OMS 社区版系统内全局唯一。
-
OMS 社区版仅支持迁移库名、表名和列名为 ASCII 码且不包含特殊字符(包括 |"'`()=;/& 和换行)的对象。
-
如果源端和目标端的
lower_case_table_names
设置不一致,则不允许创建任务。同时,OMS 社区版不支持 MySQL 数据库和 OceanBase 大小写敏感的情况,即源端和目标端设置为lower_case_table_names=0
时,也不允许创建任务。默认按照目标端参数
lower_case_table_names = 1
设置,并以小写方式创建目标端数据库对象。 -
OMS 社区版不支持迁移源端 MySQL 数据库的 Cascade 外键。
-
请确保源端和目标端数据库的时钟同步。
注意事项
-
建议您一次性迁移的表数量不超过 1000 张,避免影响数据迁移任务的运行。
-
MySQL 数据库宿主机需要具备足够的出口带宽。如果未具备足够的出口带宽,会影响日志解析和数据迁移速度,可能导致同步延迟增大。
-
如果源端和目标端数据库的 Collation 不同:
-
可能导致数据同步不一致。例如,源端 utf8mb4_0900_ai_ci Collation 下两条数据 'A' 和 'A ' 将无法全部写入目标端为 utf8mb4_general_ci Collation 的数据库,从而导致数据丢失。
-
以 VARCHAR 作为主键的表数据校验会不一致。
-
-
节点之间的时钟不同步,或者电脑终端和服务器之间的时钟不同步,均可能导致延迟时间(增量同步/反向增量)不准确。
例如,如果时钟早于标准时间,可能导致延迟时间为负数。如果时钟晚于标准时间,可能导致延迟。
-
如果 MySQL 数据库需要进行增量解析,则源端 MySQL Server 必须设置
server_id
。 -
在未开启同步 DDL 的情况下,如果您变更目标端的唯一索引,需要重启增量同步组件,否则可能存在数据不一致的问题。
-
MySQL 数据库至 OceanBase 社区版的反向增量中,当 OceanBase 社区版为 V3.2.x 之前的版本且具有全局唯一索引的多分区表时,如果您更新了表的分区键的值,可能导致数据迁移过程中丢失数据。
-
请确认 OMS 社区版对 DECIMAL、FLOAT、DOUBLE 等列类型的迁移精度是否符合预期。如果目标端字段类型的精度小于源端字段类型的精度,则可能发生截断现象,导致源端和目标端的数据不一致。
-
库表汇聚场景下:
-
建议您使用导入对象或匹配规则的方式映射源端和目标端的关系。
-
建议您自行在目标端创建表结构。如果使用 OMS 社区版创建,请在结构迁移步骤跳过部分失败对象。
-
-
OMS 社区版支持源端和目标端的字段数量不一致。全量迁移或增量同步过程中,如果报错源端表字段在目标端中不存在,您可以更新 full-Import 或 Incr-Sync 组件的参数
ignoreRedunantColumnsReplicate
为true
后,恢复数据迁移任务的运行。 -
如果源端和目标端的表结构不完全一致,可能会出现数据不一致的情况。目前已知场景如下:
-
用户手动创建表结构时,因超出 OMS 社区版的支持范围,可能产生隐式的转换问题导致源端和目标端列的类型不一致。
-
目标端的数据长度小于源端的数据长度时,可能出现数据截断的情况,导致源端和目标端的数据不一致。
-
-
当 MySQL 数据库为双主或多主架构时,请开启
log_slave_updates
参数,否则可能因数据源未接收所有的 Binlog 导致存在数据丢失的风险。 -
如果创建数据迁移任务时,您仅配置了 增量同步 ,数据迁移要求源端数据库的本地增量日志保存 48 小时以上。
如果创建数据迁移任务时,您配置了 全量迁移 + 增量同步 ,数据迁移要求源端数据库的本地增量日志至少保留 7 天以上。否则数据迁移可能因为无法获取增量日志导致数据迁移任务失败,甚至导致源端和目标端数据不一致。
-
当源端 MySQL 数据库为双主或多主架构时,请开启
log_slave_updates
参数,否则可能因数据源未接收所有的 Binlog 导致存在数据丢失的风险。
数据类型映射
MySQL 数据库 | OceanBase 社区版 |
---|---|
INTEGER | INTEGER |
TINYINT | TINYINT |
MEDIUMINT | MEDIUMINT |
BIGINT | BIGINT |
SMALLINT | SMALLINT |
DECIMAL | DECIMAL |
NUMERIC | NUMERIC |
FLOAT | FLOAT |
REAL | REAL |
DOUBLE PRECISION | DOUBLE PRECISION |
BIT | BIT |
CHAR | CHAR |
VARCHAR | VARCHAR |
BINARY | BINARY |
VARBINARY | VARBINARY |
BLOB | BLOB |
TEXT | TEXT |
ENUM | ENUM |
SET | SET |
JSON | JSON |
DATE | DATE |
DATETIME | DATETIME |
TIMESTAMP | TIMESTAMP |
TIME | TIME |
YEAR | YEAR |
操作步骤
-
新建数据迁移任务。
-
登录 OMS 社区版控制台。
-
在左侧导航栏,单击 数据迁移 。
-
在 迁移任务列表 页面,单击右上角的 新建迁移任务 。
-
-
在 选择源和目标 页面,配置各项参数。
参数 描述 迁移任务名称 建议使用中文、数字和字母的组合。名称中不能包含空格,长度不能超过 64 个字符。 标签 单击文本框,在下拉列表中选择目标标签。您也可以单击 管理标签 ,进行新建、修改和删除。详情请参见 通过标签管理数据迁移任务。 源端 如果您已创建 MySQL 数据源,请从下拉列表中进行选择。如果未创建,请单击下拉列表中的 新建数据源 ,在右侧对话框进行新建。参数详情请参见 新建 MySQL 数据源。 说明
- 如果您在添加 MySQL 数据源时,勾选了 增量同步时,允许 OMS 自动向该实例写入心跳数据,以解决源端在无业务写入场景下的高延时问题,OMS 社区版会向对应的 MySQL 数据库创建并更新
drc.heartbeat
表。此时,MySQL 数据库用户需要具备创建表、写表的权限。详情请参见 创建和更新心跳表。 - 您可以选择单主库或主库+备库类型的 MySQL 数据源,本文以主库+备库类型为例。
目标端 如果您已创建 OceanBase 社区版数据源,请从下拉列表中进行选择。如果未创建,请单击下拉列表中的 新建数据源 ,在右侧对话框进行新建。参数详情请参见 新建 OceanBase-CE 数据源。 使用场景 包括 数据迁移 和 容灾双活 ,此处选择 数据迁移 。如果您需要选择容灾双活的使用场景,详情请参见 容灾双活场景的数据迁移。
当源端为备库时,该参数不显示。场景类型 包括 仅支持唯一键表迁移 和 支持全部表迁移 : - 唯一键表:指具有主键或者非空唯一键的表。
- 全部表:指具备主键的表、唯一键表和无唯一键表,但不包含临时表。
- 如果您在添加 MySQL 数据源时,勾选了 增量同步时,允许 OMS 自动向该实例写入心跳数据,以解决源端在无业务写入场景下的高延时问题,OMS 社区版会向对应的 MySQL 数据库创建并更新
-
单击 下一步 。
如果您选择场景类型为 仅支持唯一键表迁移 ,还需要单击弹出提示框中的 我知道了 。
-
在 选择迁移类型 页面,配置各项参数。
迁移类型 包括 结构迁移 、 全量迁移 、 增量同步 、 全量校验 和 反向增量 。
迁移类型 描述 结构迁移 结构迁移任务开始后,OMS 社区版会迁移源库中的数据对象定义(表、索引、约束、注释和视图等)至目标端数据库中,并自动过滤临时表。MySQL 数据库至 OceanBase 社区版的结构迁移支持自动创建目标端不存在的库。 - 需要手动调整表结构 :OMS 社区版支持用户自定义表结构。勾选后,结构迁移阶段仅获取表结构 SQL,待您修改完成后,才开始执行。
- 目标端表对象存储类型 :目标端 OceanBase 社区版为 V4.3.0 及之后版本,并且选中 结构迁移 或 增量同步 > 同步 DDL 时,才会显示该区域的参数。
目标端表对象存储类型包括 默认 、 行存 、 列存 和 行列混存 ,该配置用于确定结构迁移或增量同步时目标端表对象的存储类型,详情请参见 default_table_store_format。说明
默认 选项是根据目标端参数配置自适应其他选项,是结构迁移的表对象或增量 DDL 的新增表对象根据设置的存储类型写对应的结构。
全量迁移 全量迁移任务开始后,OMS 社区版会迁移源库表的存量数据至目标端数据库对应的表中。如果选择 全量迁移 ,建议您在迁移数据前,使用 ANALYZE
语句收集 MySQL 数据库的统计信息。增量同步 增量同步任务开始后,OMS 社区版会同步源库发生变化的数据(新增、修改或删除)至目标端数据库对应的表中。
增量同步 包括 同步 DML 和 同步 DDL,您可以根据需求进行选择。同步 DDL 的详情请参见 MySQL 至 OceanBase 社区版迁移任务增量 DDL 支持的范围和限制。
当目标端 OceanBase 社区版为 V4.3.0 及之后版本,并且选中 结构迁移 或 增量同步 > 同步 DDL 时,支持选择 目标端表对象存储类型 ,详情请参见 结构迁移 处的描述。如果您已选中 结构迁移 ,则只需要在 结构迁移 区域进行配置。
增量同步 的使用限制如下:- 如果您选择了 增量同步 ,源端 MySQL 数据库需要开启 Binlog 并设置
binlog_row_image
为 full,binlog_format
为 row。 - 如果您选择了 增量同步 ,MySQL Binlog 日志的保留时长不能小于 24 小时。否则增量数据迁移可能由于 Binlog 日志的缺失,导致任务中断且无法恢复。
- 如果您选择了 同步 DDL ,当源端数据库发生 OMS 社区版未支持的同步 DDL 操作时,会存在数据迁移中断的风险。
- 如果 DDL 操作为新增列,建议您设置该列的属性为 Null,会存在数据迁移中断的风险。
全量校验 在全量迁移完成、增量数据同步至目标端并与源端基本追平后,OMS 社区版会自动发起一轮针对源库配置的数据表和目标表的全量数据校验任务。 - 如果选择 全量校验 ,建议您在全量校验开始前,分别收集 MySQL 数据库和 OceanBase 社区版的统计信息。OceanBase 社区版的收集详情请参见 手动收集统计信息。
- 如果您选择了 增量同步 ,且 同步 DML 选项中未选择所有的 DML,则 OMS 社区版不支持本场景下的全量数据校验。
- OMS 社区版仅支持对唯一键表(指具有主键或者非空唯一键的表)进行全量数据校验。
- 进行全量校验时,索引名称不能是
PRIMARY
或PRI
。
反向增量 反向增量任务开始后,可以实时回流业务切换后在目标端数据库产生的变更数据至源端数据库。如果您选择了 反向增量 ,请手动在 MySQL 手动创建 omstxndb
数据库。以下情况均不支持选择 反向增量 :- 您选择了 容灾双活 的使用场景。
创建 MySQL 数据库至 OceanBase 数据库 MySQL 兼容模式的容灾双活任务时,您无需选择反向增量。待启动任务后,会根据增量同步的设置自动开始反向增量步骤的运行。 - 存在多表汇聚的情况。
- 存在 Schema 多到一映射的情况。
- 源端为 MySQL 备库。
-
(可选)单击 下一步 。如果您选择了 反向增量 ,且目标端 OceanBase 社区版数据源未配置 Configurl 或者 rootservice、DRC 用户用户名和密码,则会弹出 数据源补充信息 对话框,提醒您配置相应参数。参数详情请参见 新建 OceanBase-CE 数据源。
补充完成后,单击 测试连通性 。测试连接成功后,单击 保存 。
-
单击 下一步 ,在 选择迁移对象 页面,选择迁移对象和迁移范围。
您可以通过 指定对象 和 匹配规则 两个入口选择迁移对象。本文为您介绍通过 指定对象 方式选择迁移对象的具体操作,配置匹配规则的详情请参见 配置迁移对象的匹配规则。
注意
-
通过指定对象方式选择迁移对象时,请勿选择表名为 "*_ghc" 的表。
通过匹配规则方式选择迁移对象时,请务必配置 排除对象规则 为
{database_name}.*_ghc
。 -
当数据库的库名或表名存在 "$$" 字符时,会影响数据迁移任务的创建。
-
如果您在 选择迁移类型 步骤已勾选 DDL 同步,建议通过匹配规则方式选择迁移对象,以确保所有符合迁移对象规则的新增对象都将被同步。如果您通过指定对象方式选择迁移对象,则新增对象或重命名后的对象将不会被同步。
-
在 选择迁移对象 区域,选中 指定对象 。
-
在 选择迁移范围 区域的 源端对象 列表选中需要迁移的对象。您可以选择一个或多个库的表、视图作为迁移对象。
-
单击 >,将其添加至 目标端对象 列表中。
OMS 社区版支持通过文本导入对象、重命名对象名称、设置行过滤、查看列信息,以及移除单个或全部迁移对象。
说明
通过 匹配规则 方式选择迁移对象时,重命名能力由匹配规则语法覆盖,操作处仅支持设置过滤条件。详情请参见 配置迁移对象的匹配规则。
操作 步骤 导入对象 - 在 选择迁移范围 区域的右侧列表中,单击右上角的 导入对象 。
- 在对话框中,单击 确定 。
注意:
导入会覆盖之前的操作选择,请谨慎操作。 - 在 导入迁移对象 对话框中,导入需要迁移的对象。
您可以通过导入 CSV 文件的方式进行库表重命名、设置行过滤条件等操作。详情请参见 下载和导入迁移对象配置。 - 单击 检验合法性 。
- 通过合法性的检验后,单击 确定 。
重命名 OMS 社区版支持重命名迁移对象的名称,详情请参见 数据库库表重命名。 设置 OMS 社区版支持 WHERE
条件实现行过滤,详情请参见 SQL 条件过滤数据。
您还可以在 查看列 区域,查看迁移对象的列信息。移除/全部移除 OMS 社区版支持在数据映射时,对暂时选中到目标端的单个或多个对象进行移除操作。 - 移除单个迁移对象
在 选择迁移范围 区域的右侧列表中,鼠标悬停至目标对象,单击显示的 移除 ,即可移除该迁移对象。 - 移除全部迁移对象
在 选择迁移范围 区域的右侧列表中,单击右上角的 全部移除 。在对话框中,单击 确定 ,即可移除全部迁移对象。
-
-
单击 下一步 。
如果您选择场景类型为 支持全部表迁移 ,还需要单击弹出提示框中的 下一步 。
-
在 迁移选项 页面,配置各项参数。
如果您需要查看或修改全量迁移、增量同步或全量校验组件参数,请单击相应区域右上角的 配置详情 。参数说明请参见 组件参数说明 模块的文档。
-
结构迁移
在 选择迁移类型 页面,选中 结构迁移 ,才会显示该区域的参数。您可以根据实际情况,设置 字符集映射 和 排序字符集映射 。
-
全量迁移
在 选择迁移类型 页面,选中 全量迁移 ,才会显示下述参数。
参数 描述 并发速度 包括 平稳 、 正常 、 快速 和 自定义 。全量迁移的性能不同,全量迁移任务所需要的资源也不同。当您选择 自定义 时,可以根据实际情况设置 读取并发 、 写入并发 和 JVM 内存 。 目标端对象存在记录时处理策略 处理策略包括 忽略 和 停止迁移 : - 选择 忽略 ,当目标端表对象存在数据时,如果原数据与写入数据冲突,OMS 社区版采用将冲突数据记录日志,保留原数据不变的策略进行数据写入。
注意
选择 忽略,全量校验将使用 IN 模式拉取数据,无法校验目标端存在源端没有的数据的场景,并且校验性能会有一定程度降级。
- 选择 停止迁移 ,当目标端表对象存在数据时,全量迁移会报错不允许迁移,请处理好目标端数据后再继续迁移。
注意
如果出错后单击恢复,OMS 社区版将忽略该配置选项,继续迁移表数据,请谨慎操作。
写入方式 包括 SQL(通过 INSERT
或REPLACE
写入表)和 Direct Load(通过旁路导入方式写入)。Direct Load 的详情请参见 旁路导入介绍。是否允许索引后置 您可以设置是否允许全量数据迁移完成后再创建索引,索引后置功能能够缩短全量迁移耗时。选择索引后置的注意事项,请参见表格下方的说明。 注意
在 选择迁移类型 页面同时选中 结构迁移 和 全量迁移,才支持设置该选项。
允许索引后置的情况下,建议您根据 OceanBase 社区版的硬件条件和当前业务流量情况,自行调节参数。
-
如果您使用的是 OceanBase 社区版 V4.x,请通过黑屏客户端工具调整以下 sys 租户参数和业务租户参数。
-
调整 sys 租户参数
// parallel_servers_target 用于设置每个 Server 上的并行查询排队条件。 // 如果完全为了性能,建议您将该参数调整为大于物理 CPU 的值,例如 1.5 倍。同时设置的值不超过 64,避免产生 OceanBase 社区版内核抢锁问题。 set global parallel_servers_target = 64;
-
调整业务租户参数
// 文件内存缓冲区限制 alter system set _temporary_file_io_area_size = '10' tenant = 'xxx'; // 4.x 关闭限流 alter system set sys_bkgd_net_percentage = 100;
-
-
如果您使用的是 OceanBase 社区版 V3.x,请通过黑屏客户端工具调整以下 sys 租户参数。
// parallel_servers_target 用于设置每个 Server 上的并行查询排队条件。 // 如果完全为了性能,建议您将该参数调整为大于物理 CPU 的值,例如 1.5 倍。同时设置的值不超过 64,避免产生 OceanBase 社区版内核抢锁问题。 set global parallel_servers_target = 64; // data_copy_concurrency 用于设置系统中并发执行的数据迁移复制任务的最大并发数。 alter system set data_copy_concurrency = 200;
- 选择 忽略 ,当目标端表对象存在数据时,如果原数据与写入数据冲突,OMS 社区版采用将冲突数据记录日志,保留原数据不变的策略进行数据写入。
-
增量同步
在 选择迁移类型 页面,选中 增量同步 ,才会显示下述参数。
参数 描述 并发速度 包括 平稳 、 正常 、 快速 和 自定义 。增量同步的性能不同,增量同步任务所需要的资源也不同。当您选择 自定义 时,可以根据实际情况设置 读取并发 、 写入并发 和 JVM 内存 。 增量同步起始位点 - 如果选择迁移类型时已选择 全量迁移 ,该参数不显示。
- 如果选择迁移类型时未选择 全量迁移 ,但选择了 增量同步 ,请在此处指定迁移某个时间节点之后的数据,默认为当前系统时间。详情请参见 设置增量同步位点。
增量记录保存时间 OMS 社区版中增量解析文件缓存的时长。配置的保存时间越长,OMS 社区版 Store 组件需要消耗的磁盘空间越大。 -
全量校验
在 选择迁移类型 页面,选中 全量校验 ,才会显示下述参数。
参数 描述 并发速度 包括 平稳 、 正常 、 快速 和 自定义 。通过全量校验组件 Full-Verification 的资源配置,可以限制任务全量校验阶段的资源消耗。当您选择 自定义 时,可以根据实际情况设置 读取并发 、 写入并发 和 JVM 内存 。
-
-
单击 预检查 ,系统对数据迁移任务进行预检查。
在 预检查 环节,OMS 社区版会检查数据库用户的读写权限、数据库的网络连接等是否符合要求。全部检查任务均通过后才能启动数据迁移任务。如果预检查报错:
-
您可以排查并处理问题后,重新执行预检查,直至预检查成功。
-
您也可以单击错误预检查项操作列中的 跳过 ,会弹出对话框提示您跳过本操作的具体影响,确认可以跳过后,请单击对话框中的 确定 。
-
-
单击 启动任务 。如果您暂时无需启动任务,请单击 保存 ,跳转至数据迁移任务的详情页面,您可以根据需要进行手动启动。
OMS 社区版支持在数据迁移任务运行过程中修改迁移对象,详情请参见 查看和修改迁移对象。数据迁移任务启动后,会根据选择的迁移类型依次执行,详情请参见 查看数据迁移任务的详情 中《查看迁移详情》模块的内容。