安装与部署
项目介绍
X2Doris 是 SelectDB 开发的,专门用于将各种离线数据迁移到 Apache Doris 中的核心工具,该工具集 自动建 Doris 表
和 数据迁移
为一体,目前支持了 Apache Doris/Hive/Kudu、StarRocks 数据库往 Doris 或 SelectDB Cloud 迁移的工作,整个过程可视化的平台操作,非常简单易用,减轻数据同步到 Doris 或 SelectDB Cloud 中的门槛。
安装部署
1. 安装要求
准备部署 X2Doris 的机器必须确保有效的网络策略: 要迁移的源 和 目标写出的 Doris/SelectDB Cloud,保证网络可以连接。
2.选择安装包
X2Doris 底层采用 Spark 实现,推荐部署到有 Hadoop,Yarn 的大数据环境中,这样可以充分利用大数据的集群能力,能大大提高数据迁移的效率和速度。如果没有大数据环境也可以的,单机部署即可 (选择自带 Spark 的版本就可以了。如果没有 Hadoop 环境就不要安装伪分布式的 Hadoop 集群环境了)。
2.1 如果有 Spark 环境
进入 Spark 安装目录的 jars 目录下,查看 Spark 依赖包对应的 Scala 版本,如下:可以看到 spark-yarn_2.12-3.2.4.jar, 这里的2.12 即为 Scala 的 版本。
然后下载与 Scala 版本对应的 X2Doris 安装包即可,X2Doris 安装包的文件名有 Scala 的版本,如:selectdb-x2Doris_2.12-1.0.0-bin.tar.gz 就是 Scala 2.12 对应的版本
2.2 如果没有 Spark 环境
直接选择 Scala 2.12 对应的 X2Doris 安装包即可。
3. 解包安装包
tar -xzvf selectdb-x2doris_2.12-1.0.0-bin.tar.gz
4. 初始化元数据
4.1 将系统的数据库类型改成 mysql
进入到 conf
下,修改 application.yml
将 spring.profiles.action
改成 mysql
,注意 默认的 h2, 是内存数据库,系统重启会导致数据丢失
4.2 修改 conf/application-mysql.yml
文件,指定 MySQL 的连接信息
4.3 执行脚本
进入到 script
下:有两个目录,分别是 schema
和 data
- 先执行
schema
下的mysql-schema.sql
完成表结构的初始化 - 再执行
data
下的mysql-data.sql
完成元数据初始化
PostgreSQL 操作与 MySQL 类似,此处不再赘述。
注意:默认使用 h2 数据库,重启后,数据会被清空!
5. 认证相关配置
5.1. Kerberos
如果你的 Hadoop 集群开启了 Kerberos 认证(未开启 Kerberos 认证则可以跳过此步骤),则需要配置下 Kerberos 的信息,编辑 conf/kerberos.yml
:
enable
: true #开启 Kerberos 开关
principal
和 krb5
, keytab
填写实际的路径即可
5.2. tbds
tbds 是腾讯云大数据集群, 非 tbds 则跳过即可,编辑 conf/application-env.yml
填写如下信息即可:
启动使用
启动
前置工作都准备就绪了,进入到 bin
目录下,执行 startup.sh
登录平台
默认访问地址: http://$host:9091
,可以在 application.yml 里面进行修改。 默认用户名密码: admin
/selectdb
,登陆后可在主界面操作修改。