DBT SelectDB Adapter

DBT(Data Build Tool) (opens in a new tab) 是专注于做ELT（提取、加载、转换）中的T（Transform）—— “转换数据”环节的组件 dbt-selectdb adapter 是基于dbt-core 1.3.0 开发，依赖于mysql-connector-python驱动对selectdb进行数据转换。

版本支持

selectdb	python	dbt-core
>=2.0	>=3.8,<=3.10	>=1.3.0

注意 dbt-selectdb 适用于 SelectDB cloud，SelectDB Enterprise 可以使用dbt-doris

dbt-selectdb adapter 使用

dbt-selectdb adapter 安装

使用pip安装：

pip install dbt-selectdb

安装行为会默认安装所有dbt运行的依赖，可以使用如下命令查看验证：

dbt --version

如果系统未识别dbt这个命令，可以创建一条软连接：

ln -s /usr/local/python3/bin/dbt /usr/bin/dbt

dbt-selectdb adapter 初始化

dbt init

会出现询问式命令行，输入相应配置如下即可初始化一个dbt项目：

名称	默认值	含义
project		项目名
database		输入对应编号选择适配器（选择selectdb）
host		selectdb 的 endpoint
port		selectdb 的 MySQL Protocol Port
schema		在dbt-selectdb中，等同于database，库名
username		selectdb 的 username （不是selectdb 账号的登录名，初始登录一般为admin）
password		selectdb 的 password
threads	1	dbt-selectdb中并行度（设置与集群能力不匹配的并行度会增加dbt运行失败风险）

dbt-selectdb adapter 运行

相关dbt运行文档，可参考此处 (opens in a new tab)。进入到刚刚创建的项目目录下面，执行默认的dbt模型：

dbt run

可以看到运行了两个model：my_first_dbt_model和my_second_dbt_model

他们分别是物化表table和视图view。

可以登陆selectdb，查看my_first_dbt_model和my_second_dbt_model的数据结果及建表语句。

dbt-selectdb adapter 物化方式

dbt-selectdb 的物化方式（Materialization）支持一下三种

view
table
incremental

View

使用view作为物化模式，在Models每次运行时都会通过 create view as 语句重新构建为视图。(默认情况下，dbt 的物化方式为view)

优点：没有存储额外的数据，源数据之上的视图将始终包含最新的记录。
缺点：执行较大转换或嵌套在其他view之上的view查询速度很慢。
建议：通常从模型的视图开始，只有当你注意到性能问题时才更改为另一个物化方式。view最适合不进行重大转换的模型，例如重命名，列变更。

配置项：

models:
  <resource-path>:
    +materialized: view

或者在model文件里面写

{{ config(materialized = "view") }}

Table

使用表实现时，你的模型在每次运行时都会通过 create table as 语句重建为表。

优点：table查询速度会比view快。
缺点：table需要较长时间才能构建或重建，会额外存储数据，而且不能够做增量数据同步。
建议：建议对 BI 工具查询的model或下游查询、转换等操作较慢的model使用table物化方式。

配置项：

models:
  <resource-path>:
    +materialized: table
    +duplicate_key: [ <column-name>, ... ],
    +partition_by: [ <column-name>, ... ],
    +partition_type: <engine-type>,
    +partition_by_init: [<pertition-init>, ... ]
    +distributed_by: [ <column-name>, ... ],
    +buckets: int,
    +properties: {<key>:<value>,...}

或者在model文件里面写

{{ config(
    materialized = "table",
    duplicate_key = [ "<column-name>", ... ],
    partition_by = [ "<column-name>", ... ],
    partition_type = "<engine-type>",
    partition_by_init = ["<pertition-init>", ... ]
    distributed_by = [ "<column-name>", ... ],
    buckets = "int",
    properties = {"<key>":"<value>",...}
      ...
    ]
) }}

上述配置项详情如下：

配置项	描述	Required?
`materialized`	该表的物化形式（对应创建表模型为明细模型（Duplicate））	Required
`duplicate_key`	明细模型的排序列	Optional
`partition_by`	表分区列	Optional
`partition_type`	表分区类型，range或list .(default: `RANGE`)	Optional
`partition_by_init`	初始化的表分区	Optional
`distributed_by`	表桶区列	Optional
`buckets`	分桶数量	Optional
`properties`	建表的其他配置	Optional

Incremental

以上次运行 dbt的 incremental model结果为基准，增量的将记录插入或更新到表中。

注意：selectdb的增量实现依赖于unique模型，如果有增量需求，在初始化该模型的数据时就指定物化为incremental

优点：只需转换新记录，可显著减少构建时间。
缺点：incremental模式需要额外的配置，是 dbt 的高级用法，需要复杂场景的支持和对应组件的适配。
建议：增量模型最适合基于事件相关的场景或 dbt 运行变得太慢时使用增量模型

配置项：

models:
  <resource-path>:
    +materialized: incremental
    +unique_key: [ <column-name>, ... ],
    +partition_by: [ <column-name>, ... ],
    +partition_type: <engine-type>,
    +partition_by_init: [<pertition-init>, ... ]
    +distributed_by: [ <column-name>, ... ],
    +buckets: int,
    +properties: {<key>:<value>,...}

或者在model文件里面写

{{ config(
    materialized = "incremental",
    unique_key = [ "<column-name>", ... ],
    partition_by = [ "<column-name>", ... ],
    partition_type = "<engine-type>",
    partition_by_init = ["<pertition-init>", ... ]
    distributed_by = [ "<column-name>", ... ],
    buckets = "int",
    properties = {"<key>":"<value>",...}
      ...
    ]
) }}

上述配置项详情如下：

配置项	描述	Required?
`materialized`	该表的物化形式（对应创建表模型为明细模型（unique））	Required
`unique_key`	unique表的key列	Required
`partition_by`	表分区列	Optional
`partition_type`	表分区类型，range或list .(default: `RANGE`)	Optional
`partition_by_init`	初始化的表分区	Optional
`distributed_by`	表桶区列	Optional
`buckets`	分桶数量	Optional
`properties`	建表的其他配置	Optional

Logstash SelectDB Output DataX SelectDB Writer