Kakfa数据源

更新时间：2026-07-03

Kafka 数据源支持消息流采集（Kafka）一类 source 插件，以 streaming 作业类型运行，可写入 Iceberg-streaming 等目标端（各目标端插件参数详见各自文档）。本文以 Iceberg-streaming 作为目标端示例。

Kafka 插件类型

插件	plugin_name	_db_pluginId	作业类型	说明
Kafka 消息采集	`Kafka`	`Kafka`	`streaming`	消费 Kafka Topic 消息，支持 JSON/Text/Canal JSON 等多种格式

脚本 Demo 与参数说明

一、准实时任务：Kafka → Iceberg

适用于消费 Kafka Topic 消息并写入 Iceberg 数据湖的场景。作业类型为 streaming，source 使用 Kafka，sink 使用 Iceberg-streaming。

                JSON
                
            

                {
  "_db_jobMeta": {
    "name": "kafka_orders_to_iceberg_streaming",
    "description": "Kafka topic_orders 消费后写入 Iceberg",
    "parentFolderId": "folder_af42_bccdb16a1d00",
    "type": "streaming",
    "mode": "script"
  },
  "env": {
    "job.mode": "STREAMING",
    "parallelism": 1,
    "_db_enableCheckpoint": false
  },
  "source": [
    {
      "plugin_name": "Kafka",
      "_db_pluginId": "Kafka",
      "plugin_output": "source_table",
      "_db_connectionId": "kafka-conn-001",
      "_db_syncMode": "INCREMENT",
      "_db_startingOffset": "latest",
      "_db_startTimestamp": "2026-01-01 00:00:00"
    }
  ],
  "sink": [
    {
      "plugin_name": "Iceberg",
      "_db_pluginId": "Iceberg-streaming",
      "plugin_input": "source_table",
      "_db_sinkPath": "lake.default",
      "_db_catalog": "lake",
      "_db_schema": "default",
      "_db_sinkTableType": "MANAGED"
    }
  ],
  "_db_tableConfigs": [
    {
      "tableIdentity": {
        "sourceTable": "topic_orders",
        "sinkTable": "ods_orders"
      },
      "source": {
        "format": "json",
        "_inter_jsonSample": "{\"id\":1,\"name\":\"demo\",\"amount\":100.0}"
      },
      "mapping": {
        "sourceFields": [
          {
            "name": "id",
            "type": "BIGINT"
          },
          {
            "name": "name",
            "type": "STRING"
          },
          {
            "name": "amount",
            "type": "DOUBLE"
          }
        ]
      },
      "sink": {
        "_db_isAutoCreated": true,
        "_db_sinkNameRule": "SAME",
        "_db_dmlConfig": {
          "insert": "INSERT",
          "update": "UPDATE",
          "delete": "DELETE",
          "logicalDeleteTag": ""
        }
      }
    }
  ]
}
            

Reader 参数：Kafka

source[0] 全局参数

参数	描述	是否必选	默认值
`plugin_name`	SeaTunnel 插件名，固定填 `Kafka`	是	无
`_db_pluginId`	DataBuilder 侧插件 ID，固定填 `Kafka`	是	无
`plugin_output`	Source 输出流名称，需与 sink 的 `plugin_input` 保持一致	是	无
`_db_connectionId`	Kafka 数据源连接 ID	是	无
`_db_startingOffset`	消费起始位置：`latest`（最新位点）/ `earliest`（最早位点）/ `timestamp`（指定时间）	否	`latest`
`_db_startTimestamp`	当 `_db_startingOffset` 为 `timestamp` 时，指定起始消费时间	否	无

表级配置（写入 _db_tableConfigs[i].source）

参数	描述	可选值	默认值
`format`	消息序列化格式	`json` / `text` / `canal_json` / `debezium_json` / `maxwell_json` / `ogg_json`	`json`
`field_delimiter`	消息字段分隔符，`format=text` 时生效	任意字符	`,`

配置编写注意事项

plugin_name 与 _db_pluginId 均为 Kafka：与 JDBC 类插件不同，Kafka 的 plugin_name 和 _db_pluginId 值相同，均为 Kafka。
消息格式与字段映射：format 在 _db_tableConfigs[i].source 中按表配置。使用 json 格式时，需在 mapping.sourceFields 中声明字段名与类型；_inter_jsonSample 仅为前端辅助字段，不写入后端配置。
消费起始位置的选择：
- 首次上线、对历史消息无需求 → latest
- 需从最早消息回刷 → earliest
- 需从特定时间点开始消费 → timestamp，配合 _db_startTimestamp 使用
CDC 格式消息：若 Kafka Topic 中的消息是由 Canal / Debezium / Maxwell / OGG 等工具产生的 CDC 格式，format 需对应填写 canal_json / debezium_json / maxwell_json / ogg_json，DML 写入策略在 _db_tableConfigs[i].sink._db_dmlConfig 中配置。
Kafka 仅支持 streaming 作业：不支持 batch 作业类型，env.job.mode 必须为 STREAMING。

评价此篇文章

有帮助没帮助

DM数据源

DB-数据卷

百度智能云

百度胜算