百度数据工厂Pingo

    传输管理

    传输管理模块的功能主要是将结构化数据与非结构化数据传输到pingo大数据处理系统。

    概念介绍

    • 数据源:指数据传输的来源;
    • 传输任务:每个新建的传输我们称为一个传输任务(对应一个transid),在平台建的批量传输与在调度平台每次调度产生的任务都会产生一个这样的传输任务;
    • 传输节点:一个任务可以被切分成很多partition进行分片传输,每个传输分片在传输系统中我们成为一个节点(node),多个节点传输的结果汇总成最后的传输数据。

    新建数据源

    在配置传输之前,我们需要配置一个传输的数据源,进入传输管理页面,选择数据源。

    当前支持的数据源为百度RDS,包括MySQL、SQL Server、PostgreSQL。填写数据源的基本信息,连接需要传输的数据源。网络连接地址和端口均可从RDS的实例详情页面“网络连接”获取。填写完成之后,需要先进行连接性测试。

    creat-data-source.png

    连接成功之后,点击创建则数据源在Pingo中创建完成,可在数据源列表查看已添加成功的数据源。

    data-source-list.png

    传输任务

    新增传输任务

    数据源连接完成之后,在“传输任务列表”中点击在“新建任务”开始创建传输任务。选择数据源和目标位置,数据源选择之前创建的数据源,数据目标选择Pingo的命名空间和数据库。

    creat-transmission.png

    映射配置源表为数据源中的表数据,目标表为Pingo表管理中的表,在映射之前需要用户在表管理中先创建Schema一致或者字段数目相同的表格,以方便数据映射和传输;如果Schema一致,可以直接勾选“自动映射”,如果不同或者需要修改,则可以进行手动映射。

    creat-transmission-2.png

    填写传输任务信息,并发数目可使传输任务最大限度的利用带宽,使传输更加高效;传输速度由用户自定义上线,最大值不超过带宽。如果是一次性传输任务,选择单次任务,任务将立即运行。

    creat-transmission-3.png

    如果需要例行传输,则选择周期任务,设置传输任务例行的时间,传输任务将按照自定义的策略进行周期调度。周期任务支持全量和增量传输,要实现增量传输,必须在源表中有标示增量的字段,目前仅支持“Datetime”类型的字段。调度周期可按照分钟、小时、天、周、月等各种模版设置策略,也可通过提供Cron表达式的方式自定义更加灵活的传输任务调度策略。

    creat-trans-scheduler.png

    任务设置完成之后,点击“提交”,则传输任务创建成功,可在传输任务列表查看传输任务状态。

    传输任务列表

    传输任务列表可以查看传输任务的状态或者对任务实例进行重试、删除等操作。

    transmission-list.png

    点击任务名称,进入任务详情。任务详情页可以查看任务的基本信息,实例状态和分片信息。对于单次任务,传输任务会生成一条传输实例。

    transmission-detail.png

    如果是周期任务,传输任务会跟进设定的运行周期,产生多条传输实例。

    scheduler-transmission-detail.png

    传输节点列表为每一条传输实例根据数据量自动拆分的传输分片。只有所有分片100%成功传输,传输才算成功,如果分片没有成功可以进行重试。

    transmission-node-detail.png

    传输完成之后,可以在表管理中查看目标表数据,并对传输完成的数据进行查询和使用。

    一篇
    文件管理
    一篇
    批量作业