功能特性
更新时间:2024-09-13
0代码数据集成
多源异构数据的分布式集成工具
- 离线数据同步,数据库、MPP数仓、Nosql、对象存储、HDFS分布式文件系统等异构数据源的定时、周期性同步。
- 实时流采集,支持http ,kafka 实时流数据同步到 DB、MPP数仓、Nosql、对象存储、HDFS分布式文件系统等数据源。
- 数据库准实时,基于CDC 实时捕获同步发生变化的数据。
- Http、Ftp等数据类型的采集同步。
- 数据处理组件,映射、过滤、格式化等数据处理组件,并且支持自定义代码处理。
- 数据源配置组件,源端&目的端、取数据模式可视化配置。
- 可视化拖拽式,拖拽式建立数据集成流水线。
- 传输管理,同步并发数控制等。
数据管理
- 数据湖存储管理:支持接入并管理BOS、HDFS等数据湖存储location。
- 数据源链接管理:支持管理DB、MPP数仓、Nosql等数据源链接。
- 元数据管理:基于物理表、映射表管理各类型数据源系统数据进行统一元数据管理,数据高效查找。
- 数据标签主题:自定义数据主题。
- 数据权限:库、表、列细粒度数据权限管控。
可视化开发Studio
- 离线开发,集成MR、Spark离线数据处理引擎,提供Sparksql、Hsql、python、scala多语言支持。
- 实时流开发,集成Spark-streaming等流计算引擎,支持简易的在线SQL、自定义Jar程序等开发模式,高吞吐低延迟的实时计算,全方位多角度的监控告警机制等
- 可视化开发,拖拽式插件式开发流水线作业,作业组编排同步支持可视化拖拽。
作业调度
- 可视化作业编排,可视化拖拽将作业形成DAG,按照图的顺序依次执行。
- 多任务类型,支持shell ,python ,jar包,HSQL等多种类型。
- 自定义任务类型,支持自定义程序包。
- 周期性调度,月、周、天、小时、分 级别周期性调度。
- 单次执行,立即执行、停止。
- 跳过、失败重试等执行策略设置。
- 支持重跑、添加依赖等高级功能。
交互式分析
- 支持PB级数据高并发实时查询分析,完全兼容PostgreSQL协议。
- 与大数据生态(如:BMR、PALO、BOS)无缝打通,支持海量实时和离线数据的实时分析。
- 多源联邦分析,直接分析RDS、PALO、BMR-HBASE、BOS、BMR-HIVE、BMR-HDFS 等数据仓库、大数据存储的数据。
开放Api
为了灵活的满足企业级用户个性化需求,百度数据湖管理与分析平台EasyDAP开放Api ,支持用户在数据应用上层灵活定制开发,支持用户对作业进行高效运维管理。
- 元数据开放Api , 基于技术元数据的增、删、改、查。
- 项目作业开放Api, 项目作业、作业组执行状态查询等。
云生态打通
- 与BMR无缝对接 , 用户购买弹性、成本低的BMR计算资源, EasyDAP作业提交到BMR计算资源上降低客户成本。此外,支持BMR数据的离线、实时分析。
- 与BOS存储无缝对接,用户购买存储成本低廉的BOS存储作为EasyDAP的数据湖存储,降低客户成本。此外,支持BOS数据的离线、实时分析。
- 与SUGAR数据可视化无缝对接,将EasyDAP管理、开发分析的数据高效实现数据可视化。
- 与RDS、DRDS、FusionDB、PALO 等数据源系统打通,实现异构数据源的数据集成、交换、分析。