百度智能云

搜索本产品文档关键词

所有文档

没有找到结果，请重新输入

百度数据湖管理与分析平台 EDAP

功能特性

更新时间：2024-09-13

0代码数据集成

多源异构数据的分布式集成工具

离线数据同步，数据库、MPP数仓、Nosql、对象存储、HDFS分布式文件系统等异构数据源的定时、周期性同步。
实时流采集，支持http ,kafka 实时流数据同步到 DB、MPP数仓、Nosql、对象存储、HDFS分布式文件系统等数据源。
数据库准实时，基于CDC 实时捕获同步发生变化的数据。
Http、Ftp等数据类型的采集同步。
数据处理组件，映射、过滤、格式化等数据处理组件，并且支持自定义代码处理。
数据源配置组件，源端&目的端、取数据模式可视化配置。
可视化拖拽式，拖拽式建立数据集成流水线。
传输管理，同步并发数控制等。

数据管理

数据湖存储管理：支持接入并管理BOS、HDFS等数据湖存储location。
数据源链接管理：支持管理DB、MPP数仓、Nosql等数据源链接。
元数据管理：基于物理表、映射表管理各类型数据源系统数据进行统一元数据管理，数据高效查找。
数据标签主题：自定义数据主题。
数据权限：库、表、列细粒度数据权限管控。

可视化开发Studio

离线开发，集成MR、Spark离线数据处理引擎，提供Sparksql、Hsql、python、scala多语言支持。
实时流开发，集成Spark-streaming等流计算引擎，支持简易的在线SQL、自定义Jar程序等开发模式，高吞吐低延迟的实时计算，全方位多角度的监控告警机制等
可视化开发，拖拽式插件式开发流水线作业，作业组编排同步支持可视化拖拽。

作业调度

可视化作业编排，可视化拖拽将作业形成DAG，按照图的顺序依次执行。
多任务类型，支持shell ,python ,jar包,HSQL等多种类型。
自定义任务类型，支持自定义程序包。
周期性调度，月、周、天、小时、分级别周期性调度。
单次执行，立即执行、停止。
跳过、失败重试等执行策略设置。
支持重跑、添加依赖等高级功能。

交互式分析

支持PB级数据高并发实时查询分析，完全兼容PostgreSQL协议。
与大数据生态（如：BMR、PALO、BOS）无缝打通，支持海量实时和离线数据的实时分析。
多源联邦分析，直接分析RDS、PALO、BMR-HBASE、BOS、BMR-HIVE、BMR-HDFS 等数据仓库、大数据存储的数据。

开放Api

为了灵活的满足企业级用户个性化需求，百度数据湖管理与分析平台EasyDAP开放Api ,支持用户在数据应用上层灵活定制开发，支持用户对作业进行高效运维管理。

元数据开放Api , 基于技术元数据的增、删、改、查。
项目作业开放Api, 项目作业、作业组执行状态查询等。

云生态打通

与BMR无缝对接 , 用户购买弹性、成本低的BMR计算资源， EasyDAP作业提交到BMR计算资源上降低客户成本。此外，支持BMR数据的离线、实时分析。
与BOS存储无缝对接,用户购买存储成本低廉的BOS存储作为EasyDAP的数据湖存储，降低客户成本。此外，支持BOS数据的离线、实时分析。
与SUGAR数据可视化无缝对接，将EasyDAP管理、开发分析的数据高效实现数据可视化。
与RDS、DRDS、FusionDB、PALO 等数据源系统打通，实现异构数据源的数据集成、交换、分析。

评价此篇文章

有帮助没帮助

DataBuilder 与 EasyDAP 产品关系说明