2023-03 |
数据治理场景:- 支持自动解析SQL脚本作业、可视化ETL作业生成血缘关系,支持血缘关系的手动填报。
- 支持表级别和字段级别的血缘关系查询和可视化血缘关系展示。
- 数据质量增加业务报告,支持从主题域、主题视角查看数据质量评估结果。
- 数据建模增加关系建模,支持创建逻辑实体,并配置实体间主外键关联关系。
- 支持根据数据标准自动解析、手动关联落标规则,自动生成质量任务进行落标检查。
- 支持查看数据标准对应的落标报告。
数据湖全场景:- 支持创建Serverless资源,进行数据湖分析。
- 数据集成支持离线数据入湖,数据湖格式支持hudi。
数据开发场景:- 支持对接DTS(Data Transmission Service,数据传输服务)实时读取binlog完成实时数据同步。
- 离线作业开发增加SparkJAR类型,提供JAR、文件、UDF等文件资源管理能力。
- 离线作业组开发支持作业组嵌套调度。
- 数据源管理、数据集成、数据开发支持数据库多版本选择。
|
2022-12 |
数据湖全场景:- 数据湖计算支持Hudi,可使用计算引擎Spark、Flink、Trino对Hudi进行读写计算
- 数据湖选型支持Hive,增加开启数据湖元数据功能,支持对Hive元数据的管理、授权
数据治理场景:- 新增规范设计模块,支持通过主题设计、数仓规划进行数据中台架构设计
- 引入维度建模理论,支持构建维度表和事实表,并设置表间的关联关系
- 支持数据模型的发布、修订、废弃、删除等管理操作
- 模型一键物化,生成物理表结构,支持物化数据源:EDAPDataLake、Hive
- 根据模型自动生成脚本作业,数据开发更加便捷
- 支持创建原子指标、衍生指标、复合指标,并进行指标的发布、修订、废弃、删除等管理操作
- 支持数据指标发布版本记录和版本对比功能
- 支持数据指标的批量导入、导出
- 支持根据衍生指标和复合指标生成汇总表、应用表,完成数据集市建设
数据分析场景:- 增加用户密级设置,实现数据分析场景下,数据动态脱敏流程闭环
数据开发场景:- 数据集成、可视化ETL源端支持国产达梦数据库
- 数据集成引擎重构,支持断点续传checkpoint,性能提升
- 新增数据可视化插件,包括JdbcAction、Filter插件,支持通过可视化插件支持JDBC语句,以及对数据进行条件过滤
- 支持可视化作业、脚本作业独立调度
- FlinkSQL作业SQL语句支持结果实时展示
|
2022-09 |
平台管理:- 用户角色和权限升级,增加平台级权限策略EDAPFullControl(EDAP系统管理员)、EDAPDataManage(EDAP数据管理员)
数据治理场景:- 数据质量规则引擎升级,内置45个质量规则模版,涵盖维度包括完整性、唯一性、有效性、准确性、一致性、及时性,涵盖粒度包括表级、字段级、跨字段级,支持用户自定义SQL模版
- 支持连接数据源进行质量探查,涵盖的数据源类型包括:EDAP数据湖、Hive、Doris、Mysql、Oracle、SqlServer
- 支持数据质量任务开启任务阻塞,防止脏数据污染下游节点
- 增加数据质量任务运维模块,支持查看异常数据,进行问题分析整改
- 引入数据质量评价指标体系,支持对数据源链接、库、表、字段进行定量和定性评价
- 支持质量报告下载功能
|
2022-08 |
数据开发场景:- 可视化ETL支持schema自动推导
- 数据同步支持批量设置目标表分区
- 计算资源支持第三方hadoop集群,支持kerberos认证
- 作业组开发增加数据集成插件,可通过拖拽方式与其他作业节点配置依赖关系
- 修数据功能显示修数据任务实例信息,支持用户通过DAG图选择需要触发的下游节点
数据分析场景:- 支持多源Catalog功能,可进行跨数据源的交互式分析
- 支持数据湖分析任务的创建、执行、查看、下载功能
|
2022-07 |
数据湖全场景:- 支持将BOS对象存储、HDFS作为数据湖存储,进行存储路径的创建和管理
- 支持通过选择已有表和自动建表的方式进行离线数据入湖
- 支持面向数据湖进行统一元数据管理,支持通过可视化、DDL的方式面向数据湖建表
- 支持使用Spark、Flink引擎对数据湖的数据进行离线、实时数据开发
数据治理场景:- 数据标准和公共代码模版升级
- 支持标准的发布、审批、删除、废弃流程,支持批量导入导出
|
2021-06 |
- 平台整体升级,增强在线开发IDE的开发模式,将开发和运维过程进行分离
- 实时计算支持Flink引擎,能够进行FlinkSQL、FlinkJAR的实时作业开发
- 扩展离线计算脚本开发能力,增加HIVESQL脚本、JDBCSQL脚本
- 增加数据标准,允许进行码表、标准、表模板的创建和管理
- 增加数据质量功能,进行质量规则的创建及应用,生成质量报告
- 数据血缘功能显示,支持显示平台表级别数据血缘
|
2020-08 |
支持数据分析,对平台管理的元数据能够进行跨源异购的级联查询 |
2020-05 |
支持监控系统,包括作业监控、数据监控和资源监控 |
2020-04 |
支持数据管理元数据的物理表、映射表的创建,将表统一注册在EDAP平台进行统一的管理。物理表为创建在存储路径上的表,数据存储在存储路径对应的HDFS/对象存储文件上。映射表仅作为数据源中表的查询映射,不在EDAP平台存储数据 |
2019-11 |
- 支持数据管理功能,用户可以将数据源注册到EDAP中
- 支持离线作业、离线作业组功能,进行离线的大数据加工处理
- 支持实时作业的功能,使用SparkStreaming进行实时数据处理
- 支持Hadoop集群的注册管理,并将Hadoop集群作为计算资源池统一管理
|