百度智能云

搜索本产品文档关键词

所有文档

没有找到结果，请重新输入

百度数据湖管理与分析平台 EDAP

功能发布记录(2023年及之前)

更新时间：2024-08-30

发布时间	功能描述
2023-12	完善作业监控告警能力：数据开发、集成任务执行状态监控对接大数据私有化门户，完善监控告警能力。数据质量评分支持自定义:支持『未设置默认得分』和『每设置一项规则得分』的自定义配置，满足数据质量的个性化配置需求复合指标逻辑完善：增加全局维度，支持两个或多个原子指标直接生成复合指标，完善复合指标的生产逻辑。易用性提升：数据集成增加前置检查、未配置调度的作业组也支持修数据、文件管理可上传文件大小支持配置、数据建模ER图支持显示表中文名、元数据管理左侧目录宽度可调整、作业实例页面筛选项优化
2023-10	Serverless资源组升级，支持数据开发场景。Serverless资源组支持在FlinkSQL、SparkSQL作业开发中使用，提供Job级别的弹性伸缩能力。数据建模逆向数据库能力增强。支持将数据湖EDAPDataLake、数据仓库Hive中已有数据表一键逆向为模型，提高批量建模效率。公有云数据服务强化API管理能力。支持将EDAP中的API一键发布到API网关，进行API授权、调用、流量控制等管理操作，提高数据流通管控能力。全新发布数据开发作业运维大屏。新增多维度作业调度和运行指标展示，提高一站式数据开发、运维效率。系统管控灵活度提升，支持自定义用户角色。企业可根据人员职责分工自定义所需的系统角色并配置权限，实现对功能权限的灵活控制。数据权限重构升级。支持多角色间申请、审核流程，加强细粒度数据权限管控。实时数据同步能力增强。支持批量配置数据表属性，支持面向Doris自动建表。数据质量提升任务运维能力。支持自定义规则模板生成异常数据，便于进行问题数据定位数据湖分析支持后台配置下载条目数量等。
2023-9	系统安全性全面升级，支持开启Kerberos认证。底层计算存储集群支持开启Kerberos认证，进一步提高系统安全性保障。产品国际化升级，支持拓展国际化商业路径。支持一键切换产品中英文版本。
2023-7	数据集成实时入湖，完成流批一体架构升级。支持数据实时入湖。支持对接数据传输服务DTS，实现Hudi数据湖增量更新，进一步满足源端为Kafka等实时数据源的场景的数据入湖需求。【数据安全全面提升，强化平台安全管控】数据脱敏算法丰富。新增支持哈希、遮掩、截断、脱敏、加密脱敏算法，支持国密算法SM2、SM3、SM4。支持数据静态脱敏。加强在数据共享场景下的隐私保护能力，提升数据流通共享的安全性。数据服务增加向导模式。支持以可视化界面的方式创建API，进一步降低用户的使用门槛。支持用户自定义UDF函数并进行管理和使用，辅助提升作业开发效率。数据开发支持Python版本（Python2、Python3）选择，提升版本间作业兼容性。元数据类型拓展，增加Array、Struct等复杂数据类型。
2023-03	支持自动解析SQL脚本作业、可视化ETL作业生成血缘关系，支持血缘关系的手动填报。支持表级别和字段级别的血缘关系查询和可视化血缘关系展示。数据质量增加业务报告，支持从主题域、主题视角查看数据质量评估结果。数据建模增加关系建模，支持创建逻辑实体，并配置实体间主外键关联关系。支持根据数据标准自动解析、手动关联落标规则，自动生成质量任务进行落标检查。支持查看数据标准对应的落标报告。支持创建Serverless资源，进行数据湖分析。数据集成支持离线数据入湖，数据湖格式支持hudi。支持对接DTS（Data Transmission Service，数据传输服务）实时读取binlog完成实时数据同步。离线作业开发增加SparkJAR类型，提供JAR、文件、UDF等文件资源管理能力。离线作业组开发支持作业组嵌套调度。数据源管理、数据集成、数据开发支持数据库多版本选择。
2022-12	数据湖计算支持Hudi，可使用计算引擎Spark、Flink、Trino对Hudi进行读写计算数据湖选型支持Hive，增加开启数据湖元数据功能，支持对Hive元数据的管理、授权新增规范设计模块，支持通过主题设计、数仓规划进行数据中台架构设计引入维度建模理论，支持构建维度表和事实表，并设置表间的关联关系支持数据模型的发布、修订、废弃、删除等管理操作模型一键物化，生成物理表结构，支持物化数据源：EDAPDataLake、Hive 根据模型自动生成脚本作业，数据开发更加便捷支持创建原子指标、衍生指标、复合指标，并进行指标的发布、修订、废弃、删除等管理操作支持数据指标发布版本记录和版本对比功能支持数据指标的批量导入、导出支持根据衍生指标和复合指标生成汇总表、应用表，完成数据集市建设增加用户密级设置，实现数据分析场景下，数据动态脱敏流程闭环数据集成、可视化ETL源端支持国产达梦数据库数据集成引擎重构，支持断点续传checkpoint，性能提升新增数据可视化插件，包括JdbcAction、Filter插件，支持通过可视化插件支持JDBC语句，以及对数据进行条件过滤支持可视化作业、脚本作业独立调度 FlinkSQL作业SQL语句支持结果实时展。
2022-08	用户角色和权限升级，增加平台级权限策略EDAPFullControl（EDAP系统管理员）、EDAPDataManage（EDAP数据管理员）数据质量规则引擎升级，内置45个质量规则模版，涵盖维度包括完整性、唯一性、有效性、准确性、一致性、及时性，涵盖粒度包括表级、字段级、跨字段级，支持用户自定义SQL模版支持连接数据源进行质量探查，涵盖的数据源类型包括：EDAP数据湖、Hive、Doris、Mysql、Oracle、SqlServer 支持数据质量任务开启任务阻塞，防止脏数据污染下游节点增加数据质量任务运维模块，支持查看异常数据，进行问题分析整改引入数据质量评价指标体系，支持对数据源链接、库、表、字段进行定量和定性评价支持质量报告下载功能
2022-09	可视化ETL支持schema自动推导数据同步支持批量设置目标表分区计算资源支持第三方hadoop集群，支持kerberos认证作业组开发增加数据集成插件，可通过拖拽方式与其他作业节点配置依赖关系修数据功能显示修数据任务实例信息，支持用户通过DAG图选择需要触发的下游节点支持多源Catalog功能，可进行跨数据源的交互式分析支持数据湖分析任务的创建、执行、查看、下载功能
2022-07	支持将BOS对象存储、HDFS作为数据湖存储，进行存储路径的创建和管理支持通过选择已有表和自动建表的方式进行离线数据入湖支持面向数据湖进行统一元数据管理，支持通过可视化、DDL的方式面向数据湖建表支持使用Spark、Flink引擎对数据湖的数据进行离线、实时数据开发数据标准和公共代码模版升级支持标准的发布、审批、删除、废弃流程，支持批量导入导出
2021-06	平台整体升级，增强在线开发IDE的开发模式，将开发和运维过程进行分离实时计算支持Flink引擎，能够进行FlinkSQL、FlinkJAR的实时作业开发扩展离线计算脚本开发能力，增加HIVESQL脚本、JDBCSQL脚本增加数据标准，允许进行码表、标准、表模板的创建和管理增加数据质量功能，进行质量规则的创建及应用，生成质量报告数据血缘功能显示，支持显示平台表级别数据血缘
2020-08	支持数据分析，对平台管理的元数据能够进行跨源异购的级联查询
2020-05	支持监控系统，包括作业监控、数据监控和资源监控
2020-04	支持数据管理元数据的物理表、映射表的创建，将表统一注册在EDAP平台进行统一的管理。物理表为创建在存储路径上的表，数据存储在存储路径对应的HDFS/对象存储文件上。映射表仅作为数据源中表的查询映射，不在EDAP平台存储数据
2020-05	支持监控系统，包括作业监控、数据监控和资源监控
2019-11	支持数据管理功能，用户可以将数据源注册到EDAP中支持离线作业、离线作业组功能，进行离线的大数据加工处理支持实时作业的功能，使用SparkStreaming进行实时数据处理支持Hadoop集群的注册管理，并将Hadoop集群作为计算资源池统一管理

功能发布记录（2024年）