数据源管理
所有文档
menu

百度数据湖管理与分析平台 EDAP

数据源管理

概述

功能介绍

EDPA支持接入十余种数据源类型,包括常见的关系型数据库、非关系型数据库、大数据存储、半结构化存储等。用户可以在源连接管理界面创建与管理源连接,以便后续进行数据同步,实现企业多源异构数据源的数据汇聚。

支持的数据源类型:

数据源类型 数据源类型名称
关系型数据库 MySQL、Oracle、SQLServer、Hana、PostgreSQL、Doris、Greenplum、TiDB
非关系型数据库 Redis、MongoDB、ElasticSearch、Memcached
大数据存储 Hive、HBase、ClickHouse
半结构化存储 FTP
其他 百度云TSDB

角色、职责和权限

角色 职责描述 功能权限
系统管理员 拥有EDAP最高权限。 ·全部功能权限
数据管理人员 负责EDAP平台数据源管理,拥有所有数据源的最高权限,进行数据源权限管理。 ·创建数据源链接
·查看、管理所有数据源连接
普通用户 在权限范围内,访问数据源进行数据集成、数据开发相关操作。 ·在权限范围进行数据源访问、操作

源连接的管理

新增数据源

创建源连接是数据接入的第一步,所有接入的数据源都将在「源连接管理」中进行统一管理。源连接中存储了所有建立数据源连接的信息,通过提供正确的源连接名称,用户可以找到相应的数据源连接。

操作步骤:

  1. 单击“数据源管理 - 源链接管理”,进入源链接管理界面;

image.png

  1. 单击“新建源链接”,选择所需创建的数据源类型;

image.png

  1. 填写表单项,完成数据源连接配置;
  2. 单击“测试连通性”,测试通过后,单击“确认”完成数据源的新建。

创建ORACLE数据源

  1. 进入源连接管理页面。
  2. 在源连接管理页面,单击左上角的新增源连接。
  3. 在新增数据源弹框中,选择关系性数据库类型中的Oracle。
  4. 在新增Oracle数据源弹框中,配置各项参数。
参数 描述
数据源名称 数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。
数据源描述 对数据源进行简单描述,不得超过80个字符。
catalog名称 数据源用户数据湖分析时的唯一标识符,以字母、数字、下划线组合,且不能以数字和下划线开头。
主机 数据库对用的主机名。
端口 数据库对应端口号。
SID Oracle数据库的对应的oracle system ID。
用户名 数据库对应的用户名。
密码 数据库对应的密码。
数据源版本 默认支持oracle11g,可下拉选择oracle11g、oracle12c、oracle18c、oracle19c。
VPC 私有网络(Virtual private Cloud,VPC) 是一个用户能够自定义的虚拟网络,能够帮助用户构建属于自己的网络环境。

创建HBASE数据源

  1. 进入源连接管理页面。
  2. 在源连接管理页面,单击左上角的新增源连接。
  3. 在新增数据源弹框中,选择大数据存储类型中的Hbase。
  4. 在新增Hbase数据源弹框中,配置各项参数。
参数 描述
数据源名称 数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。
数据源描述 对数据源进行简单描述,不得超过80个字符。
catalog名称 数据源用户数据湖分析时的唯一标识符,以字母、数字、下划线组合,且不能以数字和下划线开头。
zookeeper的url hbase所注册的zookeeper地址,例master-78d2977:2181。
zNode根路径 hbase注册zk中的节点名,可从hbase-site.xml配置中获取,默认为“/hbase”。
认证类型 支持SIMPLE和KERNEROS两种模式。
kdc host 密钥分发中心主机地址。
参与者 Kerberos系统中的唯一身份。
keytab文件 Kerberos Keytab 文件包含 Kerberos 主体名称和DES加密密钥之间的映射,这些密钥源自用于登录Kerberos密钥分发中心 (KDC) 的密码。
VPC 私有网络(Virtual private Cloud,VPC) 是一个用户能够自定义的虚拟网络,能够帮助用户构建属于自己的网络环境。

创建HIVE数据源

  1. 进入源连接管理页面。
  2. 源连接管理页面,单击左上角的新增源连接
  3. 新增数据源弹框中,选择大数据存储类型中的Hive
  4. 新增Hive数据源弹框中,配置各项参数。
参数 描述
数据源名称 数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。
数据源描述 对数据源进行简单描述,不得超过80个字符。
catalog名称 数据源用户数据湖分析时的唯一标识符,以字母、数字、下划线组合,且不能以数字和下划线开头。
jbdcUrl 使用JDBC连接到HiveServer2的地址,格式为jdbc:hive2://:/
hive集群 hive集群所在资源,即edap资源管理中心中对应的资源名。
安全模式 hive集群是否开启了Kerberos认证。
metastoreUris hive服务设为使用远程 metastore 服务器的URI的格式为:thrift://host:port,可从配置项hive.metastore.uris中获取。
数据湖启用Hive元数据 是否将该hive源的数据纳管入edap数据湖。
VPC 私有网络(Virtual private Cloud,VPC) 是一个用户能够自定义的虚拟网络,能够帮助用户构建属于自己的网络环境。

创建Elasticsearch数据源

  1. 进入源连接管理页面。
  2. 在源连接管理页面,单击左上角的新增源连接。
  3. 在新增数据源弹框中,选择大数据存储类型中的Elasticsearch。
  4. 在新增Elasticsearch数据源弹框中,配置各项参数。
参数 描述
数据源名称 数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。
数据源描述 对数据源进行简单描述,不得超过80个字符。
catalog名称 数据源用户数据湖分析时的唯一标识符,以字母、数字、下划线组合,且不能以数字和下划线开头。
endpoint 格式为 http://host:porthttps://host:port
用户名 数据库对应的用户名。
密码 数据库对应的密码。
安全模式 hive集群是否开启了Kerberos认证。
是否开启HTTPS认证 即访问方式是网络协议为https。
keyStore路径 keystore file的路径,可上传至bos的某个路径下。 HTTPS需要 SSL证书。当您生成 SSL 证书时,您正在创建一个密钥库文件( keystore file)和一个密钥库密码( keystore password),以便连接时使用。
keyStore密码 当您生成 SSL 证书时,您正在创建一个密钥库文件( keystore file)和一个密钥库密码( keystore password),以便连接时使用.
trustStore路径 trustStore file路径,可上传至bos的某个路径下 TrustStore仅包含客户端信任的证书。
trustStore密码 访问trustStore的密码。
VPC 私有网络(Virtual private Cloud,VPC) 是一个用户能够自定义的虚拟网络,能够帮助用户构建属于自己的网络环境。

管理数据源

编辑数据源

在源连接界面的每一个条目的右侧可见编辑按钮,通过单击编辑按钮可在界面弹窗中可对本数据源进行编辑。

源连接删除

在源连接界面的每一个条目的右侧可见删除按钮,通过单击删除按钮即可对单个源连接进行删除。

image.png

同时也可以通过勾选每个源连接条目,后单击左上角的删除按钮进行批量删除。 注:针对hive数据源类型的源连接,若源连接关联一个元数据同步任务时将无法进行删除。

网络联通性保障

测试连通性目的为测试每种数据源的连通性,以保证数据源信息的正确性,以及后续数据源工具和数据集成任务可以正常使用与运行。

网络通联时,界面右上方会弹出相应的反馈框。反之,当网络不通畅是会针对在右上角弹窗给出失败原因。

上一篇
资源管理
下一篇
权限管理