数据源管理
更新时间:2024-09-19
概述
功能介绍
EDPA支持接入十余种数据源类型,包括常见的关系型数据库、非关系型数据库、大数据存储、半结构化存储等。用户可以在源连接管理界面创建与管理源连接,以便后续进行数据同步,实现企业多源异构数据源的数据汇聚。
支持的数据源类型:
数据源类型 | 数据源类型名称 |
---|---|
关系型数据库 | MySQL、Oracle、SQLServer、Hana、PostgreSQL、Doris、Greenplum、TiDB |
非关系型数据库 | Redis、MongoDB、ElasticSearch、Memcached |
大数据存储 | Hive、HBase、ClickHouse |
半结构化存储 | FTP |
其他 | 百度云TSDB |
角色、职责和权限
角色 | 职责描述 | 功能权限 |
---|---|---|
系统管理员 | 拥有EDAP最高权限。 | ·全部功能权限 |
数据管理人员 | 负责EDAP平台数据源管理,拥有所有数据源的最高权限,进行数据源权限管理。 | ·创建数据源链接 ·查看、管理所有数据源连接 |
普通用户 | 在权限范围内,访问数据源进行数据集成、数据开发相关操作。 | ·在权限范围进行数据源访问、操作 |
源连接的管理
新增数据源
创建源连接是数据接入的第一步,所有接入的数据源都将在「源连接管理」中进行统一管理。源连接中存储了所有建立数据源连接的信息,通过提供正确的源连接名称,用户可以找到相应的数据源连接。
操作步骤:
- 单击“数据源管理 - 源链接管理”,进入源链接管理界面;
- 单击“新建源链接”,选择所需创建的数据源类型;
- 填写表单项,完成数据源连接配置;
- 单击“测试连通性”,测试通过后,单击“确认”完成数据源的新建。
创建ORACLE数据源
- 进入源连接管理页面。
- 在源连接管理页面,单击左上角的新增源连接。
- 在新增数据源弹框中,选择关系性数据库类型中的Oracle。
- 在新增Oracle数据源弹框中,配置各项参数。
参数 | 描述 |
---|---|
数据源名称 | 数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。 |
数据源描述 | 对数据源进行简单描述,不得超过80个字符。 |
catalog名称 | 数据源用户数据湖分析时的唯一标识符,以字母、数字、下划线组合,且不能以数字和下划线开头。 |
主机 | 数据库对用的主机名。 |
端口 | 数据库对应端口号。 |
SID | Oracle数据库的对应的oracle system ID。 |
用户名 | 数据库对应的用户名。 |
密码 | 数据库对应的密码。 |
数据源版本 | 默认支持oracle11g,可下拉选择oracle11g、oracle12c、oracle18c、oracle19c。 |
VPC | 私有网络(Virtual private Cloud,VPC) 是一个用户能够自定义的虚拟网络,能够帮助用户构建属于自己的网络环境。 |
创建HBASE数据源
- 进入源连接管理页面。
- 在源连接管理页面,单击左上角的新增源连接。
- 在新增数据源弹框中,选择大数据存储类型中的Hbase。
- 在新增Hbase数据源弹框中,配置各项参数。
参数 | 描述 |
---|---|
数据源名称 | 数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。 |
数据源描述 | 对数据源进行简单描述,不得超过80个字符。 |
catalog名称 | 数据源用户数据湖分析时的唯一标识符,以字母、数字、下划线组合,且不能以数字和下划线开头。 |
zookeeper的url | hbase所注册的zookeeper地址,例master-78d2977:2181。 |
zNode根路径 | hbase注册zk中的节点名,可从hbase-site.xml配置中获取,默认为“/hbase”。 |
认证类型 | 支持SIMPLE和KERNEROS两种模式。 |
kdc host | 密钥分发中心主机地址。 |
参与者 | Kerberos系统中的唯一身份。 |
keytab文件 | Kerberos Keytab 文件包含 Kerberos 主体名称和DES加密密钥之间的映射,这些密钥源自用于登录Kerberos密钥分发中心 (KDC) 的密码。 |
VPC | 私有网络(Virtual private Cloud,VPC) 是一个用户能够自定义的虚拟网络,能够帮助用户构建属于自己的网络环境。 |
创建HIVE数据源
- 进入源连接管理页面。
- 在源连接管理页面,单击左上角的新增源连接。
- 在新增数据源弹框中,选择大数据存储类型中的Hive。
- 在新增Hive数据源弹框中,配置各项参数。
参数 | 描述 |
---|---|
数据源名称 | 数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。 |
数据源描述 | 对数据源进行简单描述,不得超过80个字符。 |
catalog名称 | 数据源用户数据湖分析时的唯一标识符,以字母、数字、下划线组合,且不能以数字和下划线开头。 |
jbdcUrl | 使用JDBC连接到HiveServer2的地址,格式为jdbc:hive2:// |
hive集群 | hive集群所在资源,即edap资源管理中心中对应的资源名。 |
安全模式 | hive集群是否开启了Kerberos认证。 |
metastoreUris | hive服务设为使用远程 metastore 服务器的URI的格式为:thrift://host:port,可从配置项hive.metastore.uris中获取。 |
数据湖启用Hive元数据 | 是否将该hive源的数据纳管入edap数据湖。 |
VPC | 私有网络(Virtual private Cloud,VPC) 是一个用户能够自定义的虚拟网络,能够帮助用户构建属于自己的网络环境。 |
创建Elasticsearch数据源
- 进入源连接管理页面。
- 在源连接管理页面,单击左上角的新增源连接。
- 在新增数据源弹框中,选择大数据存储类型中的Elasticsearch。
- 在新增Elasticsearch数据源弹框中,配置各项参数。
参数 | 描述 |
---|---|
数据源名称 | 数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。 |
数据源描述 | 对数据源进行简单描述,不得超过80个字符。 |
catalog名称 | 数据源用户数据湖分析时的唯一标识符,以字母、数字、下划线组合,且不能以数字和下划线开头。 |
endpoint | 格式为 http://host:port 或https://host:port 。 |
用户名 | 数据库对应的用户名。 |
密码 | 数据库对应的密码。 |
安全模式 | hive集群是否开启了Kerberos认证。 |
是否开启HTTPS认证 | 即访问方式是网络协议为https。 |
keyStore路径 | keystore file的路径,可上传至bos的某个路径下。 HTTPS需要 SSL证书。当您生成 SSL 证书时,您正在创建一个密钥库文件( keystore file)和一个密钥库密码( keystore password),以便连接时使用。 |
keyStore密码 | 当您生成 SSL 证书时,您正在创建一个密钥库文件( keystore file)和一个密钥库密码( keystore password),以便连接时使用. |
trustStore路径 | trustStore file路径,可上传至bos的某个路径下 TrustStore仅包含客户端信任的证书。 |
trustStore密码 | 访问trustStore的密码。 |
VPC | 私有网络(Virtual private Cloud,VPC) 是一个用户能够自定义的虚拟网络,能够帮助用户构建属于自己的网络环境。 |
管理数据源
编辑数据源
在源连接界面的每一个条目的右侧可见编辑按钮,通过单击编辑按钮可在界面弹窗中可对本数据源进行编辑。
源连接删除
在源连接界面的每一个条目的右侧可见删除按钮,通过单击删除按钮即可对单个源连接进行删除。
同时也可以通过勾选每个源连接条目,后单击左上角的删除按钮进行批量删除。 注:针对hive数据源类型的源连接,若源连接关联一个元数据同步任务时将无法进行删除。
网络联通性保障
测试连通性目的为测试每种数据源的连通性,以保证数据源信息的正确性,以及后续数据源工具和数据集成任务可以正常使用与运行。
网络通联时,界面右上方会弹出相应的反馈框。反之,当网络不通畅是会针对在右上角弹窗给出失败原因。