数据湖分析
更新时间:2024-09-19
准备工作
数据源配置
EDAP平台提供跨数据源的交互式分析功能,支持10余种数据源的跨源联邦,包括:EDAP、Hive、Doris、Mysql、Oracle、SQLServer、Greenplum、Hana、Postgresql、Clickhouse等。在使用数据湖分析之前,需要在数据源配置界面为数据源填写Catalog名称,则数据湖分析的元数据目录将展示数据源对应的Catalog名称。
计算资源配置
为实现数据的跨源联邦分析,数据湖分析模块需要使用Trino计算引擎,在使用前需创建一个Serverless资源组集群,并且确保该集群与所查询数据源在同一个VPC下。
语法规范
查询语法遵循标准的SQL语法规范。 注意:在查询数据表时,表名称需要完整写出Catalog名.库名.表名,如果不加Catalog名称,默认查询数据源为EDAP。
操作步骤
创建查询任务
操作步骤:
- 点击左侧导航栏“数据湖分析,新建一个查询任务。
- 在输入框中编写SQL语句,双击左侧数据目录中的表名称,可自动生成查询语句。
- 选择计算资源后,点击执行,将在下方显示执行语句的运行状态、耗时以及对应查询的结果。
备注:每一条执行语句,将产生一条执行结果,可点击【结果n】进行对应查看。
- 查询结果最多显示200条数据,点击下载可将完整数据下载成excel表格。
格式化
点击【格式化】选项,即可对输入框中已有内容进行自动编排格式,按照语法规范产生对应空格。
保存查询任务
操作步骤:
- 点击【另存为】选项,在弹出的“查询另存为”界面,编辑查询名称及其描述。
配置项名称 | 配置项含义 | 使用限制 |
---|---|---|
查询名称 | 自定义查询名称,必填项。 | 只能包含英文字母、数字、中划线和下划线,且以英文字母开头,不大于50个字符。 不可与已有查询名称重复。 |
查询描述 | 自定义查询描述信息,选填项。 | 不可超过256个字符。 |
- 点击【确认】后即可将该查询结果保存,【总览】页面中可根据对应的查询名称找到该结果记录;
- 点击查询名称,可进入查询任务详情页,点击【编辑】可再次打开上图弹窗,重新编辑信息,点击【删除】即可完成删除操作;
- 在【运行历史】中也可查看到此前该查询运行的详细情况记录。