数据工厂Pingo

集成的批量和流式数据处理系统,以统一的接口支持流式、批量作业,提供交互式SQL分析和例行调度,让您更方便编写和提交ETL程序,高效执行大数据计算程序,让大数据处理变得如此简单。

产品概述

Pingo是集成的批量和流式数据处理系统,它在弹性计算资源管理和改进的数据访问管理层之上,运行优化的Spark计算引擎,提供SQL分析和DataFrame API,支持低延时的批量和流式数据加工和处理,对外提供REST Service任务执行接口。

产品功能

ETL
支持SQL及Spark DataFrame API编写ETL程序,支持Java、Python、Scala编写的第三方或者本地代码。
任务调度
支持ETL工作流例行调度,支持按指定周期定时执行作业以及创建依赖作业触发自动执行。
外部数据访问
支持JDBC、ODBC、数据API的方式进行外部数据访问,支持从HDFS、BOS等直接读取数据进行计算。
交互式代码调试
Pingo-Notebook提供了SQL-Kernel,允许用户在Notebook中直接书写SQL进行查询,支持写入多行SQL。

产品优势

自动化的集群管理能力
快速创建新计算集群,支持动态扩容,有效降低成本,提供快速、简单、可扩展的数据计算服务。
多种计算引擎兼容
支持批量计算和流式计算,提供SQL计算引擎和Spark Dataframe、Spark Streaming等计算框架,且支持Streaming SQL。
多存储后端数据联合查询
提供存储资源接入层,不仅自身具备文件存储能力,还能无缝接入多种外部存储系统,支持BOS、HDFS等存储资源数据接入Pingo。
多结构化元数据管理
提供自建表和同步表的元数据管理,完善的元数据权限管理功能,保护用户数据不被轻易删除的同时,能让数据安全执行联合查询。

客户案例

千千音乐

千千音乐的应用需求是构建数据仓库与数据分析应用,Pingo帮助其实现了业务数据、客户数据的整合,帮助客户实现了若干数据分析主题,助力其快速构建数据应用。

百信银行

Pingo提供的集成批量与流式数据处理平台,帮助客户实现数据清洗和归类,使之专注于业务数据处理而不需要过多的关注底层技术构建,从而使数据处理更简易、更高效。

度小满金融

Pingo为度小满金融提供的作业调度,帮助用户每日的数据处理程序自动例行运行,作业流依赖自动触发,并自动存储运行结果,减少用户干预程度、提高日常工作效率。

相关产品

Elasticsearch

开源的全文检索和分析引擎Elasticsearch的托管服务
了解详情

数据仓库Palo

基于Apache Doris构建的企业级MPP云数据仓库
了解详情