百度数据工厂Pingo

    产品优势

    统一文件存储抽象

    Pingo的文件管理系统PFS不仅为自身提供文件存储功能,还允许外部文件存储系统的接入,诸如BOS,S3等,均可接入到PFS。同时,PFS抽象了这些不同的外部存储系统,对内提供统一的文件访问接口。(目前暂时只支持BOS接入,后续将陆续支持其他文件系统接入。)

    远端数据加速访问

    PFS可以缓存接入的外部文件系统中的文件,将远端的数据缓存在距离计算节点较近的位置,提供数据的加速访问。

    多计算引擎同时支持

    不仅支持传统的SQL计算引擎,还提供Spark Dataframe,Spark Structed Streaming等业界流行的离线计算框架供用户选择,同时为了照顾习惯于使用SQL的用户方便的使用流式计算,还提供Spark Streaming SQL。

    多种作业提交方式

    提供多种灵活的提交Job方式,包括Jar包,代码片段,以及Java/Scala API,同时支持将即时调试成功的代码一键生成例行作业。

    外部元数据集成

    表管理和文件管理不仅能够提供自身存储的元数据信息,同时能够引入外部的元数据信息,通过引入外部的元数据信息,无需用户手动导入,就能够对原本存储在多个数据仓库中的数据进行联合查询。

    统一批量与流式数据处理

    集成的批量和流式数据处理系统,以统一的接口同时支持流式、批量作业,用户可在Pingo一个系统同时实现批量作业调度和流式数据处理。

    全WEB化操作

    平台级服务,全Web化操作,无需额外下载插件,用户可通过全Web方式进行数据表管理,作业调试,作业创建与例行调度管理。

    多人协作模式开发

    支持分组管理与权限管理,用户可通过分组以及授权机制实现多人协作共同管理开发作业。

    一篇
    产品功能
    一篇
    应用场景