Blackhole1.0使用文档
所有文档

          BML 全功能AI开发平台

          Blackhole1.0使用文档

          简介

          Blackhole是百度自研的高性能数据科学引擎,CodeLab中内嵌了该引擎。通过异构加速计算、超大数据处理、高效数据存储等技术,单机Blackhole在数据分析和机器学习等场景相比开源Pandas/Sklearn性能可提升7倍以上、拥有TB级的单机超大数据处理能力,同时提供和Pandas、Sklearn基本一致的易用接口。

          Blackhole常用API接口:

          机器学习:https://ai.baidu.com/ai-doc/BML/Dkhemrlzr

          数据分析-DataFrame分析:https://ai.baidu.com/ai-doc/BML/qkhemrm8o

          Blackhole与Pandas+SKlearn性能对比

          Blackhole在机器学习、数据分析场景下,对比Pandas+Sklearn,加速平均达到7.0倍。如下图所示:

          image.png

          特性

          1. 易用的API接口:

          Blackhole提供了非常类似Pandas和Sklearn的API,让用户没有学习成本。

          2. 高性能数据分析:

          Blackhole利用单机CPU和GPU进行并行及混合计算,享有单机使用的便利性和媲美分布式计算的性能。

          3. 超大数据分析:

          Blackhole利用Out-of-core技术(mmap磁盘映射内存、按需加载、多级存储换入换出等),超越内存数倍的大数据处理。

          4. 高效数据存储

          Blackhole利用Apache Parquet和Apache Arrow的高效磁盘和内存存储,做到数据零拷贝,提升存储、分析效率。

          5. 多场景支持

          Blackhole支持DataFrame数据分析、SQL数据分析、机器学习、数据可视化等场景的加速。

          Blackhole与Pandas+Sklearn使用方式对比

          Blackhole使用方法和Pandas+Sklearn几乎一致,仅需修改包名,即可达到加速效果。

          image.png

          使用示例

          Blackhole安装:

          • Windows客户端(内置Linux子系统)、Mac客户端、Docker镜像, 依次点击CodeLab的“包管理”-“精选推荐”-“安装” 来装Blackhole库(如下图所示)。 image.png
          • Windows客户端(Windows开发环境),通过pip直接安装:

          pip install https://codelab-agile.bj.bcebos.com/blackhole/merge_ci/v1.0.0rc2/release/blackhole-1.0.0a0+build.1618821439.root-cp37-cp37m-linux_x86_64.tar.gz

          Blackhole基本用法:

          进入CodeLab的默认项目后,就可以看到blackhole-demo目录,里面包含“航班延迟预测”、“NYCtaxi票价预测”等场景的Notebook文件,进入后即可逐行运行demo代码。Notebook文件中包含了数据集的详细说明和代码注释。

          上一篇
          常用快捷键
          下一篇
          项目实践