Blackhole简介和基本用法
所有文档

          全功能AI开发平台 BML

          Blackhole简介和基本用法

          简介

          Blackhole是百度自研的高性能数据科学引擎,CodeLab中内嵌了该引擎。通过异构加速计算、超大数据处理、高效数据存储等技术,单机Blackhole在数据分析和机器学习等场景相比开源Pandas/Sklearn性能可提升6倍以上、拥有10TB的单机超大数据处理能力,同时提供和Pandas、Sklearn基本一致的易用接口。

          Blackhole常用API接口:

          机器学习:https://ai.baidu.com/ai-doc/BML/Dkhemrlzr

          数据分析:https://ai.baidu.com/ai-doc/BML/qkhemrm8o

          Blackhole与Pandas+SKlearn性能对比

          Blackhole在机器学习、数据分析场景下,对比Pandas+SKlearn,加速平均超过6.3倍。如下图所示:

          image.png

          特性

          1. 易用的API接口:

          Blackhole提供了非常类似Pandas和SKlearn的API,让用户没有学习成本。

          2. 高性能数据分析:

          Blackhole利用单机CPU和GPU进行并行及混合计算,享有单机使用的便利性和媲美分布式计算的性能。

          3. 超大数据分析:

          Blackhole利用Out-of-core技术(mmap磁盘映射内存、按需加载、多级存储换入换出等),超越内存数倍的大数据处理。

          4. 高效数据存储

          Blackhole利用Apache Parquet和Apache Arrow的高效磁盘和内存存储,做到数据零拷贝,提升存储、分析效率。

          5. 多场景支持

          Blackhole支持Dataframe数据分析、SQL数据分析、机器学习、数据可视化等场景的加速。

          Blackhole与Pandas+SKlearn使用方式对比

          Blackhole使用方法和Pandas+Sklearn几乎一致,仅需修改包名,即可达到6倍多的加速效果。

          image.png

          使用示例

          Blackhole安装:

          pip install https://blackhole.cdn.bcebos.com/wheel/0.3.2/win-64/blackhole-0.3.1+5.g4015d80.dirty-py3-none-any.whl -i https://mirrors.aliyun.com/pypi/simple/

          Blackhole基本用法:

          下载以下场景的Notebook文件,上传到CodaLab中即可运行。Notebook文件中包含了数据集的详细说明和代码注释。

          场景 下载notebook示例
          airline是否延期超过15m预测 pandas + sklearn: https://codelab-demos.bj.bcebos.com/pandas_competion_airlline.ipynb
          blackhole: https://codelab-demos.bj.bcebos.com/blackhole_competion_airline.ipynb
          天气信息分析 pandas: https://codelab-demos.bj.bcebos.com/pandas_competition_weather.ipynb
          blackhole: https://codelab-demos.bj.bcebos.com/blackhole_competition_weather.ipynb
          NYC Taxi Fare Prediction pandas: https://codelab-demos.bj.bcebos.com/pandas_competition_nyc_taxi.ipynb
          blackhole: https://codelab-demos.bj.bcebos.com/blackhole_competition_nyc_taxi.ipynb
          facebook预测是由机器还是人工进行在线竞标 pandas: https://codelab-demos.bj.bcebos.com/pandas_Exploratory_Analysis_Report_Facebook_Dataset_Kaggle_Problem.ipynb
          blackhole: https://codelab-demos.bj.bcebos.com/blackhole_Exploratory_Analysis_Report_Facebook_Dataset_Kaggle_Problem.ipynb
          飞行员状态预测 pandas + sklearn: https://codelab-demos.bj.bcebos.com/pandas_kaggle_awareness.ipynb
          blackhole: https://codelab-demos.bj.bcebos.com/blackhole_kaggle_awareness.ipynb
          NLF球员获得码数预测数据分析 pandas: https://codelab-demos.bj.bcebos.com/pandas_kaggle_nfl.ipynb
          blackhole: https://codelab-demos.bj.bcebos.com/blackhole_kaggle_nfl.ipynb
          美国人口收入水平预测数据分析 pandas: https://codelab-demos.bj.bcebos.com/pandas_competition_education_2_income.ipynb
          blackhole: https://codelab-demos.bj.bcebos.com/blackhole_competition_education_2_income.ipynb
          希格斯玻色子的信号产生预测 pandas: https://codelab-demos.bj.bcebos.com/pandas_competition_higgs.ipynb
          blackhole:https://codelab-demos.bj.bcebos.com/blackhole_competition_higgs.ipynb
          上一篇
          Monaco编辑器
          下一篇
          本地任务管理