使用RAPIDS加速数据科学任务
更新时间:2023-07-21
背景介绍
本文介绍如何在GPU云服务环境中下载、安装并使用RAPIDS软件库。
RAPIDS是一套开源的软件库,旨在提供给用户一整套能够完全在GPU上执行的端到端的数据科学及其分析的API调用。它面向解析和数据科学中的常规数据处理任务,囊括了多种端到端的机器学习算法。且不用耗费更多的开销就可以轻松实现加速。对多节点,多GPU的部署使其可以轻松的实现在更大尺度的数据集上完成训练和加速任务。
RAPIDS的详细介绍可参考链接
应用特点
数据预处理/ETL(Extract-Transform-Load)
- CuDF: 类似pandas的dataframe的操作库,包含GPU加速的ETL函数,可集成Dask与可扩展UCX
机器学习与图计算
- CuML:GPU原生的机器学习库,包含XGBoost,FIL,HPO等常见机器学习库
- cuGraph:GPU图解析,包括TSP,PageRank等常见图计算相关的库
可视化
- cuxfilter:GPU加速的交叉过滤
- pyViz集成:Plotly Dash,Bokenh,Datashader,HoloViews,hvPlot等
应用相关计算
与具体业务场景或特定领域强相关的一些软件库,包括:
- cuSignal:信号处理
- cuSpatial:空间解析
- CLX+Morpheus:网络日志处理+异常检测
- cuStreamz:流式化解析
- cuCIM:计算机视觉和图像处理的源语
- node-RAPIDS:用于node.js的绑定
获取RAPIDS
推荐您使用RAPIDS的container,可以通过注册NGC之后进行拉取,NGC的操作方法详见 基于GPU实例部署NGC环境 。 获取NGC环境之后,在页面中搜索RAPIDS即可获取链接