百度数据科学平台

    工作区

    点击左侧“工作区”,展示工作区的主页面,如下所示:

    在工作区,用户可以根据需求启动所需的工作环境,目前Jarvis支持两种工作环境。一是交互式代码环境——Jupyter;二是交互式组件环境——H2O。

    每个工作区就是一个session,相互独立和隔离的。

    启动工作区

    启动工作区有两个途径,一个是上节提到的通过文件功能中的运行来触发;二是通过“启动工作区”按钮来触发。点击工作区类型,就会启动,大约30秒左右,启动完成后,就能在工作区列表中找到已经启动的工作区,其状态应该是“运行中”。

    工作区session启动,需要一定时间,一般30秒左右,打开过程中,会出现如下启动等待页面。

    工作区列表操作

    工作区列表会显示所有已经或者曾经启动的工作区,直到它被删除。

    每个工作区条目会显示工作区的名称,创建日期以及当前的运行状态。

    选中一个工作区条目,如果能够被删除,会显示“垃圾桶”图标,点击,会触发删除操作,确认删除后,该工作区将被删除。

    工作区详情操作

    在工作区主界面点击工作区列表中的任意一个条目,右侧会显示这个工作区的详情。

    • “基本信息” tab页面会显示这个工作区session的配置信息,如资源信息和软件配置。
    • “运行日志”tab页面,会显示这个工作区的详细日志,可以根据日志进行错误排查。

    右上角有操作按钮,如果工作区session处于运行中状态,会出现两个按钮:一个是“open session”;另一个是“停止”。

    • 点击“open session”,会打开新的页面,进入工作区session页面,Jarvis支Jupyter和H2O两种。
    • 点击“停止”,会将工作区的session停止,并释放其占用的硬件资源。

    工作区操作

    打开session页面后,左侧的部分是Jarvis提供的控制工具栏。点击工具栏,工具栏会展开如下图:

    其主要有如下几部分功能:

    1. session停止

      可以停止当前的session,功能作用等同于2.5.3节描述的“停止”按钮

    2. session同步/拉新

      • 工作区session在启动时,会将文件中的code目录同步到工作区,这里提供的“同步”/“拉新”功能用于工作区session和文件同步的。
      • 当你工作区中有文件更新,希望同步到“文件”区以保存,点击“同步”,一旦点击同步,就可以在文件列表中发现这个文件的新增或变更操作被同步了。
      • 当你在“文件”中上传了新的文件,希望同步到工作区session中,点击“拉取最新文件”就能达到目的。
    3. 未同步文件展示

      这里会展示工作区session本地最新的变化文件(原理同代码管理)列表,当你点击“同步”后,这些变更会被同步到“文件”中。

    4. 日志展示

      展示这个工作区session的日志信息,功能同2.5.3节所描述的“日志”tab页面。

    Jupyter工作区操作

    下图是打开jupyter session的session页面。

    中间的部分是原生的jupyter页面。

    在这里,你可以使用python来实现你想做的事情,可以清洗数据,可以训练模型,可以导出模型,也可以画图。

    为了和Jarvis交互(导入/导出数据集/模型),Jarvis提供一套python lib来支持。具体参见对应节描述。

    切换kernel

    Jarvis为Jupyter环境新增了H2O kernel、pyspark kernel和spark kernel,通过切换kernel操作,可以直接使用H2O和spark的能力。

    H2O工作区操作

    下图是打开h2o session的session页面。

    除了左侧工具栏,中的部分是原生的h2o页面。

    其中的importFiles和model export被改造过,可以与Jarvis交互(导入导出数据集/模型),这里不需要专门了解Jarvis Python Lib。

    这里H2O提供了12个Routine,可以通过这些操作的组合,来完成无代码的数据挖掘操作。为了熟悉它的操作可以查看后面提供的全流程用例。

    如下图从FLOWS tab可以查看到“文件”导入的文件。

    Jarvis Python Lib说明

    Python包为jarvis,提供如下六个类:

    • Dataset
    • DatasetImporter/DataExporter
    • Model
    • ModelImporter/ModelExporter

    各个类的用法通过print(help(Dataset)) 这样的方法查看。

    组合使用,可以通过后面的全流程例子学习。例如:导入数据集为pandas对象。

    通过di.import_dataset(“bdd71e44o1cb5o4fefo87fbo9a3db7d57271”)就可以将数据集导入。参数的字符串就是通过“复制ID”的功能获得的。

    工具包

    Jarvis中内置各类主流的机器学习、深度学习框架,及百度AI能力,集成了常见数据分析包,详细工具包信息可以通过在Code Cell中使用命令查询:

    1. !pip2 list --format=columns #查看所有预置的工具包。
    2. Help(算子名称),可查询算子算法的使用说明。

    工具包列表,使用说明:

    • 数值计算:
      scipy
      numpy
      numba
    • 数据处理:
      pandas
    • 算子:
      jieba分词算子
    • 深度学习算法库
      paddlepaddle
      tensorflow
    • 绘图:
      plotly
      matplotlib
      ppmml
    • 机器学习算法库:
      h2o
      scikit-learn
    • Jarvis算子包:自有资源,包括文本处理,时序处理预测,时序异常检测等算子
    上一篇
    文件
    下一篇
    模型