工作区

点击左侧“工作区”,展示工作区的主页面,如下所示:

在工作区,用户可以根据需求启动所需的工作环境,目前Jarvis支持两种工作环境。一是交互式代码环境——Jupyter;二是交互式组件环境——H2O。

每个工作区就是一个session,相互独立和隔离的。

启动工作区

启动工作区有两个途径,一个是上节提到的通过文件功能中的运行来触发;二是通过“启动工作区”按钮来触发。点击工作区类型,就会启动,大约30秒左右,启动完成后,就能在工作区列表中找到已经启动的工作区,其状态应该是“运行中”。

工作区session启动,需要一定时间,一般30秒左右,打开过程中,会出现如下启动等待页面。

工作区列表操作

工作区列表会显示所有已经或者曾经启动的工作区,直到它被删除。

每个工作区条目会显示工作区的名称,创建日期以及当前的运行状态。

选中一个工作区条目,如果能够被删除,会显示“垃圾桶”图标,点击,会触发删除操作,确认删除后,该工作区将被删除。

工作区详情操作

在工作区主界面点击工作区列表中的任意一个条目,右侧会显示这个工作区的详情。

  • “基本信息” tab页面会显示这个工作区session的配置信息,如资源信息和软件配置。
  • “运行日志”tab页面,会显示这个工作区的详细日志,可以根据日志进行错误排查。

右上角有操作按钮,如果工作区session处于运行中状态,会出现两个按钮:一个是“open session”;另一个是“停止”。

  • 点击“open session”,会打开新的页面,进入工作区session页面,Jarvis支Jupyter和H2O两种。
  • 点击“停止”,会将工作区的session停止,并释放其占用的硬件资源。

工作区操作

打开session页面后,左侧的部分是Jarvis提供的控制工具栏。点击工具栏,工具栏会展开如下图:

其主要有如下几部分功能:

  1. session停止

    可以停止当前的session,功能作用等同于2.5.3节描述的“停止”按钮

  2. session同步/拉新

    • 工作区session在启动时,会将文件中的code目录同步到工作区,这里提供的“同步”/“拉新”功能用于工作区session和文件同步的。
    • 当你工作区中有文件更新,希望同步到“文件”区以保存,点击“同步”,一旦点击同步,就可以在文件列表中发现这个文件的新增或变更操作被同步了。
    • 当你在“文件”中上传了新的文件,希望同步到工作区session中,点击“拉取最新文件”就能达到目的。
  3. 未同步文件展示

    这里会展示工作区session本地最新的变化文件(原理同代码管理)列表,当你点击“同步”后,这些变更会被同步到“文件”中。

  4. 日志展示

    展示这个工作区session的日志信息,功能同2.5.3节所描述的“日志”tab页面。

Jupyter工作区操作

下图是打开jupyter session的session页面。

中间的部分是原生的jupyter页面。

在这里,你可以使用python来实现你想做的事情,可以清洗数据,可以训练模型,可以导出模型,也可以画图。

为了和Jarvis交互(导入/导出数据集/模型),Jarvis提供一套python lib来支持。具体参见对应节描述。

切换kernel

Jarvis为Jupyter环境新增了H2O kernel、pyspark kernel和spark kernel,通过切换kernel操作,可以直接使用H2O和spark的能力。

H2O工作区操作

下图是打开h2o session的session页面。

除了左侧工具栏,中的部分是原生的h2o页面。

其中的importFiles和model export被改造过,可以与Jarvis交互(导入导出数据集/模型),这里不需要专门了解Jarvis Python Lib。

这里H2O提供了12个Routine,可以通过这些操作的组合,来完成无代码的数据挖掘操作。为了熟悉它的操作可以查看后面提供的全流程用例。

如下图从FLOWS tab可以查看到“文件”导入的文件。

Jarvis Python Lib说明

Python包为jarvis,提供如下六个类:

  • Dataset
  • DatasetImporter/DataExporter
  • Model
  • ModelImporter/ModelExporter

各个类的用法通过print(help(Dataset)) 这样的方法查看。

组合使用,可以通过后面的全流程例子学习。例如:导入数据集为pandas对象。

通过di.import_dataset(“bdd71e44o1cb5o4fefo87fbo9a3db7d57271”)就可以将数据集导入。参数的字符串就是通过“复制ID”的功能获得的。

工具包

Jarvis中内置各类主流的机器学习、深度学习框架,及百度AI能力,集成了常见数据分析包,详细工具包信息可以通过在Code Cell中使用命令查询:

  1. !pip2 list --format=columns #查看所有预置的工具包。
  2. Help(算子名称),可查询算子算法的使用说明。

工具包列表,使用说明:

  • 数值计算:
    scipy
    numpy
    numba
  • 数据处理:
    pandas
  • 算子:
    jieba分词算子
  • 深度学习算法库
    paddlepaddle
    tensorflow
  • 绘图:
    plotly
    matplotlib
    ppmml
  • 机器学习算法库:
    h2o
    scikit-learn
  • Jarvis算子包:自有资源,包括文本处理,时序处理预测,时序异常检测等算子