Jarvis Python API

Jarvis的Python Api包含两个实体,分别是数据集(dataset)和模型(model)。这两个实体分别有exporter和importer两个辅助类用于与jarvis进行导入和导出。

DATASET

Jarvis中数据集概念对应的python类,它可以与pandas dataframe,spark dataframe以及h2o dataframe进行互转。

Dataset

from jarvis.dataset import Dataset

#构造函数
def __init__(self, location, dataset_type="csv", name=None):

#获得dataset对应数据文件的本地路径

#返回值是string
def get_location(self):

#转化为pandas dataframe
#返回值是pandas对象,失败返回None
as_pandas_df(self):

#从pandas dataframe对象转化为dataset对象
#返回值是布尔值
def from_pandas_df(self, pandas_dataframe, name=None):

#从spark dataframe转化为dataset对象
#返回值是bool值
#需要在pyspark kernel中运行
def from_spark_df_inside(self, spark_dataframe, name=None):

#从dataset转化为spark dataframe对象
#返回值是spark dataframe对象,失败返回None
#需要在pyspark kernel中运行
def as_spark_df_inside(self, sc=None):

#从dataset转化为h2o dataframe对象
#返回值是h2o dataframe对象,失败返回None
def as_h2o_df(self):

#从h2o dataframe转化为dataset对象
#返回值是布尔值
def from_h2o_df(self, h2o_dataframe, name=None):

DatasetExporter 和 DatasetImporter

from jarvis.dataset_exporter import DatasetExporter
#导出dataset对象到jarvis的数据集中
#返回值是String,失败返回None
def export_dataset(self, dataset_object):

from Jarvis.dataset_importer import DatasetImporter
#导入一个dataset对象,传入从数据集中“复制ID”得到的ID
#返回一个dataset对象,失败返回None
def import_dataset(self, dataset_key):

MODEL

From Jarvis.model import Model
#构造函数,默认是PMML格式,分类模型,不自动推导
def __init__(self, location,
             model_format=ModelFormat.PMML,
             model_type=ModelType.CLASSIFY,
auto_infer=False):

#获得模型数据的本地文件地址
#返回值为string
def get_location(self):

#将模型转化为PMML类型
#返回值是一个model对象,一个转化为PMML的model对象
def to_pmml(self):

ModelExporter和ModelImporter

from jarvis.model_expoter import ModelExporter
#将model对象导出到jarvis的模型列表中
#返回值是String,失败返回None
def export_model(self, model_object, name=None, description=""):

from jarvis.model_impoter import ModelImporter
#从jarvis的模型仓库导入一个模型,使用模型的ID标识
#返回值是model对象,失败返回None
def import_model(self, model_key):