百度数据科学平台

    Jarvis-Python-API

    Jarvis的Python Api包含两个实体,分别是数据集(dataset)和模型(model)。这两个实体分别有exporter和importer两个辅助类用于与jarvis进行导入和导出。

    DATASET

    Jarvis中数据集概念对应的python类,它可以与pandas dataframe,spark dataframe以及h2o dataframe进行互转。

    Dataset

    from jarvis.dataset import Dataset
    
    #构造函数
    def __init__(self, location, dataset_type="csv", name=None):
    
    #获得dataset对应数据文件的本地路径
    
    #返回值是string
    def get_location(self):
    
    #转化为pandas dataframe
    #返回值是pandas对象,失败返回None
    as_pandas_df(self):
    
    #从pandas dataframe对象转化为dataset对象
    #返回值是布尔值
    def from_pandas_df(self, pandas_dataframe, name=None):
    
    #从spark dataframe转化为dataset对象
    #返回值是bool值
    #需要在pyspark kernel中运行
    def from_spark_df_inside(self, spark_dataframe, name=None):
    
    #从dataset转化为spark dataframe对象
    #返回值是spark dataframe对象,失败返回None
    #需要在pyspark kernel中运行
    def as_spark_df_inside(self, sc=None):
    
    #从dataset转化为h2o dataframe对象
    #返回值是h2o dataframe对象,失败返回None
    def as_h2o_df(self):
    
    #从h2o dataframe转化为dataset对象
    #返回值是布尔值
    def from_h2o_df(self, h2o_dataframe, name=None):

    DatasetExporter 和 DatasetImporter

    from jarvis.dataset_exporter import DatasetExporter
    #导出dataset对象到jarvis的数据集中
    #返回值是String,失败返回None
    def export_dataset(self, dataset_object):
    
    from Jarvis.dataset_importer import DatasetImporter
    #导入一个dataset对象,传入从数据集中“复制ID”得到的ID
    #返回一个dataset对象,失败返回None
    def import_dataset(self, dataset_key):

    MODEL

    From Jarvis.model import Model
    #构造函数,默认是PMML格式,分类模型,不自动推导
    def __init__(self, location,
                 model_format=ModelFormat.PMML,
                 model_type=ModelType.CLASSIFY,
    auto_infer=False):
    
    #获得模型数据的本地文件地址
    #返回值为string
    def get_location(self):
    
    #将模型转化为PMML类型
    #返回值是一个model对象,一个转化为PMML的model对象
    def to_pmml(self):

    ModelExporter和ModelImporter

    from jarvis.model_expoter import ModelExporter
    #将model对象导出到jarvis的模型列表中
    #返回值是String,失败返回None
    def export_model(self, model_object, name=None, description=""):
    
    from jarvis.model_impoter import ModelImporter
    #从jarvis的模型仓库导入一个模型,使用模型的ID标识
    #返回值是model对象,失败返回None
    def import_model(self, model_key):
    上一篇
    最佳实践