数据集

添加数据集

  • 接口描述

    基于用户提供的原始数据进行预处理,生成数据集。数据集是BML的基本训练单元,同一个数据集适用于所有机器学习算法。

  • 请求(Request)

    • 请求语法:
    POST /v{version}/dataset HTTP/1.1
    accept-encoding: gzip, deflate
    x-bce-date: {utc-date-string}
    connection: keep-alive
    accept: */*
    host: bml.bj.baidubce.com
    content-type: application/json
    authorization:{bce-authorization-string}
    
    • 请求头域:无特殊Header参数
    • 请求参数:
参数名 参数类型 必要性 参数描述
version String 必选 API版本号,当前取值1
datasetName String 必选 用户自定义数据集的名称
isClassification Bool 可选 是分类数据集还是回归数据集,默认为true,即默认为分类数据集。分类数据集label列为离散的,会被Id化;回归数据集label列为浮点数,不会被Id化。
rawData String 必选 原始数据输入路径,例如:bos://bucketName/object。BML数据集
只获得该路径下的非目录的文件作为输入,不会递归处理子目录下的文件。
路径支持匹配符格式,如果需要递归的获得目录下子目录输入数据,
请用户在Input参数中添加匹配符表达式(和标准的linux的ls的匹配符一致)。
如需要获得所有两层子目录下的part00-part03开头的所有文件,
bos://bucketName/object/*/*/part0[0-3]*
dataFormat DataFormat 必选 输入的数据格式。包括SparseID,SparseIDWeight,Dense。(格式说明如下)
transContent String 可选 数据转换配置。在以下情况需要定义:dataFormat和rawData定义,且dataFormat等于Text。参数为JSON格式的字符串。
  • 响应(Response)
    • 响应头域:无特殊Header参数
    • 响应参数:
参数 参数类型 参数描述
datasetId String 生成数据集ID。如dataset-fdslkj454jd3
  • 示例

    • 请求示例
    POST /v1/dataset HTTP/1.1
    accept-encoding: gzip, deflate
    x-bce-date: 2015-03-24T13:02:00Z
    connection: keep-alive
    accept: */*
    host: bml.bj.baidubce.com
    content-type: application/json
    authorization: bce-auth-v1/46bd9968a6194b4bbdf0341f2286ccce/2015-03-24T13:04:26Z/1800/host;x-bce-date/b1ad7075b37616b846a356d1db86e73abba1aed51b4d7b0d95321f69f17250b1
    {
        "datasetName": "TestdatasetName",
        "rawData": "bos://bucketName/object",
        "dataFormat": "SparseID"
    }
    
    • 响应示例:
    HTTP/1.1 200 OK
    x-bce-request-id:73c4e74c-3101-4a00-bf44-fe246959c05e
    Cache-Control: no-cache
    Server: BWS
    Date: Tue, 24 Mar 2015 13:02:01 GMT
    Content-Type: application/json;charset=UTF-8
    {
        "datasetId" : "dataset-fdslkj454jd3"
    }
    

查询数据集

  • 接口描述

    查询数据集详细信息

  • 请求(Request)

    • 请求语法:
    GET /v{version}/dataset/{datasetId} HTTP/1.1
    accept-encoding: gzip, deflate
    x-bce-date: {utc-date-string}
    connection: keep-alive
    accept: */*
    host: bml.bj.baidubce.com
    content-type: application/json
    authorization:{bce-authorization-string}
    
    • 请求头域:无特殊Header参数
    • 请求参数:
参数名 参数类型 必要性 参数描述
version String 必选 API版本号,当前取值1
datasetId String 必选 数据集ID
  • 响应(Response)
    • 响应头域:无特殊Header参数
    • 响应参数:
参数 参数类型 参数描述
datasetId String 数据集ID
datasetName String 用户自定义的数据集名称
rawData String 数据集的输入元素数据路径。 如bos://bucketName/kmeans_datasource
dataFormat DataFormat 输入的数据格式。包括SparseID,SparseIDWeight,Dense。
isClassification Bool 是分类数据集还是回归数据集,true为分类,false为回归。
status Status 数据集当前状态, status的value大0为正在生成中,等于0为成功生成,小于0为生成失败
history List<Status> 数据集历史状态
sampleNum Int 数据集样本数, 未成功生成时为空
featureNum Int 数据集特征数, 未成功生成时为空
labelNum Int 数据集label数, 未成功生成时为空
createTime String 创建时间,符合日期时间格式约束
finishTime String 完成时间,符合日期时间格式约束,未完成时为空
  • 示例

    • 请求示例:
    GET /v1/dataset/dataset-fdslkj454jd3 HTTP/1.1
    accept-encoding: gzip, deflate
    x-bce-date: 2015-03-24T13:02:00Z
    connection: keep-alive
    accept: */*
    host: bml.bj.baidubce.com
    content-type: application/json
    authorization: bce-auth-v1/46bd9968a6194b4bbdf0341f2286ccce/2015-03-24T13:04:26Z/1800/host;x-bce-date/b1ad7075b37616b846a356d1db86e73abba1aed51b4d7b0d95321f69f17250b1
    
    • 响应示例:
    HTTP/1.1 200 OK
    x-bce-request-id:73c4e74c-3101-4a00-bf44-fe246959c05e
    Cache-Control: no-cache
    Server: BWS
    Date: Tue, 24 Mar 2015 13:02:01 GMT
    Content-Type: application/json;charset=UTF-8 
    {
        "datasetId": "dataset-a0x532fdmt01",
        "datasetName": "kmeans_dataset",
        "rawData": "bos://bucketName/kmeans_datasource",
        "dataFormat": "SparseID",
        "isClassification" : true,
        "status": {
            "value": 0,
            "message": "BML job completed successful",
            "time": "2015-07-09T15:00:38Z"
        },
        "history": [
        {
            "value": 1,
            "message": "BML job submit successful",
            "time": "2015-07-09T14:53:53Z"
        },
        {
            "value": 2,
            "message": "BML job startup",
            "time": "2015-07-09T14:55:13Z"
        },
        {
            "value": 1001,
            "message": "Add dataset:startup",
            "time": "2015-07-09T14:55:15Z"
        },
        {
            "value": 1003,
            "message": "Add dataset:loading configure data",
            "time": "2015-07-09T14:55:17Z"
        },
        ......
        {
            "value": 0,
            "message": "BML job completed successfull",
            "time": "2015-07-09T15:00:38Z"
        }           
        ],
        "sampleNum": 100000,
        "featureNum": 960,
        "labelNum": 0,
        "createTime" : "2015-07-09T14:53:53Z",
        "finishTime" : "2015-07-09T15:00:38Z"
    }
    

查询数据集列表

  • 接口描述

    查询用户添加的数据集列表

  • 请求(Request)

    • 请求语法:
    GET /v{version}/dataset?&marker={marker}&maxKeys={maxKeys} HTTP/1.1
    accept-encoding: gzip, deflate
    x-bce-date: {utc-date-string}
    connection: keep-alive
    accept: */*
    host: bml.bj.baidubce.com
    content-type: application/json
    authorization:{bce-authorization-string}
    
    • 请求头域:无特殊Header参数
    • 请求参数:
参数名 参数类型 必要性 参数描述
version String 必选 API版本号,当前取值1
marker String 可选 批量获取列表的查询的起始位置,是一个由系统生成的字符串
maxKeys Int 可选 每页包含的最大数量,最大数量不能超过1000。大于1000的会被修正为1000。
缺省值为1000
  • 响应(Response)

    • 响应头域:无特殊Header参数
    • 响应参数:
参数名 参数类型 参数描述
marker String 标记查询的起始位置
truncated Boolean true表示后面还有数据,false表示已经是最后一页
nextMarker String 获取下一页所需要传递的marker值。当truncated为false时,该域不出现
datasets List<Dataset> 返回的数据集列表
  • 示例

    • 请求示例:
    GET /v1/dataset?marker=9e0c8cf1-690c-444a-8727-04241f3beaa5&maxKeys=30 HTTP/1.1
    accept-encoding: gzip, deflate
    x-bce-date: 2015-03-24T13:02:00Z
    connection: keep-alive
    accept: */*
    host: bml.bj.baidubce.com
    content-type: application/json
    authorization: bce-auth-v1/46bd9968a6194b4bbdf0341f2286ccce/2015-03-24T13:04:26Z/1800/host;x-bce-date/b1ad7075b37616b846a356d1db86e73abba1aed51b4d7b0d95321f69f17250b1
    
    • 响应示例:
    HTTP/1.1 200 OK
    x-bce-request-id:73c4e74c-3101-4a00-bf44-fe246959c05e
    Cache-Control: no-cache
    Server: BWS
    Date: Tue, 24 Mar 2015 13:02:01 GMT
    Content-Type: application/json;charset=UTF-8 
    {
        "datasets": [
        {
            "datasetId": "dataset-c9xdfdfdmt02",
            "datasetName": "lda_dataset",
            "rawData": "bos://bucketName/lda_datasource",
            "dataFormat": "SparseID",
            "status": {
                "value": 0,
                "message": "BML job completed successful",
                "time": "2015-07-09T15:00:38Z"
            },
            "sampleNum": 1199790,
            "featureNum": 2268991,
            "labelNum": 0,
            "createTime" : "2015-07-09T14:46:53Z",
            "finishTime" : "2015-07-09T15:00:38Z"
        },
        {
            "datasetId": "dataset-a0x532fdmt01",
            "datasetName": "kmeans_dataset",
            "rawData": "bos://bucketName/kmeans_datasource",
            "dataFormat": "SparseID",
            "status": {
                "value": 1001,
                "message": "Add dataset:startup",
                "time": "2015-07-09T16:15:23Z"
            },
            "sampleNum":,
            "featureNum":,
            "labelNum":
        "createTime" : "2015-07-09T16:13:33Z",
        "finishTime" : ""
        },
        ......
        ],
        "truncated": false,
        "marker": "9e0c8cf1-690c-444a-8727-04241f3beaa5"
    }
    

终止数据集生成

  • 接口描述

    对于正在生成中的数据集,进行终止操作。

  • 请求(Request)

    • 请求语法:
    PUT /v{version}/dataset/{datasetId}?kill HTTP/1.1
    accept-encoding: gzip, deflate
    x-bce-date: {utc-date-string}
    connection: keep-alive
    accept: */*
    host: bml.bj.baidubce.com
    content-type: application/json
    authorization:{bce-authorization-string}
    
    • 请求头域:无特殊Header参数

    • 请求参数:

参数名 参数类型 必要性 参数描述
version String 必选 API版本号,当前取值1
datasetId String 必选 要终止生成的数据集ID。该数据集必须为正在生成的状态,
即当前status的value字段大于0
  • 响应(Response)

    • 响应头域:无特殊Header参数
    • 响应参数:
参数 参数类型 参数描述
datasetId String 数据集ID
  • 示例

    • 请求示例
    PUT /v1/dataset/dataset-skjw59wert67?kill HTTP/1.1
    accept-encoding: gzip, deflate
    x-bce-date: 2015-03-24T13:02:00Z
    connection: keep-alive
    accept: */*
    host: bml.bj.baidubce.com
    content-type: application/json
    authorization: bce-auth-v1/46bd9968a6194b4bbdf0341f2286ccce/2015-03-24T13:04:26Z/1800/host;x-bce-date/b1ad7075b37616b846a356d1db86e73abba1aed51b4d7b0d95321f69f17250b1
    
    • 响应示例
    HTTP/1.1 200 OK
    x-bce-request-id:73c4e74c-3101-4a00-bf44-fe246959c05e
    Cache-Control: no-cache
    Server: BWS
    Date: Tue, 24 Mar 2015 13:02:01 GMT
    Content-Type: application/json;charset=UTF-8
    {
        "datasetId" : "dataset-skjw59wert67"
    }
    

删除数据集

  • 接口描述

    删除已经生成的数据集。

  • 请求(Request)

    • 请求语法:
    DELETE /v{version}/dataset/{datasetId} HTTP/1.1
    accept-encoding: gzip, deflate
    x-bce-date: {utc-date-string}
    connection: keep-alive
    accept: */*
    host: bml.bj.baidubce.com
    content-type: application/json
    authorization:{bce-authorization-string}
    
    • 请求头域:无特殊Header参数

    • 请求参数:

参数名 参数类型 必要性 参数描述
version String 必选 API版本号,当前取值1
datasetId String 必选 要删除的数据集ID。该数据集必须为生成完成的状态,
即当前status的value字段等于或小于0
  • 响应(Response)

    • 响应头域:无特殊Header参数
    • 响应参数:
参数 参数类型 参数描述
datasetId String 数据集ID
  • 示例

    • 请求示例
    DELETE /v1/dataset/dataset-skjw59wert67 HTTP/1.1
    accept-encoding: gzip, deflate
    x-bce-date: 2015-03-24T13:02:00Z
    connection: keep-alive
    accept: */*
    host: bml.bj.baidubce.com
    content-type: application/json
    authorization: bce-auth-v1/46bd9968a6194b4bbdf0341f2286ccce/2015-03-24T13:04:26Z/1800/host;x-bce-date/b1ad7075b37616b846a356d1db86e73abba1aed51b4d7b0d95321f69f17250b1
    
    • 响应示例
    HTTP/1.1 200 OK
    x-bce-request-id:73c4e74c-3101-4a00-bf44-fe246959c05e
    Cache-Control: no-cache
    Server: BWS
    Date: Tue, 24 Mar 2015 13:02:01 GMT
    Content-Type: application/json;charset=UTF-8
    {
        "datasetId" : "dataset-skjw59wert67"
    }