离线预测

离线预测也称批量预测,是指对一批存储在BOS中的数据,采用和训练数据同样的特征库,根据训练得到的模型预测这批新数据的标签值,预测的结果存储回BOS上。

不同的算法对应的模型预测参数不同,详情参考各算法说明中的模型预测,离线预测的具体操作如下:

  1. 在“产品服务>百度机器学习BML-实验列表”页面,进入该实验页面。
  2. 拖拽左侧的“离线预测”至中间空白处,不同的算法对应的模型评估参数不同,具体如下:
    • 逻辑回归LR、深度神经网络DNN、聚类Kmeans、贝叶斯深度学习推荐Alaya、梯度提升决策树GBDT、因子分解模型FM、逻辑回归算法FTRL:
      1. 连接“输出数据集”与“离线预测”。
      2. 连接模型训练的算法与“离线预测”。
      3. 选择“输出路径”。请选择数据源地址作为输出路径,提交后系统会在数据源地址下新创建一个格式为{modelname}{datasetname}_predict_out{timestr}的子目录作为结果存储目录,输出路径地址随之自动更新成输出结果的实际目录。

        说明:若样本数据中权重值的精度超过8位(即:小数点后超过8位),预测结果中的原始样本会只保留小数点后8位(四舍五入)。

    • 协同过滤CF:
      1. 连接“输出数据集”与“离线预测”。
      2. 连接“协同过滤CF”与“离线预测”。
      3. 配置“给用户推荐项目topN”,默认为每个用户推荐10个最匹配的商品。
      4. 选择“输出路径”。请选择数据源地址作为输出路径,提交后系统会在数据源地址下新创建一个格式为{modelname}{datasetname}_predict_out{timestr}的子目录作为结果存储目录,输出路径地址随之自动更新成输出结果的实际目录。
    • 主题模型LDA:
      1. 连接“输出数据集”与“离线预测”。
      2. 连接“主题模型LDA”与“离线预测”。
      3. 配置“每条样本要预测的主题个数”,默认是10。
      4. 选择“输出路径”。请选择数据源地址作为输出路径,提交后系统会在数据源地址下新创建一个格式为{modelname}{datasetname}_predict_out{timestr}的子目录作为结果存储目录,输出路径地址随之自动更新成输出结果的实际目录。
  3. 点击运行按钮,开始离线预测。
  4. 在“产品服务>百度机器学习BML-模型列表”页点击模型名称后,可在“本模型预测信息”页查看预测状态,如下图所示: