名词解释

工作区WorkArea

  • BOS:百度对象存储。
  • 工作区:一个交互式的工作环境,这里特指 jupyter notebook。

作业区Train

  • 作业:一次机器学习算法的执行过程。在 Infinite 中,可以理解为用户定义的一个算法逻辑,在集群上一次完整的离线执行过程。 算法逻辑是指用户定义一次机器学习具体的计算过程,Infinite 的算法逻辑定义支持以下三种途径:

    1. 用户在工作区 Notebook 环境中本地编写调试的算法代码。
    2. 用户自行编写的代码文件。
    3. 选择 Infinite 提供的算法镜像(暂不支持)。

    作业面对的算法逻辑主要为模型训练 (Training) 的过程,但也支持模型评估、离线预测、数据处理等过程。

    离线执行过程,是区别于在Infinite 工作区的Notebook 环境中,交互式的实时执行过程。用户在创建作业后,会非阻塞的立刻返回唯一标志作业ID。用户需要根据作业ID,来异步地跟踪执行状态和查询执行结果。

  • 集群:集群是一组百度智能云资源的集合,为机器学习作业提供分布式的运行环境。Infinite 产品Training 服务中,使用的是百度智能云 CCE 产品提供的 kubernete 集群,用户不需要在 Infinite Training 中进行集群的创建和管理。

    CCE 是基于若干 CPU/GPU/FPGA 的 BCC 服务器等基础云资源,提供的高度可扩展的高性能容器管理服务,详情见容器引擎 CCE 产品文档。Infinite 产品 Training 服务中的 CCE 集群,分为以下两种:

    1. 共享集群:
      由 Infinite 产品提供的 CCE 集群,所有用户共享的一个资源池。
      该集群的详细信息对用户不可见,用户只能看到自己在该集群上运行作业的相关信息。
      统一集群供用户调研实验使用,Infinite 不保证运行该集群上作业的时效性和数据安全性。

    2. 专属集群:
      用户自行在 CCE 产品中创建自己专属的集群,独自占用管理该集群资源。在 Infinite 产品中创建机器学习作业时,提交到自己的专属集群上。

  • 容器:

    容器对应 Kubernetes 的 Pod 概念,容器拥有独立的存储、IP、端口、namespaces、配置,是百度智能云容器服务部署的最小单元,是集群的基本单位。
    容器是 Infinite 机器学习算法真正的实际运行环境,一个作业真正的执行过程,就是在一个或多个容器环境中,执行用户定义的算法逻辑。

预测服务

  • 预测模型:用于部署预测服务的模型数据,部署镜像及配置的逻辑集合。

  • Variant:一组部署的无差别实例集合,包括名称,部署的预测模型,实例资源配置,实例数量,流量权重等。

  • Endpoint Config:一个预测服务端点的配置,可以包含多个 Variant。

  • Endpoint:由 Endpoint Config 部署得到的一个可访问的在线预测服务端点,包含独立的访问标识。