1.7.17 CCE v1.18+ 2024.06.02 新功能 : 新增队列资源视图大盘,队列指标丰富,支持弹性/层级队列功能,支持nvidia/昆仑等多种芯片; 优化 : 集群多调度器混用场景加固,支持识别集群已有其他调度器分配的GPU卡,避免单节点混用多种调度器分配GPU; 增加了单队列 Capability,Deserved 和 Guarantee 间的资源申请合法校验,避免创建无效队列;
在集群列表页面中,单击目标集群名称进入集群管理页面。 在集群管理页面单击 云原生AI > 任务管理 。 在任务管理页面单击 新建任务 。 在新建任务页面中,完成任务基本信息配置: 任务名称:自定义任务名称,支持小写字母、数字、以及-或.且开头与结尾必须是小写字母或者数字,长度 1-65。 命名空间:选择新建任务所在的命名空间。 选择队列:选择新建任务关联的队列。
它可以用于查看在集群中正在运行的作业的状态、队列信息、用户信息等。 基本用法如下: qstat [选项] 一些常用的选项包括: -u, --user: 显示指定用户的作业信息。 -f, --full: 显示作业的详细信息。 -g, --queue: 显示队列的信息。 qhold qhold 是 SGE(Sun Grid Engine)中用于暂停作业的命令。
使用产品 日志服务BLS 百度消息服务 对象存储BOS 云服务器BCC 百度 MapReduce BMR 百度数据仓库Palo 业务场景 实时量化分析:需要对上交所Level2行情信息,包括十档行情,买卖队列,逐笔成交,委托总量和加权价格等多种数据进行实时计算,量化分析,为股民提供短线大数据量化分析结果。
云服务器BCC: 开通A800机型套餐白名单 并行文件存储服务PFS : 开通PFS产品白名单 创建可用的PFS实例 开通ParentDir白名单 创建流程 使用流程主要分为以下四步: 第一步:创建资源池。 资源池是百舸内部管理异构资源的基础单元,一个资源池对应一个CCE集群(计算服务),一个PFS实例(存储服务)和一个CPROM实例(监控服务)。 登录百度百舸·AI异构计算平台控制台。
CHPC API 提供下列接口类型: 接口类型 描述 集群管理 CHPC API 提供对集群的生命周期管理,包含创建、查询、编辑、释放等接口。 队列管理 CHPC API 提供对集群中队列的生命周期管理,包含创建、删除、查询等接口。 节点管理 CHPC API 提供对队列中节点的生命周期管理,包含扩容、释放、查询等接口。
资源池 资源池是百舸内部管理异构资源的基础单元,一个资源池对应一个CCE集群,一个PFS实例和一个CPROM实例。在资源池中,用户可以创建多个队列,从而在不同的队列中处理不同业务的工作任务。通常情况下,企业内部一个独立的团队或者项目建议创建一个独立的资源池,实现团队间或项目间的资源隔离。 节点 节点(Node)是提供计算能力的单元,属于资源池,为任务运行提供计算资源。
参数 默认值 说明 thread_pool.search.queue_size 1000 文档搜索队列大小,默认的文档搜索队列最大最小都是1000. thread_pool.write.queue_size 5000 文档写入队列大小
create_failed: 集群创建失败 deleting: 集群正在删除 deleted: 集群删除完成 delete_failed: 集群删除失败 upgrading: 集群升级中 upgrade_failed: 集群更新失败 eip_opening: 集群apiserver公网访问开启中 eip_open_failed: 集群apiserver公网访问开启失败 eip_closing: 集群
队列:选择新建任务关联的队列。 任务优先级:选择任务对应的任务优先级。 允许超发:允许超发将使用任务抢占超发功能,需要先安装CCE AI Job Scheduler组件并升级到1.4.0及以上版本。 延迟容忍:系统将优先把任务或工作负载调度到集群碎片资源,以提高集群资源利用率,但可能对业务延迟行能造成影响。