推理参数说明 本文为您介绍AIAK-inference适用的推理参数详情,建议您在使用AIAK-inference进行模型推理加速前先通过本文档进行了解学习 量化参数 参数名 取值类型 是否必选 默认值 可选值 描述 -i str 是 原始模型权重输入路径 -o str 是 量化后的模型权重输出路径 -quant_type str 是 weight_only_int8、smooth_quant、awq
必填, 默认不申请,启用时需进一步选择加速芯片类型、加速芯片数 加速芯片类型 必填, 选择加速芯片类型 加速芯片数 选填, 设置加速芯片数,不填写或填写0时表示不带加速芯片 CPU 选填 ,默认值:不限;设置开发机占用的最多CPU核数 内存 选填 ,默认值:不限;设置开发机占用的最大内存大小 共享内存 选填 ,默认值10Gi,一般使用默认值即可,如业务有额外需求,可以按需修改 共享内存(shared
全托管资源池 :免运维资源池,您无需运维和管理资源池和算力资源,由平台保障资源池稳定性 服务 仅支持Prefill和Decode两种角色且固定角色名不能修改 资源池队列 不能跨资源池,一组中的多角色服务可以跨资源队列 资源规格 选择部署服务所需的加速芯片类型和卡数、CPU、内存;加速芯片类型选择 “不使用加速芯片”即部署CPU服务。
Layer)的梯度进行全规约操作的时间 PP通信耗时 forward-recv-time 在分布式训练或者模型并行中,接收前向计算所需数据的时间(通信) forward-send-time 在分布式训练或者模型并行中,发送前向计算结果数据的时间(通信) backward-recv-time 在分布式训练或者模型并行中,接收用于反向传播计算的梯度数据的时间(通信) backward-send-time
日志检索 平台支持日志关键字的全文检索能力。 平台内置全文分词符号,支持基于分词后的关键字进行检索。预置关键词如下: 同时支持多个关键字检索能力,如查询内容为 service not available ,则表示查询包含关键字 service 、 not 、 available 的日志 上下文查询 日志检索后,支持查看日志上下文,获取更多信息。
查询加速域名详情接口 接口 本接口用于查询加速域名的详细配置信息。 Method Path Action GET /v2/domain/{domain}/config 获取指定加速域名配置的基本信息 domain:需要查询CDN的加速域名。
2024-05 新增AI加速套件,整合AIAK训练、推理加速镜像及训推加速过程中所需的一系列工具,轻松一键获取。 推理服务支持实例反亲和部署,避免单节点故障导致服务不可用。 推理服务实例弹性伸缩,在业务负载出现波峰或波谷时,可以根据业务流量自动调整实例数量,实现动态管理线上服务的计算资源,从而保障业务平稳运行并提高资源利用率。 推理服务支持设置防抢占策略,开启后实例不会被训练任务抢占。
Bearer认证请在生产环境使用HTTPS协议,HTTP协议仅用于开发测试,因使用HTTP协议导致的Token泄漏,函数计算不承担安全责任。 函数计算仅负责存储和校验您配置的Token信息,Token的管理需要您自己负责。请及时轮换已经泄漏的Token和已经被证明是不安全的Token,Token使用时间较长时,也请主动轮换。
创建即时转码任务 基本介绍 MCP提供了业界全新的视频即时转码接口,支持通过设置url参数的方法实时转换视频的码率,实现h264,h265两种码率的互转。 操作方法 注意事项 使用前需开通 百度智能云音视频处理服务(MCP) ; 建议的转码视频分辨率:不超过1080P; 建议的转码视频大小:小于1GB。 规则和限制 目前仅支持北京、苏州、广州使用。
查看实例信息 在任务详情下方的实例信息栏,您可以查看角色、实例名称、状态、重启次数、实例IP、Host IP和创建时间。