主要依赖操作系统工具和应用程序工具对系统的硬件资源占用进行分析;从硬件、操作系统、运行环境和程序进行全面的分析和优化。 服务质保30天内,100%免费跟进处理,工程师1对1服务,快速解决问题 系统性能调优,数据库优化
SMX4-80G,6 node,48GPUs 262 3.8 说明: 训练镜像: registry.baidubce.com/cce-ai-native/aiak-megatron:ubuntu20.04-cu11.8-torch1.14.0-py38_v1.2.3.0_release 以上相同参数的模型,在ckpt保存耗时的对比测试中,采用相同的共享存储,排除存储性能的影响 使用说明 使用限制 内存占用
内存 内存用量:指标采集时,正在使用的内存字节数(单位:字节)。使用的内存字节数不包含Page Cache占用的内存空间。 网络 网络接收量:指标采集周期内,每秒平均接收的网络数据比特数(单位:比特/秒)。 网络发送量:指标采集周期内,每秒平均发送的网络数据比特数(单位:比特/秒)。 网络接收包:指标采集周期内,每秒平均接收的网络IP包个数(单位:个/秒)。
内存 内存用量:指标采集时,正在使用的内存字节数(单位:字节)。使用的内存字节数不包含Page Cache占用的内存空间。 网络 网络接收量:指标采集周期内,每秒平均接收的网络数据比特数(单位:比特/秒)。 网络发送量:指标采集周期内,每秒平均发送的网络数据比特数(单位:比特/秒)。 网络接收包:指标采集周期内,每秒平均接收的网络IP包个数(单位:个/秒)。
内存 内存用量:指标采集时,正在使用的内存字节数(单位:字节)。使用的内存字节数不包含Page Cache占用的内存空间。 网络 网络接收量:指标采集周期内,每秒平均接收的网络数据比特数(单位:比特/秒)。 网络发送量:指标采集周期内,每秒平均发送的网络数据比特数(单位:比特/秒)。 网络接收包:指标采集周期内,每秒平均接收的网络IP包个数(单位:个/秒)。
Puck_PQ :Puck_PQ即基于Puck的PQ量化索引机制,通过引入PQ量化机制,减少Puck原生索引对内存的占用,但对召回率有少量影响。 DISKANN :由微软研发的基于磁盘(Disk)的ANN索引和检索机制,该索引的特点是原始向量不(全)常驻内存,在检索时如果涉及到访问不在内存的向量数据时,可能触发磁盘读取。该索引机制已经完成研发,将于近期发布。
点击 [nginx] 应用,再次点击 [应用监控],可以查看部署组级别的 CPU 与 内存占用监控 返回 [应用详情],并在右侧点击 [访问方式],查看创建的访问方式,IP为创建的公网访问IP,访问端口为对应端口。 打开浏览器,输入给定的IP与端口,访问部署成功的 Nginx 服务。
6、开发管理平台突然登录不进去,或者出现报错 1)排查下是否添加了太多任务,CPU占用过高或者内存不足导致程序异常,此时需要重装开发管理平台并适当减少任务数量,同时实时关注总览页面的资源占用情况; 2)排查下是否开启了保存图片功能,造成文件过多,存储空间不足,此时需要登录开发管理平台,查看 /root/workspace/EBM/EdgeManagement_V2.0/data/ 目录下的文件大小,
如何使用 使用限制 1)内存占用:单机所有GPU卡的Checkpoint内存会优先保存在内存,因此对于千亿参数规模模型建议预留200G内存以上。 2)框架支持:当前仅支持Megatron训练框架(<= 23.04版本),Pytorch/DeepSpeed支持中。
开始微调 Dreambooth对于cuda内存的消耗很大,原因在于所有模型参数及其梯度都会被加载和更新,A10 24GB的内存占用率会很快达到100%,然后导致OOM。尽管已经将batchsize设置为1,此外,使用fp16训练也可能缓解内存占用,但可能导致Nan detected in latents错误。