简介：本文详细介绍了服务器环境下查看CPU和GPU占用率的多种方法，以及常用的GPU监控命令，帮助开发者高效管理服务器资源。

服务器监控实战：CPU与GPU占用率查看及GPU命令详解

在服务器运维和开发过程中，实时监控CPU和GPU的占用率是确保系统稳定运行、优化资源分配的关键环节。无论是进行深度学习训练、高性能计算（HPC）还是日常的服务器管理，了解硬件资源的实时使用情况都能帮助开发者及时发现问题、调整配置，避免因资源不足或分配不均导致的性能瓶颈。本文将围绕“服务器查看CPU GPU占用”和“服务器查看GPU命令”两个核心主题，详细介绍多种实用的监控方法和工具。

一、查看CPU占用率的方法

1. 使用系统自带工具

Linux系统

top命令：这是Linux下最常用的系统监控工具之一。在终端输入top后回车，即可看到实时的系统资源使用情况，包括CPU占用率、内存使用、进程列表等。CPU占用率会以百分比形式显示在顶部汇总信息中，同时每个进程的CPU占用也会详细列出。
htop命令：htop是top的增强版，提供了更直观的界面和更多的功能，如鼠标操作、颜色高亮、树状视图等。安装htop（sudo apt-get install htop）后运行，可以更方便地查看CPU占用情况。
mpstat：属于sysstat工具包的一部分，用于报告每个处理器的统计信息。通过mpstat -P ALL 1可以每秒显示一次所有CPU核心的占用情况，对于多核服务器特别有用。

Windows系统

任务管理器：通过右键点击任务栏选择“任务管理器”，或使用快捷键Ctrl+Shift+Esc打开。在“性能”选项卡中，可以直观地看到CPU的使用率，以及各个核心的占用情况。
PowerShell命令：使用Get-Counter '\Processor(*)\% Processor Time'可以获取CPU的使用率，适合脚本自动化监控。

2. 使用第三方监控软件

除了系统自带工具外，还有许多第三方监控软件如Nagios、Zabbix、Prometheus等，它们提供了更丰富的监控指标、报警机制和可视化界面，适合大规模服务器集群的监控。

二、查看GPU占用率的方法

1. NVIDIA GPU监控命令

对于配备NVIDIA GPU的服务器，NVIDIA提供了专门的工具来监控GPU的使用情况。

nvidia-smi：这是NVIDIA GPU监控的命令行工具，几乎安装在所有配备NVIDIA GPU的Linux服务器上。通过nvidia-smi命令，可以查看GPU的当前状态，包括温度、功耗、显存使用、计算进程等。特别是-l参数可以持续刷新显示GPU状态，如nvidia-smi -l 1表示每秒刷新一次。
```
# 查看GPU详细信息，包括占用率
nvidia-smi
# 持续监控GPU状态，每秒刷新一次
nvidia-smi -l 1
```
nvtop：类似于htop，但专门用于监控NVIDIA GPU。它提供了类似top的界面，显示GPU的使用率、温度、显存占用等信息。安装nvtop（需从源码编译或通过特定仓库安装）后，运行nvtop即可。

2. AMD GPU监控命令

对于AMD GPU，可以使用Radeon Top（rocminfo的一部分）或ROCm提供的工具进行监控。

rocminfo：ROCm（Radeon Open Compute）平台的一部分，可以显示GPU的详细信息，包括型号、显存大小等。虽然不直接显示占用率，但结合其他工具如rocm-smi（如果可用）可以获取更详细的监控数据。
第三方工具：如GPGPU-Sim等模拟器，虽然主要用于模拟而非实时监控，但在某些研究场景下可能有用。对于实际服务器监控，更推荐使用AMD官方或社区维护的工具。

3. 通用GPU监控方案

对于不支持特定厂商工具的GPU，或需要跨平台监控的场景，可以考虑以下通用方案：

Prometheus + Grafana：通过Prometheus收集GPU的指标（可能需要自定义Exporter），然后在Grafana中可视化展示。这种方式灵活且强大，适合大规模部署。
DCGM（Data Center GPU Manager）：NVIDIA提供的用于数据中心GPU管理的软件套件，包括监控、管理和优化功能。虽然主要针对NVIDIA GPU，但其架构设计具有一定的通用性，可以借鉴其监控思路。

三、实际应用建议

定期监控：设置定时任务（如cron job）定期运行监控命令，并将结果记录到日志文件中，便于后续分析。
报警机制：结合监控工具设置阈值报警，当CPU或GPU占用率超过预设值时自动通知管理员，及时处理潜在问题。
资源优化：根据监控数据调整服务器配置，如增加CPU核心数、升级GPU型号、优化算法减少计算量等，以提高资源利用率。
多维度分析：不仅关注占用率，还要结合温度、功耗等其他指标进行综合分析，确保服务器在安全、高效的条件下运行。

通过本文的介绍，相信开发者已经掌握了多种查看服务器CPU和GPU占用率的方法，以及针对不同GPU厂商的监控命令。在实际应用中，应根据具体需求和服务器环境选择合适的监控工具和方案，确保系统的稳定运行和资源的有效利用。

服务器监控实战：CPU与GPU占用率查看及GPU命令详解

服务器监控实战：CPU与GPU占用率查看及GPU命令详解

一、查看CPU占用率的方法

1. 使用系统自带工具

Linux系统

Windows系统

2. 使用第三方监控软件

二、查看GPU占用率的方法

1. NVIDIA GPU监控命令

2. AMD GPU监控命令

3. 通用GPU监控方案

三、实际应用建议

最热文章