Home » Мониторинг использования GPU в реальном времени

Мониторинг использования GPU в реальном времени

Видеокарты сегодня — это не только игрушка для геймеров. Они стали основным инструментом для машинного обучения, майнинга, рендеринга и обработки данных. Если у вас есть серверы с GPU, то мониторинг их использования в реальном времени становится критически важным для оптимизации работы и избежания простоев. В этой статье разберём как правильно настроить мониторинг GPU, какие инструменты использовать и как автоматизировать процесс.

Основные принципы мониторинга GPU

Прежде чем перейти к практике, важно понимать что именно мы мониторим. GPU работает по принципу параллельных вычислений — тысячи ядер обрабатывают данные одновременно. Основные метрики, которые стоит отслеживать:

Утилизация GPU (GPU utilization) — процент времени, когда GPU занят вычислениями
Использование памяти (Memory utilization) — сколько VRAM используется
Температура — критический параметр для стабильности
Энергопотребление — важно для расчёта стоимости и планирования нагрузки
Частоты ядра и памяти — показатели производительности

Быстрая настройка мониторинга NVIDIA GPU

Начнём с самого простого и популярного случая — карты NVIDIA. Для этого потребуется CUDA Toolkit и драйверы.

Установка и базовые команды

# Установка драйверов NVIDIA на Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-535 nvidia-utils-535

# Проверка установки
nvidia-smi

# Мониторинг в реальном времени (обновление каждую секунду)
nvidia-smi -l 1

# Вывод только основных метрик
nvidia-smi --query-gpu=timestamp,name,utilization.gpu,memory.used,memory.total,temperature.gpu,power.draw --format=csv -l 1

# Мониторинг конкретных процессов
nvidia-smi pmon -i 0 -s u

Создание скрипта для логирования

#!/bin/bash
# gpu_monitor.sh
LOGFILE="/var/log/gpu_monitor.log"
DATE=$(date '+%Y-%m-%d %H:%M:%S')

nvidia-smi --query-gpu=timestamp,name,utilization.gpu,memory.used,memory.total,temperature.gpu,power.draw --format=csv,noheader,nounits | while read line; do
    echo "$DATE,$line" >> $LOGFILE
done

# Запуск каждые 10 секунд через cron
# */10 * * * * /path/to/gpu_monitor.sh

Расширенный мониторинг с Prometheus и Grafana

Для серьёзного мониторинга лучше использовать специализированные инструменты. Prometheus + Grafana — это стандарт де-факто для мониторинга инфраструктуры.

Настройка NVIDIA GPU exporter

# Скачиваем и устанавливаем nvidia_gpu_prometheus_exporter
wget https://github.com/mindprince/nvidia_gpu_prometheus_exporter/releases/download/v1.2.0/nvidia_gpu_prometheus_exporter
chmod +x nvidia_gpu_prometheus_exporter
sudo mv nvidia_gpu_prometheus_exporter /usr/local/bin/

# Создаём systemd сервис
sudo tee /etc/systemd/system/nvidia-gpu-exporter.service > /dev/null <

Конфигурация Prometheus

# prometheus.yml
global:
  scrape_interval: 15s

scrape_configs:
  - job_name: 'nvidia-gpu'
    static_configs:
      - targets: ['localhost:9445']
    scrape_interval: 5s

Сравнение инструментов мониторинга

Инструмент	Плюсы	Минусы	Лучше всего для
nvidia-smi	Встроенный, простой, быстрый	Только NVIDIA, базовый функционал	Быстрая диагностика, скрипты
Prometheus + Grafana	Мощный, гибкий, красивые дашборды	Сложная настройка, ресурсоёмкий	Серьёзный мониторинг, алерты
Netdata	Простая установка, красивый UI	Меньше кастомизации	Быстрый старт, небольшие системы
Zabbix	Корпоративный уровень, много агентов	Тяжёлый, сложный	Большие инфраструктуры

Мониторинг AMD GPU

С картами AMD дела обстоят сложнее, но вполне решаемо. Основной инструмент — radeontop.

# Установка radeontop
sudo apt install radeontop

# Базовый мониторинг
radeontop

# Вывод в файл
radeontop -d /path/to/logfile -l 1

# Мониторинг конкретной карты
radeontop -b 01:00.0

Скрипт для AMD GPU

#!/bin/bash
# amd_gpu_monitor.sh
LOGFILE="/var/log/amd_gpu.log"

while true; do
    DATE=$(date '+%Y-%m-%d %H:%M:%S')
    GPU_INFO=$(radeontop -d - -l 1 | grep -E "(gpu|vram)")
    echo "$DATE: $GPU_INFO" >> $LOGFILE
    sleep 10
done

Универсальный мониторинг с intel-gpu-tools

Для интегрированной графики Intel есть свой набор инструментов.

# Установка intel-gpu-tools
sudo apt install intel-gpu-tools

# Мониторинг в реальном времени
sudo intel_gpu_top

# Информация о GPU
intel_gpu_dump

Автоматизация и алерты

Самое интересное начинается, когда мы автоматизируем мониторинг и настраиваем алерты. Вот пример скрипта, который отправляет уведомления при перегреве:

#!/bin/bash
# gpu_alert.sh
THRESHOLD=80
TELEGRAM_TOKEN="YOUR_BOT_TOKEN"
CHAT_ID="YOUR_CHAT_ID"

GPU_TEMP=$(nvidia-smi --query-gpu=temperature.gpu --format=csv,noheader,nounits | head -1)

if [ "$GPU_TEMP" -gt "$THRESHOLD" ]; then
    MESSAGE="⚠️ GPU перегрев! Температура: ${GPU_TEMP}°C"
    curl -s -X POST "https://api.telegram.org/bot$TELEGRAM_TOKEN/sendMessage" \
         -d chat_id=$CHAT_ID \
         -d text="$MESSAGE"
fi

Интеграция с системами оркестрации

Если вы используете Kubernetes, то мониторинг GPU становится ещё более важным. Для этого есть специальные решения:

# Установка NVIDIA GPU Operator
kubectl apply -f https://raw.githubusercontent.com/NVIDIA/gpu-operator/master/deployments/gpu-operator.yaml

# Мониторинг GPU в pod'ах
kubectl get pods -A -o wide | grep nvidia

# Проверка доступности GPU для workload'ов
kubectl describe node | grep nvidia.com/gpu

Продвинутые техники и хитрости

Несколько интересных способов использования мониторинга GPU:

Динамическое масштабирование — автоматически добавляйте или убирайте GPU based на нагрузке
Балансировка нагрузки — распределяйте задачи между картами по температуре и утилизации
Предиктивный мониторинг — используйте machine learning для предсказания сбоев
Интеграция с CI/CD — автоматически тестируйте производительность после деплоя

Скрипт для автоматической балансировки

#!/bin/bash
# gpu_balancer.sh
declare -A gpu_temps
declare -A gpu_utils

# Получаем данные по всем GPU
for i in $(seq 0 3); do
    gpu_temps[$i]=$(nvidia-smi -i $i --query-gpu=temperature.gpu --format=csv,noheader,nounits)
    gpu_utils[$i]=$(nvidia-smi -i $i --query-gpu=utilization.gpu --format=csv,noheader,nounits)
done

# Находим наименее загруженную карту
min_temp=100
optimal_gpu=0

for gpu in "${!gpu_temps[@]}"; do
    temp=${gpu_temps[$gpu]}
    util=${gpu_utils[$gpu]}
    
    if [ $temp -lt $min_temp ] && [ $util -lt 80 ]; then
        min_temp=$temp
        optimal_gpu=$gpu
    fi
done

echo "Оптимальная GPU для новой задачи: $optimal_gpu (temp: ${gpu_temps[$optimal_gpu]}°C)"

Мониторинг в облаке

Если вы используете облачные GPU (VPS с GPU или выделенные серверы), то мониторинг становится ещё более критичным — вы платите за время использования.

# Скрипт для оптимизации расходов в облаке
#!/bin/bash
# cloud_gpu_optimizer.sh
MIN_UTIL=30
CHECK_INTERVAL=300  # 5 минут

while true; do
    GPU_UTIL=$(nvidia-smi --query-gpu=utilization.gpu --format=csv,noheader,nounits | head -1)
    
    if [ "$GPU_UTIL" -lt "$MIN_UTIL" ]; then
        echo "GPU утилизация низкая ($GPU_UTIL%), рассмотрите остановку инстанса"
        # Здесь можно добавить API вызов для остановки инстанса
    fi
    
    sleep $CHECK_INTERVAL
done

Интересные факты и нестандартные применения

Знали ли вы, что мониторинг GPU можно использовать для:

Детекции криптомайнеров — аномальная нагрузка на GPU часто указывает на нежелательное ПО
Оптимизации игровых серверов — многие игры используют GPU для физики и рендеринга
Мониторинга качества стримов — NVENC/AMD VCE нагружают GPU при кодировании видео
Диагностики “умных” камер — современные IP-камеры используют GPU для анализа видео

Troubleshooting и частые проблемы

Типичные проблемы и их решения:

Проблема	Симптомы	Решение
nvidia-smi не работает	Command not found или No devices found	Переустановить драйверы, проверить CUDA
GPU throttling	Низкая производительность при высокой температуре	Улучшить охлаждение, снизить частоты
Память не освобождается	VRAM показывает использование после завершения процесса	Принудительно убить процессы, перезагрузить драйвер
Метрики не точные	Странные значения утилизации	Обновить драйверы, проверить конфликты

Безопасность мониторинга

Не забывайте про безопасность — мониторинг GPU может раскрыть информацию о ваших процессах:

# Ограничение доступа к nvidia-smi
sudo chmod 750 /usr/bin/nvidia-smi
sudo chown root:video /usr/bin/nvidia-smi

# Настройка firewall для Prometheus exporter
sudo ufw allow from 192.168.1.0/24 to any port 9445

Заключение и рекомендации

Мониторинг GPU в реальном времени — это не просто “приятно иметь”, а необходимость для любой серьёзной работы с графическими ускорителями. Вот мои рекомендации:

Для быстрого старта используйте nvidia-smi с простыми скриптами
Для продакшена настройте Prometheus + Grafana с алертами
Для облачных инстансов обязательно мониторьте утилизацию для оптимизации расходов
Для критически важных систем настройте предиктивный мониторинг

Помните — GPU дорогие, греются и могут выйти из строя. Хороший мониторинг поможет вам избежать проблем и оптимизировать использование ресурсов. Начните с простого, постепенно усложняйте систему мониторинга по мере роста ваших потребностей.

Полезные ссылки для дальнейшего изучения: NVIDIA Docker, Kubernetes GPU scheduling, Prometheus.

В этой статье собрана информация и материалы из различных интернет-источников. Мы признаем и ценим работу всех оригинальных авторов, издателей и веб-сайтов. Несмотря на то, что были приложены все усилия для надлежащего указания исходного материала, любая непреднамеренная оплошность или упущение не являются нарушением авторских прав. Все упомянутые товарные знаки, логотипы и изображения являются собственностью соответствующих владельцев. Если вы считаете, что какой-либо контент, использованный в этой статье, нарушает ваши авторские права, немедленно свяжитесь с нами для рассмотрения и принятия оперативных мер.

Данная статья предназначена исключительно для ознакомительных и образовательных целей и не ущемляет права правообладателей. Если какой-либо материал, защищенный авторским правом, был использован без должного упоминания или с нарушением законов об авторском праве, это непреднамеренно, и мы исправим это незамедлительно после уведомления. Обратите внимание, что переиздание, распространение или воспроизведение части или всего содержимого в любой форме запрещено без письменного разрешения автора и владельца веб-сайта. Для получения разрешений или дополнительных запросов, пожалуйста, свяжитесь с нами.