Home » Рабочий процесс: перебор файлов в каталоге

Рабочий процесс: перебор файлов в каталоге

Перебор файлов в каталоге — это основа основ для любого сисадмина. Вроде бы простая задача, но именно она лежит в основе бэкапов, логротации, мониторинга, очистки диска и сотен других автоматизированных процессов. Если вы работаете с сервером, то рано или поздно столкнетесь с необходимостью массово обрабатывать файлы — искать по маске, сортировать, фильтровать, удалять старые логи или архивировать данные. Сегодня разберём всё по полочкам: от простых команд до продвинутых скриптов, которые можно использовать в продакшене.

Как это работает под капотом

Прежде чем нырять в команды, стоит понять принцип работы файловой системы Unix/Linux. Каждый каталог — это просто специальный файл, который содержит список инодов (inode) и их имён. Когда вы делаете ls, система читает этот список и получает информацию о каждом файле из соответствующего инода.

Перебор файлов может происходить тремя основными способами:

Последовательное чтение каталога — система читает записи одну за другой
Рекурсивный обход — спуск в подкаталоги с обработкой всего дерева
Индексированный поиск — использование заранее построенных индексов (locate, find с базами данных)

Интересный факт: в ext4 каталоги с большим количеством файлов (>10000) используют хеш-таблицы для ускорения поиска, а в XFS применяется B+ дерево. Это означает, что производительность перебора сильно зависит от файловой системы.

Базовые команды: начинаем с простого

Начнём с самых простых инструментов, которые должен знать каждый:

# Простой список файлов
ls -la /var/log/

# Только файлы (без каталогов)
ls -la /var/log/ | grep "^-"

# Сортировка по времени изменения
ls -lt /var/log/

# Сортировка по размеру
ls -lS /var/log/

# Показать только имена файлов
ls -1 /var/log/

Но ls имеет ограничения — он не очень удобен для обработки в скриптах и плохо работает с файлами, содержащими пробелы в именах.

Find: швейцарский нож для поиска файлов

Команда find — это мощнейший инструмент для перебора файлов. Она может искать по имени, размеру, времени изменения, правам доступа и множеству других критериев.

# Найти все файлы в каталоге и подкаталогах
find /var/log -type f

# Найти файлы по маске
find /var/log -name "*.log"

# Найти файлы, изменённые за последние 7 дней
find /var/log -type f -mtime -7

# Найти файлы размером больше 100МБ
find /var/log -type f -size +100M

# Найти и выполнить команду для каждого файла
find /var/log -name "*.log" -exec grep "ERROR" {} \;

# Найти и удалить файлы старше 30 дней
find /var/log -type f -mtime +30 -delete

# Найти файлы с определёнными правами
find /var/log -type f -perm 644

Продвинутые возможности find

Find может намного больше, чем кажется на первый взгляд:

# Найти файлы, изменённые в определённый период
find /var/log -type f -newermt "2024-01-01" ! -newermt "2024-01-31"

# Найти файлы по нескольким критериям (И)
find /var/log -type f -name "*.log" -size +1M -mtime -7

# Найти файлы по нескольким критериям (ИЛИ)
find /var/log -type f \( -name "*.log" -o -name "*.txt" \)

# Исключить определённые каталоги
find /var -type f -name "*.log" -not -path "*/tmp/*"

# Найти пустые файлы
find /var/log -type f -empty

# Найти файлы с пробелами в именах
find /var/log -type f -name "* *"

# Выполнить команду только если файл существует
find /var/log -name "*.log" -exec test -f {} \; -exec echo "Processing: {}" \;

Работа с циклами в bash

Иногда find избыточен, и проще использовать циклы bash. Особенно это актуально, когда нужна сложная логика обработки:

# Простой цикл по файлам в каталоге
for file in /var/log/*.log; do
    echo "Processing: $file"
    # Ваша обработка файла
done

# Цикл с проверкой существования файлов
for file in /var/log/*.log; do
    [[ -f "$file" ]] || continue
    echo "File exists: $file"
done

# Рекурсивный обход с помощью globstar (bash 4+)
shopt -s globstar
for file in /var/log/**/*.log; do
    [[ -f "$file" ]] || continue
    echo "Processing: $file"
done

# Цикл по результатам команды
while IFS= read -r -d '' file; do
    echo "Processing: $file"
done < <(find /var/log -name "*.log" -print0)

Практические кейсы и решения

Рассмотрим реальные задачи, с которыми сталкиваются сисадмины:

Кейс 1: Очистка старых логов

#!/bin/bash
# Скрипт для очистки логов старше 30 дней

LOG_DIR="/var/log"
DAYS=30

# Находим и удаляем старые логи
find "$LOG_DIR" -type f -name "*.log" -mtime +$DAYS -exec rm -f {} \;

# Находим и архивируем логи старше 7 дней, но младше 30
find "$LOG_DIR" -type f -name "*.log" -mtime +7 -mtime -$DAYS -exec gzip {} \;

echo "Log cleanup completed"

Кейс 2: Мониторинг размера файлов

#!/bin/bash
# Поиск файлов, которые быстро растут

THRESHOLD="100M"
REPORT_FILE="/tmp/large_files_report.txt"

find /var -type f -size +$THRESHOLD -printf "%s %p\n" | sort -nr > "$REPORT_FILE"

echo "Large files report saved to $REPORT_FILE"

Кейс 3: Поиск дубликатов

#!/bin/bash
# Поиск дубликатов файлов по MD5

find /home -type f -exec md5sum {} \; | sort | uniq -d -w 32

Сравнение различных подходов

Метод	Скорость	Гибкость	Память	Лучше всего для
ls	Быстро	Низкая	Мало	Простой просмотр
find	Средне	Очень высокая	Мало	Сложный поиск
bash циклы	Медленно	Высокая	Средне	Сложная логика
locate	Очень быстро	Низкая	Мало	Быстрый поиск по имени

Альтернативные инструменты

Кроме стандартных команд, существуют современные альтернативы:

fd — быстрая замена find с лучшим синтаксисом
ripgrep (rg) — для поиска по содержимому файлов
exa — современная замена ls
tree — для визуализации структуры каталогов

# Установка fd на Ubuntu/Debian
sudo apt install fd-find

# Использование fd
fd "*.log" /var/log
fd -e log -x grep "ERROR" {}

# Установка ripgrep
sudo apt install ripgrep

# Поиск по содержимому
rg "ERROR" /var/log --type log

Оптимизация производительности

При работе с большими каталогами важно помнить об оптимизации:

Используйте -prune в find для исключения ненужных каталогов
Применяйте -print0 и -0 для корректной работы с именами файлов
Ограничивайте глубину поиска с помощью -maxdepth
Используйте locate для быстрого поиска по имени

# Оптимизированный поиск
find /var/log -maxdepth 2 -type f -name "*.log" -print0 | xargs -0 grep "ERROR"

# Исключение системных каталогов
find /var -type f -name "*.log" -not -path "*/proc/*" -not -path "*/sys/*"

Автоматизация и интеграция

Перебор файлов отлично интегрируется с cron, systemd timers и системами мониторинга:

# Crontab для ежедневной очистки логов
0 2 * * * /usr/local/bin/cleanup_logs.sh

# Systemd timer для более гибкого управления
# /etc/systemd/system/log-cleanup.timer
[Unit]
Description=Daily log cleanup
Requires=log-cleanup.service

[Timer]
OnCalendar=daily
Persistent=true

[Install]
WantedBy=timers.target

Безопасность и лучшие практики

При работе с файлами важно соблюдать меры безопасности:

Всегда тестируйте команды с -print перед выполнением
Используйте кавычки для переменных: "$variable"
Проверяйте права доступа перед массовыми операциями
Делайте резервные копии перед удалением файлов

# Безопасная практика — сначала посмотреть, что будет удалено
find /var/log -type f -mtime +30 -print

# Только потом удалить
find /var/log -type f -mtime +30 -delete

Заключение и рекомендации

Перебор файлов — это фундаментальный навык для работы с серверами. Начните с изучения базовых команд find и циклов bash, постепенно добавляя более сложные конструкции. Для продакшена рекомендую:

Использовать find для большинства задач — он надёжен и гибок
Внедрять современные инструменты типа fd для повышения производительности
Всегда тестировать скрипты на тестовых данных
Документировать сложные конструкции для коллег

Если вы работаете с серверами профессионально, то качественный VPS или выделенный сервер существенно упростит изучение и тестирование всех описанных техник.

Помните: автоматизация файловых операций — это не только экономия времени, но и снижение вероятности человеческих ошибок. Инвестируйте время в изучение этих инструментов, и они многократно окупятся в будущем.

В этой статье собрана информация и материалы из различных интернет-источников. Мы признаем и ценим работу всех оригинальных авторов, издателей и веб-сайтов. Несмотря на то, что были приложены все усилия для надлежащего указания исходного материала, любая непреднамеренная оплошность или упущение не являются нарушением авторских прав. Все упомянутые товарные знаки, логотипы и изображения являются собственностью соответствующих владельцев. Если вы считаете, что какой-либо контент, использованный в этой статье, нарушает ваши авторские права, немедленно свяжитесь с нами для рассмотрения и принятия оперативных мер.

Данная статья предназначена исключительно для ознакомительных и образовательных целей и не ущемляет права правообладателей. Если какой-либо материал, защищенный авторским правом, был использован без должного упоминания или с нарушением законов об авторском праве, это непреднамеренно, и мы исправим это незамедлительно после уведомления. Обратите внимание, что переиздание, распространение или воспроизведение части или всего содержимого в любой форме запрещено без письменного разрешения автора и владельца веб-сайта. Для получения разрешений или дополнительных запросов, пожалуйста, свяжитесь с нами.