Миграция сервера на Hetzner: аудит перед отключением

Миграция сервера пугает не самим переездом, а одной кнопкой - «выключить старый хост». Я перетаскивал больше десятка production-сервисов со старого VPS в Латвии на новый, и пока старый жив, у тебя есть страховка: что-то отвалилось - откатился, и никто не заметил. Но стоит погасить его навсегда, как любая забытая зависимость превращается в инцидент посреди ночи. Поэтому перед отключением латвийского VPS я прогнал всю инфраструктуру через независимый аудит - будто я внешний проверяющий, который видит проект впервые и которому никто ничего не должен.

Контекст: зачем вообще переезжать

Исходная точка — латвийский VPS, на котором годами наслаивались сервисы: публичные сайты, API-боты, рендереры, мониторинг. Классическая ситуация, когда сервер давно перестал быть «одним проектом» и превратился в маленький дата-центр на коленке. Целевая площадка — выделенный сервер в Hetzner (Helsinki): мощное железо, ECC-память, NVMe в RAID-1, в разы больше ресурсов, чем у старого VPS.

Главный технический нюанс всего предприятия — аудитория. Значительная часть пользователей сидит в России, а маршруты до европейских дата-центров иногда ведут себя непредсказуемо из-за DPI и троттлинга. Поэтому переезд нельзя было считать успешным просто потому, что docker ps показывает все контейнеры зелёными. Нужно было доказать, что реальный пользователь из Москвы, Питера и регионов открывает сайт быстро и без зависаний. Спойлер: именно эта проверка дала самые интересные цифры.

Проблема: «вроде всё переехало» — это не доказательство

Когда мне сказали «переезд закончен, давай выключим Латвию», первое, что я сделал — попросил чеклист. Файла AUDIT_BEFORE_LATVIA_DECOMISSION.md в репозитории не оказалось, поэтому я восстановил список проверок из документации миграции и пошёл по нему как независимый ревьюер. Принцип простой: я не верю на слово, что «всё работает», пока сам не увижу зелёный ответ по каждому пункту.

Вот из чего складывался аудит:

DNS — все домены резолвятся на новый сервер (кроме осознанных исключений);
HTTPS — каждый домен отвечает живым статусом, без 5xx, таймаутов и SSL-ошибок;
System services — все systemd-юниты в состоянии active;
User services — пользовательские юниты тоже подняты;
Docker — все контейнеры в статусе running;
Мониторинг (Gatus) — все endpoints проверяются и зелёные;
Telegram-боты — нет 409-конфликтов (когда два инстанса дерутся за long-polling);
RAID — массивы в состоянии [UU], без деградации;
Диск — есть запас по месту;
WireGuard — туннели между серверами живы.

Решение: проходим аудит как внешний ревьюер

Я запустил все проверки параллельно прямо на новом сервере. Первый прогон дал 10 из 10 зелёных пунктов, но «зелёный» не значит «можно расслабиться» — пара мест требовала доработки.

Доступность доменов

По HTTPS все домены отвечали живыми кодами — 200, 307, 401, 404. Важный момент для тех, кто делает такие аудиты впервые: не каждый не-200 это ошибка. Например, API-эндпоинт Supabase на корне / законно отдаёт 401 (он API-only, корень не предназначен для браузера). Автоматические чекеры вроде check-host.net помечают такое как «FAIL», хотя на деле это норма. Аудит без понимания контекста сервиса генерирует ложные тревоги, поэтому каждый «красный» статус я проверял руками.

Мониторинг: добавляем то, что забыли

Первая реальная доработка — мониторинг. В Gatus не хватало проверок самой инфраструктуры мониторинга и логов. Я добавил отдельную группу monitoring с эндпоинтами для API-мониторинга, дашборда метрик, self-check самого Gatus и системы логов. После перезапуска все 12 эндпоинтов начали проверяться, и первый же тик показал success=true на всех. Telegram-алерты подхватились автоматически — они используют те же placeholder-переменные, что и остальные проверки.

# Gatus: добавленная группа мониторинга инфраструктуры
endpoints:
  - name: mon-api
    group: monitoring
    url: "https://[СКРЫТО]/health"
    interval: 60s
    conditions:
      - "[STATUS] == 200"
  - name: gatus-self
    group: monitoring
    url: "https://[СКРЫТО]/"
    conditions:
      - "[STATUS] == 200"

Дубль systemd-юнита

Вторая находка — дубликат сервиса kp-renderer. Он был объявлен дважды: как user-unit (~/.config/systemd/user/) и как system-unit (/etc/systemd/system/). Два юнита под одним именем — это бомба замедленного действия: после перезагрузки непонятно, какой из них займёт порт, и в логах начинается чехарда. Я удалил лишний user-версию, сделал daemon-reload, и осталась только корректная system-версия. После этого обновил документацию переезда (03_WHAT_MOVED.md, 02_ARCHITECTURE.md, README.md), чтобы счётчик user-сервисов отражал реальность и было зафиксировано, почему дубль удалён.

Контрольный прогон после отключения Латвии

Когда старый сервер был наконец погашен, я прогнал аудит ещё раз — теперь уже как пост-фактум-проверку:

Проверка	Результат
Ping старого сервера	100% packet loss — сервер мёртв
HTTPS (11 доменов)	все отвечают, без 5xx
System services (19)	все `active`
User services (2)	все `active`
Docker	24/24 running
Gatus	12/12 endpoints OK
TG-боты (409-конфликты за 30 мин)	0
RAID	три массива `[UU]`
Диск `/`	~7% занято

Отдельно стоит сказать про отсутствие 409-конфликтов у Telegram-ботов. Это важнейший признак чистого переезда: если бы старый инстанс бота где-то остался жив, два процесса дрались бы за getUpdates и Telegram возвращал бы 409 Conflict. Ноль конфликтов за полчаса означает, что нигде не остался забытый «зомби»-процесс на старой площадке.

Проверка из России: где цифры важнее зелёных галочек

Самая интересная часть — доказать, что новый сервер реально быстр для российских пользователей. Тут я сознательно не стал ничего переносить специально для теста: на Hetzner уже жили публичные домены, и можно было прогнать их через check-host.net по десяткам RU-нод (Москва, СПб, Екатеринбург, Новосибирск и регионы). Это даёт карту доступности из сетей крупных операторов за пять минут и без риска.

Чтобы тест был честным, я поднял отдельный поддомен test.pashavin.ru с реальным production-сборкой Next.js (лендинг одного из проектов). Образ перетащил со старого сервера через SSH-pipe, запустил в Docker на локальном порту, добавил блок в Caddy с автоматическим Let's Encrypt и заголовком Server-Timing:

test.pashavin.ru {
    reverse_proxy 127.0.0.1:3099
    header Server-Timing "app;desc=\"Hetzner Helsinki\""
}

SSL выписался автоматически, корень отдал 200. Дальше — два уровня проверки.

Уровень 1: реальный браузер через Playwright

Чтобы измерить не просто «дошёл ли пакет», а как реально рендерится страница, я прогнал её через Playwright (headless Chromium) и снял Navigation Timing API:

Метрика	Значение
HTTP status	200
TTFB	46 ms
FCP (первая отрисовка)	200 ms
DOM interactive	160 ms
Load event	229 ms
networkidle	877 ms
Transfer / Decoded	25 KB gzip → 237 KB
Console errors / Failed requests	0 / 0

Ноль ошибок в консоли и ноль упавших запросов — это значит, что приложение не просто отвечает кодом 200, а полностью собирается в браузере: все чанки Next.js, шрифты и изображения подгружаются.

Уровень 2: массовая проверка из РФ-сетей

Дальше встал вопрос «а как протестировать со всех провайдеров РФ?». Тут я сначала прошёл через этап брейншторма (формулировка цели, глубины метрики и бюджета), а потом — через написание плана и его исполнение силами субагентов. Решение должно было быть бесплатным, поэтому я провёл разведку open-source инструментов и остановился на связке:

Globalping (от jsDelivr) — open-source сеть проб с REST API. Бесплатный анонимный тариф даёт доступ к ~50 пробам в России (Москва, СПб, Новосибирск, Казань, Краснодар, Уфа, Таганрог), причём в реальных сетях операторов — ER-Telecom, Timeweb, Selectel, Beget. Минус — это HTTP-уровень, не полный браузер.
Бесплатные RU-прокси + Playwright — для браузерной глубины с конкретных провайдеров.

Я оформил это как набор Python-скриптов в scripts/ru-coverage-test/: модуль для Globalping (создать измерение → опросить статус → вернуть результаты), сборщик и health-check прокси, Playwright-проба с метриками, генератор Markdown-отчёта и оркестратор, запускающий оба пайплайна параллельно.

# Globalping: создаём HTTP-измерение и опрашиваем результат
resp = requests.post("https://api.globalping.io/v1/measurements", json={
    "type": "http",
    "target": "test.pashavin.ru",
    "locations": [{"country": "RU"}],
    "limit": 50,  # анонимный tier режет до 50, не 100
})
measurement_id = resp.json()["id"]

По ходу реализации всплыли два честных «грабля», которые попали прямо в отчёт как данные:

Анонимный лимит Globalping = 50, а не 100. Первый прогон с limit=100 вернул 400. Урок: лимиты бесплатных API лучше проверять live, а не верить README.
Бесплатные HTTP-прокси не умеют CONNECT для HTTPS. Все найденные живые прокси отдавали ERR_EMPTY_RESPONSE на HTTPS-таргет. Оркестратор обработал это graceful — вывел таблицу неудач вместо падения. Это нормальный результат разведки: бесплатные прокси для браузерной проверки HTTPS почти бесполезны, и это полезно знать заранее.

Результат массового прогона

Pipeline на Globalping дал отличную картину:

Город	OK	Средний TTFB
Москва	27/27	36 ms
Санкт-Петербург	11/11	21 ms
Новосибирск	5/5	97 ms
Казань	2/2	55 ms
Краснодар	2/2	48 ms
Уфа	1/1	39 ms
Таганрог	1/1	56 ms
Пенза	0/1	timeout

Итого 49 из 50 проб успешны. Hetzner Helsinki из Москвы и Питера отвечает за 20–40 мс — это на уровне локального российского хостинга. Единственный таймаут (Пенза, сеть ER-Telecom/Dom.ru) — единичный сбой одной пробы, а не системная проблема маршрута.

Результат и метрики

Итоговый счёт переезда:

Старый латвийский сервер отключён — подтверждено 100% packet loss, никакие сервисы за него не цепляются.
Все 11 публичных доменов живы на новом сервере, без 5xx и SSL-ошибок.
Все systemd- и Docker-сервисы в статусе running, мониторинг расширен с 8 до 12 проверок.
Ноль 409-конфликтов у Telegram-ботов — чистый переезд без зомби-процессов.
TTFB 20–40 мс из Москвы и СПб в реальном браузере — российские пользователи получают европейский сервер по скорости как локальный.
Бесплатный, воспроизводимый тест покрытия из РФ — теперь есть скрипт, который можно перезапустить после любого изменения инфраструктуры.

Выводы: чему научил этот переезд

Первый урок — «зелёный дашборд» не равно «можно выключать». Аудит перед отключением старого сервера должен быть отдельным, осознанным этапом, а не формальностью. Я специально проходил его в роли независимого проверяющего, который ничего не принимает на веру: каждый домен пропингован, каждый статус-код объяснён, каждый сервис проверен на active. Именно эта позиция вскрыла дубль systemd-юнита и пробелы в мониторинге — вещи, которые при беглом «ну вроде всё работает» легко пропустить.

Второй урок — контекст важнее статуса. Автоматический чекер видит 401 или 404 и кричит «ошибка», хотя для API-only эндпоинта это абсолютно нормальный ответ. Слепое доверие к зелёным/красным галочкам внешних сервисов порождает ложные тревоги и, что хуже, притупляет внимание к настоящим проблемам. Любой аудит должен делать поправку на то, как сервис устроен на самом деле.

Третий урок — доступность нужно мерить из реальной географии аудитории, а не из дата-центра. Когда твои пользователи в России, а сервер в Финляндии, curl с самого сервера ничего не доказывает. Связка из бесплатного Globalping (широта охвата по RU-сетям) и Playwright (глубина браузерного рендера) дала честную картину за ноль рублей. И отдельная ценность в том, что это оформлено как воспроизводимый скрипт: следующий аудит займёт минуты, а не часы ручной возни.

Четвёртый урок — фиксируй грабли как данные, а не как стыд. То, что бесплатные прокси не тянут HTTPS, а анонимный Globalping режет лимит до 50 — это не «провалы», а полезные факты о бесплатных инструментах. Я записал их прямо в отчёт. В следующий раз я (или любой, кто откроет репозиторий) не потрачу время на те же тупики. Хороший аудит оставляет после себя не только зелёные галочки, но и карту мин — и именно это превращает разовую проверку в актив, которым можно пользоваться снова и снова.

Переезд инфраструктуры — это всегда история про доверие к собственной системе. Старый сервер можно выключать спокойно только тогда, когда у тебя есть доказательства, а не ощущения. Чеклист, независимый ревью, реальные браузерные метрики из нужной географии и честно записанные грабли — вот что превращает рискованную «кнопку выключения» в обычную рабочую операцию.