Сайт лёг в выходные: что входит в техподдержку, за которую не стыдно

Чтобы техподдержка сайта не подводила в критические моменты, она должна быть превентивной, а не реактивной

Понедельник, восемь утра. Оператор набирает заказ, а сайт выдаёт цену на вчера. В лучшем случае клиент просто перезагрузит страницу. В худшем, уйдёт к конкуренту, решив, что вы задираете стоимость в выходные. И вы узнаете об этом только во вторник, когда отдел продаж начнёт разбирать упущенные лиды. Знакомая картина?

Сайт ложится, когда бизнес спит

Вот что происходит на самом деле. Суббота, два часа ночи. Бекап не выполнился, потому что закончилось место на диске. Плагин обновления цен на «СинхронизаторЦен» заглох на полпути, и прайс-лист из более чем 300 тысяч позиций завис в неопределённом состоянии. Админ спит. Разработчик спит. А ваш интернет-магазин тихо превращается из работающего инструмента в витрину с неактуальными данными.

Мы столкнулись с этим на проекте «Толпар» крупном региональном маркетплейсе, где ассортимент начинается от швейных иголок и заканчивается мебелью. Каждую ночь туда приходит обновление цен и остатков сразу по нескольким сотням тысяч товаров. И если обмен ломается, последствия видны не сразу. Ошибка накапливается, как снежный ком, и проявляется только в понедельник. К тому моменту уже потеряны не только заказы тех, кто не смог оформить покупку, но и доверие тех, кто заметил расхождение. Именно такой скрытый риск мы и предотвращаем в рамках регулярной техподдержки.

Без превентивного мониторинга вы живёте в иллюзии, что сайт работает. В воскресенье вечером вы расслаблены, а ваш бизнес уже потерял деньги.

Почему реактивный подход опаснее, чем кажется

Многие думают: «Упал, поднимем. Что такого?» Но сбой в системе обмена данными редко бывает одиночным. Если ночью прервалась синхронизация с «СинхронизаторЦен», утром клиент видит цену, которая была действительна в пятницу. Он кладёт товар в корзину, оформляет заказ, система резервирует позицию по старой цене. А в понедельник выясняется, что реальная себестоимость выросла, и вы продаёте с минусом. Или наоборот: устаревшая цена слишком высока, и покупатель уходит.

Но это только часть истории. Когда сбивается обмен, перестаёт корректно обновляться не только цена, но и остатки на складах. Вы принимаете заказы на товар, которого уже нет. Клиент ждёт три дня, потом звонит в поддержку, и ему говорят: извините, позиция закончилась. Человек разочарован, идёт в отзывы, пишет гневный пост. А вы получаете не просто возврат денег, а испорченную репутацию, которая аукнется через неделю, когда тот же клиент расскажет о ситуации коллегам.

Реактивный подход, это игра в догонялки с последствиями. Вы тратите время и деньги не на развитие, а на разгребание того, что уже случилось. И каждый такой случай выбивает вас из графика на полдня работы целой команды.

Инженерная система, а не дежурный админ

Решение, которое мы применяем на сложных проектах, не имеет ничего общего с представлением о техподдержке как о человеке, который сидит и смотрит на монитор. Это инженерная система, построенная на предсказуемости.

Когда мы проектировали интеграцию для «Толпара», самым сложным был не сам обмен, а гарантия того, что он выполнится независимо от объёма. Каждую ночь система обрабатывает поток данных о ценах и остатках, и на этом этапе нельзя допустить ни одного зависания. Поэтому обмен разбит на несколько этапов и выполняется в несколько потоков. Если на одном из этапов случается ошибка, процесс не падает целиком, он останавливается на конкретном блоке, автоматически фиксирует проблему и отправляет сигнал в систему мониторинга. Дежурный инженер получает уведомление ночью в выходной, когда ещё можно всё поправить до начала рабочей недели.

Суть не в том, чтобы быстрее чинить поломки. Система сама отслеживает сценарии сбоев: например, переполнение диска или зависание процесса запускает цепочку автоматических проверок. Инженер видит конкретный блок, который вызвал остановку, и устраняет причину, не дожидаясь, пока накопится ошибка. Это как с фильтром на сайте. Мы внедрили технологию больших информационных таблиц, чтобы фильтр работал мгновенно даже при миллионах записей. Пользователь не должен ждать, и не ждёт. Точно так же вы не должны ждать понедельника, чтобы узнать, что ваш сайт в порядке.

Техподдержка, за которую не стыдно, это когда вы не знаете, что она существует. Система сама следит за обновлениями, сама проверяет корректность данных, сама сигнализирует о потенциальных угрозах. Администратор уже не герой, который тушит пожары. Он превращается в инженера, который проектирует так, чтобы пожаров не было. И вот это, единственный способ не терять продажи и репутацию, пока весь рынок отдыхает.

Три признака техподдержки, которая не подведёт, когда вы спите

Вот о чём мы постоянно напоминаем себе и клиентам: техническая поддержка, это не про то, как быстро вы проснётесь, когда всё упало, а про то, чтобы ничего не падало. Выстроить работу так, чтобы воскресный звонок не звучал как сигнал тревоги, наша основная задача. В этом фрагменте мы разберём, из каких слоёв состоит поддержка, за которую действительно не стыдно, и почему важно не путать дежурство с настоящей профилактикой. Речь пойдёт о мониторинге, регламенте реагирования и тех мелочах, которые превращают «тушение пожаров» в спокойную работу.

Проблема в том, что большинство воспринимает техподдержку как услугу «человек у телефона». Дежурный сидит, ждет звонка. А когда сайт падает, он бежит тушить пожар. Но пожар уже начался, и вы уже теряете деньги. Получается, вы платите не за стабильную работу сайта, а за то, чтобы кто-то был готов реагировать, когда все сломается. Реальный риск здесь не в сумме контракта, а в том, что вы узнаете о проблеме от разгневанного клиента, а не от собственной системы мониторинга.

Системный подход к надёжности строится на автоматическом мониторинге. Система снимает показатели круглосуточно и не ждёт понедельника. Если в 2 часа ночи в субботу возникает аномалия, она фиксирует проблему, изолирует сбойный блок и отправляет уведомление. Администратор получает сигнал не утром перед планеркой, а ночью, когда ещё можно поправить всё без потерь. Суть не в скорости реакции, а в предсказуемости: вы знаете, что проблема уже зафиксирована и обрабатывается. Именно так строится работа, за которую не стыдно.

Вот из чего состоит техподдержка, за которую не стыдно. Три слоя защиты, которые работают, пока вы спите.

  1. Автоматический мониторинг без выходных. Система сама проверяет доступность сайта, корректность данных, нагрузку. Если один из процессов завис, она не ждёт, пока рухнет всё. Она останавливает только проблемный блок, фиксирует ошибку и шлёт сигнал. Человек не смотрит на экран, система смотрит за него.

  2. Потоковая обработка с контролем этапов. Каждая задача разбита на последовательные шаги. Ошибка на одном этапе не убивает весь процесс. Система сама проверяет, что данные корректны, обмен выполнен, фильтр обработал миллионы записей без задержки. Пользователь не ждёт, и вы не ждёте утра понедельника.

  3. Превентивная реакция вместо тушения. Сигнал приходит не когда клиент уже ушёл, а когда проблема только наметилась. Инженер видит угрозу до того, как она стала сбоем. Он не герой с огнетушителем, он проектирует так, чтобы пожаров не было.

Техподдержка, которую вы не замечаете, единственная, которая спасает вашу репутацию. Если вы знаете, что она существует, значит, она уже опоздала.

Частые вопросы

как понять что техподдержка сайта работает хорошо если видимых проблем нет

Хорошая техподдержка незаметна. Главный признак, вы не получаете жалоб от пользователей и не узнаёте о сбоях постфактум. Если система сама сообщает об аномалиях до того, как они стали проблемой, и вы не тратите время на авральные исправления, поддержка работает правильно.

чем отличается реактивная техподдержка сайта от проактивной

Реактивная поддержка исправляет ошибки после того, как о них сообщили. Проактивная, предупреждает их. В проактивной модели настроен мониторинг всех узлов, процессы разбиты на блоки с автоматической фиксацией сбоев, а администратор получает уведомления до того, как проблема коснулась пользователя.

как снизить нагрузку на администратора при техподдержке сайта

Нагрузка снижается, когда рутинные операции автоматизированы: мониторинг, проверка целостности данных, резервное копирование. Критические процессы (обмен с 1С, выгрузки) разбиваются на этапы, чтобы сбой на одном блоке не ломал всё. Администратор получает только сигналы о реальных аномалиях, а не проверяет каждую мелочь вручную.