AACsearch
Эксплуатация

Статус и инциденты

Как читать статусную страницу AACsearch и чего ждать в ходе инцидента.

Статус и инциденты

Единая точка истины о текущем состоянии AACsearch — status.aacsearch.com. Хостится отдельно от основной инфраструктуры — чтобы оставаться доступной, когда мы — нет.

Компоненты статусной страницы

КомпонентЧто покрывает
Search API — EUПубличные search/ingest-эндпоинты в регионе Frankfurt.
Search API — USПубличные search/ingest-эндпоинты в регионе Virginia.
Search API — RUПубличные search/ingest-эндпоинты в Москве.
DashboardWeb UI на app.aacsearch.com.
Connector APICMS-ориентированные эндпоинты коннекторов (PrestaShop, Bitrix и др.).
Widget deliveryХостинг виджета: скрипт + CSS на app.aacsearch.com/api/widget/*.
WebhooksИсходящая доставка событий на ваши endpoint-ы.
AuthВход, magic link, OAuth, passkeys.

У каждого — одно из четырёх состояний:

  • Operational — зелёный. Probes проходят; error-rate в пределах SLO.
  • Degraded performance — жёлтый. Probes проходят, но latency или error-rate выше нормы.
  • Partial outage — оранжевый. Часть запросов падает.
  • Major outage — красный. Компонент массово недоступен.

Смена состояния пишется на страницу в течение 60 секунд после детекции.

Жизненный цикл инцидента

Investigating  →  Identified  →  Monitoring  →  Resolved

                                       Post-mortem (в течение 14 дней)
ФазаЧто означает
InvestigatingЗаметили проблему, причины ещё не знаем.
IdentifiedЗнаем, что сломано, и чиним.
MonitoringФикс выкачен; наблюдаем перед объявлением resolved.
ResolvedКомпонент здоров минимум 15 минут.
Post-mortemДля любого инцидента с воздействием на клиента ≥ 15 мин выпускаем публичный PIR в течение 14 дней.

Мы не пометим инцидент Resolved до 15 минут зелёных probes — даже если уверены в фиксе. Это сознательно. Если ошиблись — лучше переэскалировать, чем делать вид, что всё.

Подписка на обновления

В подвале статусной страницы Subscribe:

  • Email — один адрес. Апдейты в течение ~30 секунд.
  • SMS — только для major outage (без спама на жёлтые события).
  • Webhook — JSON POST на изменение состояния. Удобно подключить к PagerDuty, Opsgenie или своим инструментам.
  • RSS / Atom — для дашбордов и агрегаторов.

Enterprise-клиенты дополнительно получают оповещения о P1 в своём регионе через TAM.

Уровни severity

Классификация в момент детекции; апгрейд/даунгрейд по мере прояснения.

УровеньВоздействие на клиентаВремя реакции
P1 — CriticalПоиск недоступен по региону или компонент массово в дауне.24/7, немедленно.
P2 — HighЗначительная деградация, большинство запросов проходит.24/7, ≤ 15 минут.
P3 — MediumЛокальная проблема (одна фича, один tenant, один кластер).Рабочие часы, ≤ 4 ч.
P4 — LowКосметика, dashboard-only, не-прод поведение.Рабочие часы, ≤ 1 день.

Это наши внутренние цели. Enterprise-клиенты согласовывают более жёсткие контрактные времена — см. Dedicated cluster.

Что мы сообщаем в инцидент

Типичный апдейт содержит:

  • Что затронуто (компонент, регион).
  • Когда началось (UTC, ISO 8601).
  • Что мы считаем причиной — с поправкой на текущую неопределённость.
  • Что делаем (rollback, scale-up, failover и т. п.).
  • Следующий апдейт к (конкретное время, даже если новой информации нет).

Догадки о причине, в которые мы не уверены, не публикуем. Если не знаем — пишем «Investigating — следующий апдейт в HH:MM UTC». Это сознательно.

Что нужно сообщить вам нам в инцидент

При открытии P1/P2 во время публичного инцидента полезная информация:

  • Organization ID.
  • Index slug, если проблема привязана к индексу.
  • Request ID из логов приложения по упавшему запросу (заголовок x-request-id).
  • Первое наблюдение проблемы (UTC).
  • Постоянная или интермиттентная, и какой процент запросов задет.

Уже присланное мы не переспросим. Спросим, можете ли воспроизвести с открытым DevTools — иногда один HAR закрывает то, что не закрыло бы 200-строчное описание.

После инцидента: post-mortems

Для каждого инцидента ≥ 15 мин воздействия:

  1. Публикуем public PIR на status.aacsearch.com/incidents/<id> в течение 14 дней.
  2. PIR содержит: таймлайн, contributing factors, влияние на клиентов (цифры, не прилагательные) и конкретные corrective actions с дедлайнами.
  3. PIR переслинкован из исходного инцидента.

Имён инженеров не публикуем. Имена систем, сервисов и решений — да.

Частые ошибки

  • «Зелёный статус = моя проблема». Зелёный статус — кластер здоров. Ваша проблема может быть в неправильно настроенном ключе или 429. Сначала troubleshooting.
  • Смотрите на дашборд во время P1. Дашборд зависит от тех же auth/БД, что и API; во время регионального инцидента он сам может тормозить. Статусная страница независима.
  • Спрашиваете ETA каждые 5 минут. Апдейты — в обещанном ритме. Сказали «следующий к 14:30 UTC» — будет к 14:30 UTC.

См. также

On this page