Перейти к содержанию

Runtime, качество и данные

Разбирайте поведение AI-системы по runtime, trace, quality и исследовательским данным

Раздел для тех, кто уже не просто пользуется AI-инструментом, а поддерживает и улучшает рабочую систему.

Типовой путь инженера

Сначала смотрим runtime, потом уходим в traces, eval или notebook — в зависимости от вопроса.

01

Откройте runtime

Поймите, что сейчас запущено и где искать проблему в первую очередь.

02

Разберите качество и задержки

Смотрите traces, scorecards и метрики по шагам, а не только финальный ответ.

03

Проверьте гипотезу на данных

Перейдите в notebook, если нужно посчитать, сравнить и показать выводы команде.

С чего начать

Выберите, что именно нужно разобрать

Разные инженерные инструменты нужны на разных стадиях разбора: runtime, traces, quality или исследование.

Сценарий 01

Нужно быстро увидеть состояние runtime и маршрутов.

Откройте Agent Gateway, когда важен текущий operational контур.

ИнструментAgent Gateway
Открыть сервис

Сценарий 02

Нужно подробно разобрать trace, latency и стоимость конкретного запуска.

Откройте Langfuse, когда нужен разбор поведения по шагам.

ИнструментLongFuse / Langfuse
Открыть сервис

Сценарий 03

Нужно проверить качество и регрессии перед релизом.

Перейдите в red_mad_eval и сравните сценарий на контрольных кейсах.

Инструментred_mad_eval
Открыть сервис

Сценарий 04

Нужно проверить гипотезу на данных или собрать notebook.

Используйте JupyterHub для воспроизводимого исследования.

ИнструментJupyterHub
Открыть сервис
Agent GatewayRuntimeОсновной инструмент

Открыть агентный runtime, проверить маршруты и понять текущее состояние среды

Нужен, когда надо увидеть, что сейчас запущено, куда идут запросы и с чего начать разбор проблемы.

С чего начать

  • Откройте runtime и проверьте доступные маршруты и точки запуска.
  • Просмотрите маршруты и найдите место, где ломается исполнение.
  • Сверьте состояние среды до того, как уходить в глубокий дебаг.
LongFuse / LangfuseObservabilityОсновной инструмент

Разобрать поведение пайплайна по трейсам, задержкам, стоимости и качеству шагов

Этот инструмент нужен, когда ответ уже выглядит странно и надо понять, на каком шаге всё поехало.

С чего начать

  • Откройте trace и увидите последовательность шагов и проблемный участок.
  • Сверьте latency и стоимость и найдите узел, который тормозит или дорожает.
  • Сравните prompt и retrieval и поймите, что править дальше.
red_mad_evalQualityОсновной инструмент

Проверить качество сценария до релиза и увидеть регрессии

Нужен после изменений, когда важно подтвердить, что качество не просело на контрольных кейсах.

С чего начать

  • Запустите набор кейсов и сравните результат между версиями.
  • Откройте scorecards и посмотрите, где именно сценарий начал проваливаться.
  • Сверьте релиз-кандидаты и принимайте решение по данным, а не по ощущению.
JupyterHubResearchОсновной инструмент

Проверить гипотезу на данных, собрать notebook и показать выводы команде

Идите в notebook-среду, когда нужно копнуть глубже: собрать выборку, построить график, посчитать метрику или быстро проверить гипотезу.

С чего начать

  • Откройте ноутбук и соберите код, таблицы и выводы в одном месте.
  • Постройте график или срез и покажите команде, что именно меняется.
  • Сохраните воспроизводимый notebook, чтобы у гипотезы осталась проверяемая история.

Что открыть дальше

Откройте Agent Gateway

Начните с runtime, если нужно быстро понять, что происходит в системе. Дальше переходите к трейсам, eval и notebook, когда понадобится глубже разбирать проблему.