Runtime, качество и данные

Разбирайте поведение AI-системы по runtime, trace, quality и исследовательским данным

Раздел для тех, кто уже не просто пользуется AI-инструментом, а поддерживает и улучшает рабочую систему.

Открыть Agent Gateway С чего начать

Типовой путь инженера

Сначала смотрим runtime, потом уходим в traces, eval или notebook — в зависимости от вопроса.

Откройте runtime

Поймите, что сейчас запущено и где искать проблему в первую очередь.

Разберите качество и задержки

Смотрите traces, scorecards и метрики по шагам, а не только финальный ответ.

Проверьте гипотезу на данных

Перейдите в notebook, если нужно посчитать, сравнить и показать выводы команде.

С чего начать

Выберите, что именно нужно разобрать

Разные инженерные инструменты нужны на разных стадиях разбора: runtime, traces, quality или исследование.

Сценарий 01

Нужно быстро увидеть состояние runtime и маршрутов.

Откройте Agent Gateway, когда важен текущий operational контур.

ИнструментAgent Gateway

Открыть сервис

Сценарий 02

Нужно подробно разобрать trace, latency и стоимость конкретного запуска.

Откройте Langfuse, когда нужен разбор поведения по шагам.

ИнструментLongFuse / Langfuse

Открыть сервис

Сценарий 03

Нужно проверить качество и регрессии перед релизом.

Перейдите в red_mad_eval и сравните сценарий на контрольных кейсах.

Инструментred_mad_eval

Открыть сервис

Сценарий 04

Нужно проверить гипотезу на данных или собрать notebook.

Используйте JupyterHub для воспроизводимого исследования.

ИнструментJupyterHub

Открыть сервис

Agent GatewayRuntimeОсновной инструмент

Открыть агентный runtime, проверить маршруты и понять текущее состояние среды

Нужен, когда надо увидеть, что сейчас запущено, куда идут запросы и с чего начать разбор проблемы.

С чего начать

Откройте runtime и проверьте доступные маршруты и точки запуска.
Просмотрите маршруты и найдите место, где ломается исполнение.
Сверьте состояние среды до того, как уходить в глубокий дебаг.

Открыть сервис ui-gateway.ai.redmadrobot.com

Agent Gateway

Runtime overview

Стилизованный visual

Активные маршруты

research-routerhealthy

tool-execdegraded

response-streamstable

Операционный журнал

> route request to task cluster

> attach policies and runtime context

> inspect gateway health for regressions

> stream output to operator console

маршрутыruntimeсостояние средыgateway

LongFuse / LangfuseObservabilityОсновной инструмент

Разобрать поведение пайплайна по трейсам, задержкам, стоимости и качеству шагов

Этот инструмент нужен, когда ответ уже выглядит странно и надо понять, на каком шаге всё поехало.

С чего начать

Откройте trace и увидите последовательность шагов и проблемный участок.
Сверьте latency и стоимость и найдите узел, который тормозит или дорожает.
Сравните prompt и retrieval и поймите, что править дальше.

Открыть сервис observe.ai.redmadrobot.com

LongFuse / Langfuse

Trace analytics

Стилизованный visual

Трейсы

248

Latency

1.8s

Стоимость

$12.4

Качество

Ход выполнения

traceslatencycostquality

red_mad_evalQualityОсновной инструмент

Проверить качество сценария до релиза и увидеть регрессии

Нужен после изменений, когда важно подтвердить, что качество не просело на контрольных кейсах.

С чего начать

Запустите набор кейсов и сравните результат между версиями.
Откройте scorecards и посмотрите, где именно сценарий начал проваливаться.
Сверьте релиз-кандидаты и принимайте решение по данным, а не по ощущению.

Открыть сервис agenteval.ai.redmadrobot.com

red_mad_eval

Release gate

Стилизованный visual

Контрольные метрики

task-following

0.94

tool-choice

0.87

citations

0.91

safety

0.99

Решение по релизу

PASS

Новый релиз проходит контрольные кейсы и не ухудшает сценарии на тестовом наборе.

scorecardsнабор кейсовсравнение версийPASS

JupyterHubResearchОсновной инструмент

Проверить гипотезу на данных, собрать notebook и показать выводы команде

Идите в notebook-среду, когда нужно копнуть глубже: собрать выборку, построить график, посчитать метрику или быстро проверить гипотезу.

С чего начать

Откройте ноутбук и соберите код, таблицы и выводы в одном месте.
Постройте график или срез и покажите команде, что именно меняется.
Сохраните воспроизводимый notebook, чтобы у гипотезы осталась проверяемая история.

Открыть сервис jupyter.ai.redmadrobot.com

JupyterHub

Исследовательский notebook

Стилизованный visual

Ячейки

import pandas as pd

trace_df = load_runs('agent_eval')

trace_df.groupby('scenario').score.mean()

plot_regression_delta(trace_df)

График

ячейкикодграфикрезультаты вычислений

Что открыть дальше

Откройте Agent Gateway

Начните с runtime, если нужно быстро понять, что происходит в системе. Дальше переходите к трейсам, eval и notebook, когда понадобится глубже разбирать проблему.

Открыть Agent Gateway

Когда понадобится следующий шаг

ПользователиЕсли нужен простой пользовательский вход без инженерного контура.ЭкспертыЕсли новый сценарий ещё только собирается как workflow.АгентыЕсли сначала нужно подобрать ресурсы для агента.АдминистраторыЕсли проблема связана с доступами или gateway-слоем.