Сценарий 01
Нужно быстро увидеть состояние runtime и маршрутов.
Откройте Agent Gateway, когда важен текущий operational контур.
Runtime, качество и данные
Раздел для тех, кто уже не просто пользуется AI-инструментом, а поддерживает и улучшает рабочую систему.
Типовой путь инженера
Сначала смотрим runtime, потом уходим в traces, eval или notebook — в зависимости от вопроса.
Откройте runtime
Поймите, что сейчас запущено и где искать проблему в первую очередь.
Разберите качество и задержки
Смотрите traces, scorecards и метрики по шагам, а не только финальный ответ.
Проверьте гипотезу на данных
Перейдите в notebook, если нужно посчитать, сравнить и показать выводы команде.
Разные инженерные инструменты нужны на разных стадиях разбора: runtime, traces, quality или исследование.
Сценарий 01
Нужно быстро увидеть состояние runtime и маршрутов.
Откройте Agent Gateway, когда важен текущий operational контур.
Сценарий 02
Нужно подробно разобрать trace, latency и стоимость конкретного запуска.
Откройте Langfuse, когда нужен разбор поведения по шагам.
Сценарий 03
Нужно проверить качество и регрессии перед релизом.
Перейдите в red_mad_eval и сравните сценарий на контрольных кейсах.
Сценарий 04
Нужно проверить гипотезу на данных или собрать notebook.
Используйте JupyterHub для воспроизводимого исследования.
Нужен, когда надо увидеть, что сейчас запущено, куда идут запросы и с чего начать разбор проблемы.
С чего начать
Активные маршруты
Операционный журнал
> route request to task cluster
> attach policies and runtime context
> inspect gateway health for regressions
> stream output to operator console
Этот инструмент нужен, когда ответ уже выглядит странно и надо понять, на каком шаге всё поехало.
С чего начать
Трейсы
248
Latency
1.8s
Стоимость
$12.4
Качество
92
Ход выполнения
Нужен после изменений, когда важно подтвердить, что качество не просело на контрольных кейсах.
С чего начать
Контрольные метрики
task-following
tool-choice
citations
safety
Решение по релизу
PASS
Новый релиз проходит контрольные кейсы и не ухудшает сценарии на тестовом наборе.
Идите в notebook-среду, когда нужно копнуть глубже: собрать выборку, построить график, посчитать метрику или быстро проверить гипотезу.
С чего начать
Ячейки
import pandas as pd
trace_df = load_runs('agent_eval')
trace_df.groupby('scenario').score.mean()
plot_regression_delta(trace_df)
График
Что открыть дальше
Начните с runtime, если нужно быстро понять, что происходит в системе. Дальше переходите к трейсам, eval и notebook, когда понадобится глубже разбирать проблему.