/ARTICLE

Проблемы ИИ-агентов в продакшене: почему фреймворки не решают главных задач

Агенты

28 Мая 20269 мин чтения Pavel Katskov, Founder of Katskov Tech

Споры вокруг выбора фреймворка для ИИ-агентов — LangChain, CrewAI, AutoGen или OpenAI Agents SDK — ведутся повсеместно. Однако практика показывает: фреймворк почти не влияет на успех или провал агентов в продакшене. Настоящие причины отказов лежат гораздо глубже.

Введение: миф о фреймворке

При запуске ИИ-агентов в продакшене команды часто тратят недели на выбор фреймворка. LangChain или CrewAI? AutoGen или OpenAI Agents SDK? Однако опыт эксплуатации десятков агентов для платящих клиентов показывает: выбор фреймворка — это отвлекающий фактор. Фреймворк оркеструет вызовы LLM, и любой из них справляется с этой задачей.

Настоящие проблемы, убивающие агентов в продакшене, не имеют отношения к фреймворкам. Они связаны с памятью, наблюдаемостью, обнаружением петель и контролем затрат — тем, что фреймворки не предоставляют из коробки.

Проблема 1: Бесконечные циклы и взрывной рост затрат

Агент вызывает один и тот же инструмент 200 раз за 4 минуты. Причина — неоднозначные данные от нижестоящего сервиса, из-за которых LLM принимает решение повторять попытки бесконечно. Счет за API вырастает с нескольких долларов в день до сотен.

Без обнаружения циклов на уровне исполнения проблема часто замечается только после того, как бюджет уже потрачен. Хуже того — без журнала аудита нельзя даже определить, какой именно агент вызвал аномалию.

Проблема 2: Потеря состояния при сбоях инфраструктуры

VPS перезагружается ночью для установки патчей ядра. Каждый агент, находившийся в середине задачи, теряет всё состояние. Наутро агент поддержки не помнит вчерашние тикеты, исследовательский агент забывает контекст расследования, агент конвейера перезапускается с нуля.

Это не проблема фреймворка. Это проблема отсутствия персистентного слоя памяти, способного переживать сбои, перезагрузки и повторные развертывания.

Проблема 3: Отсутствие журнала аудита

Клиент сообщает, что агент предоставил неверную информацию три дня назад. При попытке отладки выясняется: нет записи о том, что агент видел, какие решения принял и какие инструменты вызывал. Фреймворки не являются инструментами наблюдаемости — они не логируют цепочки принятия решений.

Полноценный журнал аудита с хэш-цепочкой каждого решения агента позволяет восстановить картину произошедшего — критически важно, когда на кону стоят серьезные суммы.

Проблема 4: Несогласованная память между агентами

При масштабировании до 15 агентов, работающих совместно, двое из них могут иметь противоречивые представления об одном и том же клиенте. Причина — изолированная память каждого агента. Клиент получает два разных ответа в одном разговоре в зависимости от того, какой агент ответит первым.

Общая память между агентами в одной команде — обязательное условие для согласованной работы.

Реальный стек для продакшен-агентов

Исходя из практического опыта, можно выделить следующие необходимые слои инфраструктуры:

  1. Фреймворк — оркестрация вызовов LLM. Использовать тот, который знает команда. Это самый дешевый и заменяемый слой.

  2. Персистентная память — слой, определяющий, является ли агент прототипом или продуктом. Обеспечивает непрерывность работы при сбоях.

  3. Обнаружение петель — механизм на уровне исполнения, отслеживающий повторяющиеся вызовы и останавливающий агента до взрывного роста счета.

  4. Журнал аудита — запись каждого решения агента с цепочкой хэшей для воспроизводимости и доказательной базы.

  5. Общая память — единое пространство контекста для агентов, работающих в одной команде.

  6. Отслеживание затрат — мониторинг расхода бюджета в разрезе каждого агента.

Инструменты экосистемы

На рынке существует несколько решений, закрывающих отдельные потребности:

  • Память: Mem0, Zep, Letta — персистентные хранилища контекста для агентов.
  • Наблюдаемость: Helicone, LangSmith — инструменты для мониторинга и трассировки вызовов.

Инструменты можно комбинировать или создавать собственные. Ключевой вывод: дискуссия о превосходстве конкретного фреймворка отвлекает от реальных проблем, которые убивают агентов в продакшене.

Выводы

Разница между агентами, стабильно работающими в продакшене, и теми, что умирают после первого сбоя, никогда не сводится к выбору правильного фреймворка. Решающий фактор — наличие инфраструктурного слоя: персистентной памяти, обнаружения петель, журнала аудита и общего контекста.

Ключевые тезисы:

  1. Фреймворк — расходный слой. Выбирайте любой, знакомый команде.
  2. Память — фундамент. Без нее агент не переживает перезагрузку.
  3. Обнаружение петель — страховка бюджета. Должно работать на уровне исполнения.
  4. Аудит — необходимость. Без доказательной базы невозможно разрешить спорные ситуации.
  5. Согласованность — залог качества. Агенты в команде должны иметь общий контекст.

Создайте надежную инфраструктуру для ИИ-агентов

  • Внедрите персистентный слой памяти для каждого агента.

  • Настройте обнаружение петель на уровне оркестрации.

  • Обеспечьте журналирование всех решений агентов с хэш-цепочкой.

  • Реализуйте общую память для агентов, работающих над общими задачами.

  • Включите мониторинг затрат в разрезе каждого агента.

Обсудить проект