Pantera Capital и Franklin Templeton присоединились к программе Arena для тестирования ИИ-агентов

Pantera Capital и Franklin Templeton присоединились к программе Arena для тестирования ИИ-агентов

Pantera Capital и подразделение цифровых активов Franklin Templeton вошли в первую группу участников Arena — новой среды для тестирования от open-source лаборатории Sentient, предназначенной для оценки работы ИИ-агентов в задачах, похожих на корпоративные процессы.

Sentient позиционирует Arena как платформу для бенчмаркинга в условиях, приближенных к реальной эксплуатации, а не как статичное тестирование моделей. Вместо проверки на фиксированных наборах данных система прогоняет агентов через стандартизированные задания, имитирующие рабочие условия компаний: длинные документы, неполные сведения и противоречивые источники.

По словам продакт-лида Sentient Labs Олега Голева, на первом этапе участие означает поддержку программы Arena и сообщества разработчиков. Он добавил, что партнеры помогают сформировать понимание того, как выглядит «готовое к продакшену» рассуждение в задачах с большим количеством документов — включая аналитику, комплаенс и операционные процессы. При этом компании не объявляют о каких-либо инвестиционных обязательствах, связанных с инициативой.

Запуск происходит на фоне того, что компании ускоряют внедрение ИИ-агентов в исследовательские и операционные процессы, тогда как механизмы управления и контроля отстают.

Согласно отчету Celonis 2026 Process Optimization Report, опубликованному 4 февраля, 85% опрошенных руководителей высшего звена планируют стать «агентными предприятиями» в течение трех лет, однако лишь 19% уже используют многоагентные системы.

The 2026 Process Optimization Report. Источник: Celonis

Оценка в условиях продакшена, а не статичные баллы

Голев описал Arena как общую платформу, где разработчики отправляют ИИ-агентов на стандартизированные задания и сравнивают результаты при единых условиях тестирования.

Платформа фиксирует типы сбоев — например, галлюцинации, отсутствие подтверждающих данных, неверные ссылки на источники и пробелы в логике — чтобы разработчики могли выявлять повторяющиеся проблемы.

В Arena планируют публиковать сравнительные метрики в виде публичного рейтинга, а также выпускать разборы, где будут собраны типичные причины ошибок и способы их устранения.

Инфраструктурные партнеры, включая OpenRouter и Fireworks, предоставляют вычислительные ресурсы для инференса в рамках первого набора участников, а другие партнеры помогают с инструментами и обучающими мероприятиями.

Слой управления на фоне растущей автономности ИИ

Инициатива появляется в момент, когда финансовые и криптокомпании экспериментируют с тем, чтобы дать ИИ-системам больше экономической автономности.

Так, MoonPay запустила инфраструктуру, которая позволяет ИИ-агентам создавать кошельки и выполнять транзакции со стейблкоинами. Ранее представители Stripe предупреждали, что при росте ИИ-коммерции блокчейнам могут потребоваться существенные улучшения масштабирования.

Источник: Celonis