OpenZeppelin выявила загрязнение данных и ошибки в бенчмарке EVMbench от OpenAI

OpenZeppelin выявила загрязнение данных и ошибки в бенчмарке EVMbench от OpenAI

Компания по безопасности блокчейнов OpenZeppelin заявила, что при проверке нового ИИ-бенчмарка для блокчейн-безопасности EVMbench обнаружила методологические недочеты и загрязнение данных.

EVMbench был запущен в середине февраля в партнерстве с инвестиционной криптофирмой Paradigm. Он предназначен для оценки того, насколько разные модели ИИ умеют находить, исправлять и эксплуатировать уязвимости смарт-контрактов.

В публикации в X в понедельник OpenZeppelin отметила, что приветствует инициативу, но решила подвергнуть EVMbench «такой же проверке», какую применяет ко всем протоколам, безопасность которых помогает обеспечивать.

По итогам аудита OpenZeppelin выделила две основные проблемы: загрязнение обучающих данных и ошибки классификации ряда уязвимостей высокой критичности.

Компания заявила, что в датасете обнаружены методологические дефекты и некорректные классификации, включая как минимум четыре случая, отмеченных как high severity, которые на практике неэксплуатируемы.

image.png
Источник: OpenZeppelin

После релиза EVMbench также были опубликованы результаты оценки того, насколько ИИ-агенты теоретически способны эксплуатировать уязвимости смарт-контрактов. Первое место занял Anthropic Claude Open 4.6, далее — OpenAI OC-GPT-5.2 и Google Gemini 3 Pro.

EVMbench может потребовать пересмотра методики тестирования

Разбирая проблему загрязнения данных, OpenZeppelin подчеркнула, что ключевая способность в «ИИ-безопасности» — находить новые уязвимости в коде, которого модель раньше не видела.

Однако, по словам компании, ИИ-агенты с наивысшими результатами, вероятно, уже сталкивались с отчетами об уязвимостях из набора EVMbench на этапе предобучения.

Во время тестов EVMbench доступ к интернету у агентов был отключен, чтобы они не могли просто искать готовые решения. При этом бенчмарк основан на отобранных уязвимостях из 120 аудитов за период с 2024 года по середину 2025 года, а отсечки знаний у многих моделей — также примерно середина 2025 года.

Из-за этого возникает риск, что ответы на задания уже «хранятся в памяти» моделей.

OpenZeppelin отметила, что даже если это не помогает сразу распознать проблему, качество теста снижается. Дополнительно ситуацию усугубляет небольшой размер датасета, который сужает поверхность оценки и делает вопросы загрязнения еще более значимыми.

Кроме того, OpenZeppelin указала на серьезные фактические ошибки в данных EVMbench и заявила, что несколько уязвимостей, обозначенных как high severity, на деле некорректны.

Компания сообщила, что изучила как минимум четыре уязвимости, которым EVMbench присвоил высокий уровень риска, но описанная эксплуатация в реальности не работает. При этом EVMbench засчитывал ИИ-агентам «правильные» ответы за нахождение таких уязвимостей.

По словам OpenZeppelin, это не спор о степени критичности, а случаи, когда заявленный эксплойт не работает.

В итоге OpenZeppelin подчеркнула, что ИИ заметно усилит безопасность блокчейнов, но важно корректно применять технологии и выстраивать тестирование, чтобы раскрыть их потенциал. В компании добавили, что вопрос не в том, изменит ли ИИ безопасность смарт-контрактов, а в том, будут ли данные и бенчмарки для разработки и оценки этих инструментов соответствовать тем же стандартам, что и контракты, которые они должны защищать.

Источник информации: OpenZeppelin (X)