OpenZeppelin выявила загрязнение данных и ошибки в бенчмарке EVMbench от OpenAI
Компания по безопасности блокчейнов OpenZeppelin заявила, что при проверке нового ИИ-бенчмарка для блокчейн-безопасности EVMbench обнаружила методологические недочеты и загрязнение данных.
EVMbench был запущен в середине февраля в партнерстве с инвестиционной криптофирмой Paradigm. Он предназначен для оценки того, насколько разные модели ИИ умеют находить, исправлять и эксплуатировать уязвимости смарт-контрактов.
В публикации в X в понедельник OpenZeppelin отметила, что приветствует инициативу, но решила подвергнуть EVMbench «такой же проверке», какую применяет ко всем протоколам, безопасность которых помогает обеспечивать.
По итогам аудита OpenZeppelin выделила две основные проблемы: загрязнение обучающих данных и ошибки классификации ряда уязвимостей высокой критичности.
Компания заявила, что в датасете обнаружены методологические дефекты и некорректные классификации, включая как минимум четыре случая, отмеченных как high severity, которые на практике неэксплуатируемы.

После релиза EVMbench также были опубликованы результаты оценки того, насколько ИИ-агенты теоретически способны эксплуатировать уязвимости смарт-контрактов. Первое место занял Anthropic Claude Open 4.6, далее — OpenAI OC-GPT-5.2 и Google Gemini 3 Pro.
EVMbench может потребовать пересмотра методики тестирования
Разбирая проблему загрязнения данных, OpenZeppelin подчеркнула, что ключевая способность в «ИИ-безопасности» — находить новые уязвимости в коде, которого модель раньше не видела.
Однако, по словам компании, ИИ-агенты с наивысшими результатами, вероятно, уже сталкивались с отчетами об уязвимостях из набора EVMbench на этапе предобучения.
Во время тестов EVMbench доступ к интернету у агентов был отключен, чтобы они не могли просто искать готовые решения. При этом бенчмарк основан на отобранных уязвимостях из 120 аудитов за период с 2024 года по середину 2025 года, а отсечки знаний у многих моделей — также примерно середина 2025 года.
Из-за этого возникает риск, что ответы на задания уже «хранятся в памяти» моделей.
OpenZeppelin отметила, что даже если это не помогает сразу распознать проблему, качество теста снижается. Дополнительно ситуацию усугубляет небольшой размер датасета, который сужает поверхность оценки и делает вопросы загрязнения еще более значимыми.
Кроме того, OpenZeppelin указала на серьезные фактические ошибки в данных EVMbench и заявила, что несколько уязвимостей, обозначенных как high severity, на деле некорректны.
Компания сообщила, что изучила как минимум четыре уязвимости, которым EVMbench присвоил высокий уровень риска, но описанная эксплуатация в реальности не работает. При этом EVMbench засчитывал ИИ-агентам «правильные» ответы за нахождение таких уязвимостей.
По словам OpenZeppelin, это не спор о степени критичности, а случаи, когда заявленный эксплойт не работает.
В итоге OpenZeppelin подчеркнула, что ИИ заметно усилит безопасность блокчейнов, но важно корректно применять технологии и выстраивать тестирование, чтобы раскрыть их потенциал. В компании добавили, что вопрос не в том, изменит ли ИИ безопасность смарт-контрактов, а в том, будут ли данные и бенчмарки для разработки и оценки этих инструментов соответствовать тем же стандартам, что и контракты, которые они должны защищать.
Источник информации: OpenZeppelin (X)