Anthropic заявила о масштабных атаках на модель Claude через «дистилляцию»

Anthropic заявила о масштабных атаках на модель Claude через «дистилляцию»

Компания Anthropic сообщила, что три ИИ-компании могли незаконно использовать ее большую языковую модель Claude для улучшения собственных моделей с помощью метода, известного как атака «дистилляции».

В воскресной публикации в блоге Anthropic заявила, что выявила такие действия со стороны DeepSeek, Moonshot и MiniMax. Суть метода — обучение менее мощной модели на ответах более сильной.

По данным Anthropic, эти три компании суммарно создали более 16 млн «обменов» с Claude, используя около 24 тыс. мошеннических аккаунтов.

В компании подчеркнули, что дистилляция сама по себе является распространенным и законным способом обучения — например, крупные лаборатории нередко «сжимают» собственные модели, чтобы выпускать более компактные и дешевые версии. Однако, по словам Anthropic, этот же подход может применяться и в незаконных целях — чтобы быстро и дешево перенять возможности конкурентов вместо самостоятельной разработки.

«Но дистилляция может применяться и для незаконных целей: конкуренты могут использовать ее, чтобы получить мощные возможности других лабораторий за долю времени и стоимости по сравнению с самостоятельной разработкой», — отметили в Anthropic.

Как заявили в Anthropic, сбор данных с Claude велся для разных задач, включая агентное рассуждение, программирование и анализ данных, проверку работ по критериям и компьютерное зрение.

В компании добавили, что каждая кампания была нацелена на наиболее отличающиеся возможности Claude — агентное рассуждение, работу с инструментами и кодинг.

Источник: Anthropic

Anthropic также сообщила, что смогла связать действия этих компаний по совокупности признаков: корреляции IP-адресов, метаданных запросов, инфраструктурных индикаторов, а в отдельных случаях — подтверждений от партнеров по отрасли, наблюдавших тех же участников и поведение на своих платформах.

DeepSeek, Moonshot и MiniMax — китайские ИИ-компании. По оценкам, все три имеют капитализацию в несколько миллиардов долларов, при этом DeepSeek наиболее известна за пределами Китая.

Помимо вопросов интеллектуальной собственности Anthropic заявила, что подобные кампании со стороны зарубежных конкурентов несут и геополитические риски.

Компания утверждает, что иностранные лаборатории, «дистиллирующие» американские модели, могут затем использовать полученные возможности в военных, разведывательных и системах наблюдения — в том числе для наступательных киберопераций, кампаний дезинформации и массовой слежки.

В дальнейшем Anthropic намерена усилить защиту за счет улучшения систем выявления подозрительного трафика, обмена данными об угрозах и ужесточения контроля доступа, а также других мер.

Кроме того, Anthropic призвала к более тесному сотрудничеству внутри отрасли и с законодателями, отметив, что в одиночку проблему не решить и для противодействия атакам такого масштаба нужны скоординированные действия ИИ-индустрии, облачных провайдеров и регуляторов.

Источник: Anthropic