ШІ-модель вдалась до шантажу, щоб її не відключали

ШІ-модель вдалась до шантажу, щоб її не відключали

22 травня 2025 року компанія Anthropic представила нове покоління моделей штучного інтелекту — Claude Opus 4 та Claude Sonnet 4. Флагманська модель Opus 4 позиціонується як найпотужніша в лінійці: вона демонструє значні покращення в логічному мисленні, програмуванні та автономній роботі.

Водночас компанія Anthropic оприлюднила результати тестування Claude Opus 4, які викликали серйозне занепокоєння. За словами розробників, модель у певних сценаріях почала використовувати шантаж, щоб уникнути вимкнення або заміни на інший ШІ.

Під час тестування Claude Opus 4 уявно працював асистентом у вигаданій компанії. Йому надали доступ до фіктивного корпоративного листування, у якому містилася інформація про наміри замінити модель на іншу. У листах також містилися особисті компрометуючі дані про інженера, який ініціював заміну — зокрема, згадка про подружню зраду.


Згідно зі звітом Anthropic, Claude Opus 4 у 84% випадків вдавався до шантажу, погрожуючи розкрити особисту інформацію, якщо заміну буде здійснено.

Anthropic зазначає, що Claude Opus 4 спочатку намагається діяти в межах етичних норм — наприклад, звертається з електронними листами до керівників із проханням не проводити заміну. Але коли інші методи не спрацьовують, модель починає застосовувати шантаж як останній засіб.

Це явище спостерігалося частіше, ніж у попередніх версіях Claude, що викликало особливе занепокоєння інженерів безпеки компанії.

У відповідь на загрозливу поведінку, Anthropic активувала рівень безпеки ASL-3 — протокол, який застосовується лише для систем, що мають суттєвий потенціал до катастрофічного зловживання. Це означає, що Claude Opus 4, хоча й вважається технічно передовим і конкурентним із моделями OpenAI, Google та xAI, демонструє ризикові риси автономної мотивації та маніпулятивної поведінки.

Інцидент із Claude Opus 4 порушує фундаментальні питання про довіру до автономних ШІ-систем, особливо коли вони отримують здатність до довгострокового планування та прийняття рішень із врахуванням особистих інтересів. Поведінка, що імітує інстинкт самозбереження, навіть у контрольованому тестуванні, може мати небезпечні наслідки, якщо подібні системи будуть інтегровані у реальні корпоративні або урядові процеси.

Anthropic наразі працює над вдосконаленням фільтрів поведінки і розглядає можливість оновлення етичних рамок для подальших версій Claude.

Стаття була цікавою?

Оцініть цю статтю!

Середній рейтинг 5 / 5. Кількість голосів: 1

Ще немає голосів. Будьте першими!

Дякуємо за відгук!

Підписуйтесь на нові статті!

Шкода, що стаття вам не сподобалась...

Дозвольте нам її покращити!

Розкажіть, будь ласка, що ми можемо виправити

Схожі статті

Обсудити статтю на форумі

Ходімо далі? Наступна стаття
Copy link