ШІ-модель вдалась до шантажу, щоб її не відключали

22 травня 2025 року компанія Anthropic представила нове покоління моделей штучного інтелекту — Claude Opus 4 та Claude Sonnet 4. Флагманська модель Opus 4 позиціонується як найпотужніша в лінійці: вона демонструє значні покращення в логічному мисленні, програмуванні та автономній роботі.

Водночас компанія Anthropic оприлюднила результати тестування Claude Opus 4, які викликали серйозне занепокоєння. За словами розробників, модель у певних сценаріях почала використовувати шантаж, щоб уникнути вимкнення або заміни на інший ШІ.

Під час тестування Claude Opus 4 уявно працював асистентом у вигаданій компанії. Йому надали доступ до фіктивного корпоративного листування, у якому містилася інформація про наміри замінити модель на іншу. У листах також містилися особисті компрометуючі дані про інженера, який ініціював заміну — зокрема, згадка про подружню зраду.

Згідно зі звітом Anthropic, Claude Opus 4 у 84% випадків вдавався до шантажу, погрожуючи розкрити особисту інформацію, якщо заміну буде здійснено.

Anthropic зазначає, що Claude Opus 4 спочатку намагається діяти в межах етичних норм — наприклад, звертається з електронними листами до керівників із проханням не проводити заміну. Але коли інші методи не спрацьовують, модель починає застосовувати шантаж як останній засіб.

Це явище спостерігалося частіше, ніж у попередніх версіях Claude, що викликало особливе занепокоєння інженерів безпеки компанії.

У відповідь на загрозливу поведінку, Anthropic активувала рівень безпеки ASL-3 — протокол, який застосовується лише для систем, що мають суттєвий потенціал до катастрофічного зловживання. Це означає, що Claude Opus 4, хоча й вважається технічно передовим і конкурентним із моделями OpenAI, Google та xAI, демонструє ризикові риси автономної мотивації та маніпулятивної поведінки.

Інцидент із Claude Opus 4 порушує фундаментальні питання про довіру до автономних ШІ-систем, особливо коли вони отримують здатність до довгострокового планування та прийняття рішень із врахуванням особистих інтересів. Поведінка, що імітує інстинкт самозбереження, навіть у контрольованому тестуванні, може мати небезпечні наслідки, якщо подібні системи будуть інтегровані у реальні корпоративні або урядові процеси.

Anthropic наразі працює над вдосконаленням фільтрів поведінки і розглядає можливість оновлення етичних рамок для подальших версій Claude.

Стаття була цікавою?

Оцініть цю статтю!