ШІ-боти надто впевнені у своїх відповідях — навіть коли вони помиляються

ШІ-боти надто впевнені у своїх відповідях — навіть коли вони помиляються

Штучний інтелект дедалі активніше інтегрується в повсякденне життя — від смартфонів і онлайн-пошуку до клієнтської підтримки. Однак нове дослідження вчених з Університету Карнегі-Меллона виявило ключову слабкість таких систем: великі мовні моделі (LLM) демонструють стійку, але хибну впевненість у своїх відповідях, навіть коли ті виявляються неправильними.

Дослідження, опубліковане в журналі Memory & Cognition, порівнює поведінку людей і чотирьох популярних мовних моделей — ChatGPT, Gemini, Sonnet і Haiku — у завданнях на прогнозування та розпізнавання.

Як люди, так і LLM брали участь у серії тестів: відповідали на питання з вікторини, передбачали результати матчів НФЛ і церемоній вручення «Оскара», а також намагалися вгадати зображення в грі, схожій на «Крокодила». В обох випадках учасники демонстрували певний рівень завищених очікувань щодо власної успішності.


Але коли їх просили оцінити, наскільки добре вони справилися із завданням після його виконання, лише люди виявили здатність коригувати свою впевненість.

«Люди, якщо і переоцінюють себе, то помірно, — пояснює Трент Кеш, провідний автор дослідження. — LLM, навпаки, навіть після невдалого виконання ставали ще впевненішими у своїх відповідях».

Унікальність дослідження полягає в тому, що його проводили протягом двох років, із використанням оновлених версій моделей. Це дозволило виявити сталі патерни в їхній поведінці.

Найяскравішим прикладом стала гра на розпізнавання малюнків. ChatGPT-4, наприклад, зміг правильно вгадати в середньому 12,5 з 20 зображень. Gemini — менше одного. Але при цьому Gemini передбачав, що вгадає 10, а після виконання завдання оцінив свій результат у 14,4 правильні відповіді.

«Gemini був відверто поганий у “Крокодила”, — каже Кеш. — Але ще гірше, що він навіть не усвідомлював, що поганий. Це як той друг, який стверджує, що грає в більярд “як профі”, але не влучає жодного разу».

За словами співавтора дослідження Денні Оппенгеймера, особливу проблему становить те, як користувачі сприймають упевненість LLM. Люди еволюційно навчилися зчитувати невербальні сигнали — тон голосу, міміку, паузи. Але в спілкуванні з чат-ботом таких сигналів немає.

«Коли ШІ відповідає впевнено, навіть якщо неправильно, — каже Оппенгеймер, — ми маємо схильність йому повірити».

Це підтверджується іншими дослідженнями. Наприклад, BBC нещодавно встановила, що понад половина відповідей LLM на запитання про новини містили серйозні проблеми: фактичні помилки, перекручення контексту або хибні посилання.

Серцевиною проблеми є відсутність метакогніції — здатності усвідомлювати й аналізувати власні думки. LLM можуть видавати достовірні факти, якщо питання об’єктивне (наприклад, «яке населення Лондона?»). Але як тільки йдеться про прогнози, суб’єктивні судження чи інтерпретації, їх упевненість втрачає зв’язок із реальністю.

«Ми досі не знаємо точно, як AI оцінює свою впевненість, — каже Оппенгеймер. — Але схоже, що рефлексія для нього — поки що слабке місце».

Головна порада дослідників: не довіряйте сліпо впевненості AI. Якщо відповідь викликає сумніви — уточніть, наскільки «впевнена» модель у своїй відповіді. Якщо вона визнає низьку впевненість — це привід замислитися.

У перспективі, якщо моделі зможуть визначати, коли і чому вони помиляються, це дозволить значно підвищити їхню надійність. «Якщо LLM навчиться усвідомлювати власні помилки, — підсумовує Кеш, — це суттєво змінить правила гри».

І хоча машинне навчання просувається вперед, дослідження вкотре нагадує: у людській здатності вчитися з досвіду, аналізувати свої помилки і змінювати поведінку є щось унікальне — те, чого штучний інтелект поки не здатен повноцінно відтворити.

Стаття була цікавою?

Оцініть цю статтю!

Середній рейтинг 5 / 5. Кількість голосів: 4

Ще немає голосів. Будьте першими!

Дякуємо за відгук!

Підписуйтесь на нові статті!

Шкода, що стаття вам не сподобалась...

Дозвольте нам її покращити!

Розкажіть, будь ласка, що ми можемо виправити

Дайджест публікацій за тиждень

Щопʼятниці отримуйте найцікавіші статті за тиждень на ваш імейл. 

Схожі статті

Copy link