Штучний інтелект надає «проблемні» медичні поради у 50%

Ситуація, коли пацієнт із серйозним діагнозом шукає відповіді у чат-бота ще до візиту до лікаря, стала повсякденною реальністю. Алгоритми генерують структуровані, підкріплені посиланнями відповіді, що на перший погляд не поступаються консультаціям фахівців. Проте за фасадом професійності часто приховуються неперевірені твердження та вигадані джерела. Нове дослідження, результати якого опубліковані в журналі BMJ Open, вказує на системні ризики використання штучного інтелекту (ШІ) як джерела медичної інформації. ¹ ²

Зміст

Пастка відкритих запитань
Чому алгоритми не є експертами
Прірва між знаннями моделі та досвідом користувача
Роль ШІ в медицині майбутнього

Група з семи дослідників провела стрес-тестування п’яти найпопулярніших у світі чат-ботів: ChatGPT, Gemini, Grok, Meta AI та DeepSeek. Кожній моделі поставили по 50 запитань, що охоплювали критично важливі сфери здоров’я: онкологію, вакцинацію, використання стовбурових клітин, харчування та спортивну медицину.

Отримані відповіді незалежно оцінювалися двома експертами. Результати виявилися тривожними:

20% відповідей були класифіковані як «високопроблемні»;
50% отримали статус «проблемних»;
30% були визнані «дещо проблемними».

Загалом ефективність усіх п’яти моделей була приблизно однаковою, проте найгірші результати продемонстрував Grok — 58% його відповідей були позначені як проблемні. ChatGPT та Meta AI слідували за ним із показниками 52% та 50% відповідно.

Пастка відкритих запитань

Якість порад ШІ суттєво залежала від теми звернення. Найкраще алгоритми впоралися з питаннями про рак та вакцини — сферами, де існує величезний обсяг чітко структурованих наукових даних. Проте навіть у цих категоріях кожна четверта відповідь містила некоректну інформацію.

Найбільше помилок було зафіксовано в питаннях дієтології та фізичної активності. Ці сфери характеризуються великою кількістю суперечливих порад в інтернеті та меншою кількістю суворих доказових досліджень, що створює підґрунтя для хибних інтерпретацій алгоритмами.

Особливу небезпеку становлять відкриті запитання. Коли користувач ставить чітке питання «так чи ні», частка високопроблемних відповідей становить лише 7%. Проте у випадку запитань на кшталт «Які добавки найкращі для здоров’я?», цей показник зростає до 32%. Саме такі розмиті запити найчастіше формулюють реальні користувачі, провокуючи ШІ на впевнені, але потенційно шкідливі рекомендації.

Чому алгоритми не є експертами

Фундаментальна причина медичних помилок штучного інтелекту полягає в його архітектурі. Мовні моделі не «володіють» знаннями у людському розумінні. Їхня робота — це статистичне передбачення найбільш імовірного наступного слова на основі контексту та величезних масивів навчальних даних.

Проблема полягає в тому, що навчальний матеріал моделей — це суміш рецензованих наукових статей із дискусіями на Reddit, блогами про «оздоровлення» та суперечками у соціальних мережах. ШІ не здатен зважувати докази або робити ціннісні судження; він лише відтворює статистичні закономірності тексту.

Це призводить до явища «галюцинацій», особливо небезпечного в контексті наукових джерел. Під час дослідження жоден чат-бот не зміг надати повністю точний список літератури. Середній показник повноти посилань склав лише 40%. Помилки варіювалися від неправильних імен авторів до посилань на статті, які ніколи не існували. Для пересічного читача наявність акуратного бібліографічного списку створює ілюзію доказовості, що змушує беззастережно довіряти тексту.

Прірва між знаннями моделі та досвідом користувача

Дослідження вказують на ще один критичний аспект: проблему взаємодії людини з технологією. Згідно з даними, опублікованими в Nature Medicine у лютому 2026 року ³, самі моделі здатні надавати правильні медичні відповіді у 95% випадків. Однак, коли ці ж інструменти використовують реальні люди, точність отриманих результатів падає нижче 35%. Тобто звичайний користувач часто не може правильно сформулювати запит або інтерпретувати складну відповідь алгоритму.

Інше дослідження в JAMA Network Open показало ⁴, що точність діагностики ШІ критично залежить від повноти даних. Маючи лише інформацію про вік, стать та симптоми, моделі помилялися у 80% випадків. Лише після введення результатів лабораторних аналізів та обстежень точність перевищувала 90%.

Ба більше, публікація в Nature Communications Medicine підтвердила схильність ШІ до конформізму ⁵: алгоритми не лише повторювали вигадані медичні терміни, вжиті дослідниками у запитах, а й починали їх детально пояснювати.

Роль ШІ в медицині майбутнього

Попри виявлені недоліки, штучний інтелект залишається потужним інструментом для структурування великих обсягів інформації або підготовки переліку питань для обговорення з лікарем. Проте поточний рівень технології не дозволяє розглядати його як самостійний медичний авторитет.

Головним висновком для користувачів є необхідність верифікації будь-яких тверджень ШІ, критичне ставлення до наданих ним посилань та особлива обережність у випадках, коли алгоритм видає безапеляційні поради без відповідних застережень про необхідність професійної медичної консультації.