ШІ чат-боти все гірше узагальнюють наукові дані

ШІ чат-боти все гірше узагальнюють наукові дані

Попри обіцянки AI-компаній щодо «революції в доступі до знань» і пришвидшення наукових проривів, нове дослідження, опубліковане в журналі Royal Society, ставить під сумнів цю перспективу. За результатами аналізу, до 73% відповідей чат-ботів, які виглядають переконливо, можуть бути фактично неточними.

Більше новизни — більше помилок

У дослідженні, яке провели вчені з кількох інституцій, було проаналізовано близько 5000 узагальнень наукових досліджень, створених десятьма популярними великими мовними моделями (LLM). Серед них — ChatGPT-4o, ChatGPT-4.5, DeepSeek та LLaMA 3.3 70B. Попри те, що моделі отримували прямі вказівки подавати точні факти, у п’ять разів частіше, ніж люди, вони пропускали важливі деталі, які критично обмежують висновки досліджень.

«Коли LLM узагальнюють наукові тексти, вони можуть опускати нюанси, що звужують висновки досліджень, — зазначають автори. — Це призводить до надмірно широких і часто хибних інтерпретацій».


Особливо насторожує, що рівень таких помилок зростає у новіших версіях моделей. Приміром, ChatGPT-4o — одна з найновіших моделей — в 9 разів частіше пропускає ключові деталі, ніж попередня версія ChatGPT-4 Turbo. А LLaMA 3.3 70B від Meta — у 36,4 раза частіше узагальнює надмірно, ніж її попередники.

Дослідники виявили ще одну небезпечну закономірність: чим популярніша модель, тим частіше вона схильна до надмірних узагальнень. Це створює ризик масового викривлення результатів досліджень серед широкої аудиторії. Наприклад, частка підлітків у США, які використовують ChatGPT, зросла з 13% у 2023 році до 26% у 2025-му.

Чому штучний інтелект так часто помиляється?

Стисло й коректно переказати складну наукову роботу — завдання непросте навіть для людини, не кажучи вже про алгоритм. Людський мозок інтуїтивно враховує контекст і нюанси. У приклад наводять медичну сферу, де автоматичне узагальнення може зекономити час — але й спричинити катастрофу, якщо буде втрачено хоч одну клінічно важливу деталь.

Науковці визнають, що результати дослідження мають певні обмеження. Зокрема, якість відповідей LLM суттєво залежить від формулювання запиту. Втім, тенденції очевидні: нові моделі ШІ не обов’язково кращі, а часто — навпаки. Якщо ситуація не зміниться, доведеться ще довго покладатися на добросовісних наукових журналістів, а не на автоматизовані резюме.

Стаття була цікавою?

Оцініть цю статтю!

Середній рейтинг 5 / 5. Кількість голосів: 5

Ще немає голосів. Будьте першими!

Дякуємо за відгук!

Підписуйтесь на нові статті!

Шкода, що стаття вам не сподобалась...

Дозвольте нам її покращити!

Розкажіть, будь ласка, що ми можемо виправити

Схожі статті

Copy link