Попри обіцянки AI-компаній щодо «революції в доступі до знань» і пришвидшення наукових проривів, нове дослідження, опубліковане в журналі Royal Society, ставить під сумнів цю перспективу. За результатами аналізу, до 73% відповідей чат-ботів, які виглядають переконливо, можуть бути фактично неточними.
Більше новизни — більше помилок
У дослідженні, яке провели вчені з кількох інституцій, було проаналізовано близько 5000 узагальнень наукових досліджень, створених десятьма популярними великими мовними моделями (LLM). Серед них — ChatGPT-4o, ChatGPT-4.5, DeepSeek та LLaMA 3.3 70B. Попри те, що моделі отримували прямі вказівки подавати точні факти, у п’ять разів частіше, ніж люди, вони пропускали важливі деталі, які критично обмежують висновки досліджень.
«Коли LLM узагальнюють наукові тексти, вони можуть опускати нюанси, що звужують висновки досліджень, — зазначають автори. — Це призводить до надмірно широких і часто хибних інтерпретацій».
Особливо насторожує, що рівень таких помилок зростає у новіших версіях моделей. Приміром, ChatGPT-4o — одна з найновіших моделей — в 9 разів частіше пропускає ключові деталі, ніж попередня версія ChatGPT-4 Turbo. А LLaMA 3.3 70B від Meta — у 36,4 раза частіше узагальнює надмірно, ніж її попередники.
Дослідники виявили ще одну небезпечну закономірність: чим популярніша модель, тим частіше вона схильна до надмірних узагальнень. Це створює ризик масового викривлення результатів досліджень серед широкої аудиторії. Наприклад, частка підлітків у США, які використовують ChatGPT, зросла з 13% у 2023 році до 26% у 2025-му.
Чому штучний інтелект так часто помиляється?
Стисло й коректно переказати складну наукову роботу — завдання непросте навіть для людини, не кажучи вже про алгоритм. Людський мозок інтуїтивно враховує контекст і нюанси. У приклад наводять медичну сферу, де автоматичне узагальнення може зекономити час — але й спричинити катастрофу, якщо буде втрачено хоч одну клінічно важливу деталь.
Науковці визнають, що результати дослідження мають певні обмеження. Зокрема, якість відповідей LLM суттєво залежить від формулювання запиту. Втім, тенденції очевидні: нові моделі ШІ не обов’язково кращі, а часто — навпаки. Якщо ситуація не зміниться, доведеться ще довго покладатися на добросовісних наукових журналістів, а не на автоматизовані резюме.
Підписуйтесь на розсилку "Цікаві статті"
Кожної пʼятниці ми надсилатимемо вам нові цікаві статті за тиждень у вашу поштову скриньку. Відписатися можна будь-коли. Наш контент на 100% безплатний.