Грубість до ChatGPT може покращити його точність

Нова дослідницька робота кидає виклик усталеним уявленням про те, що ввічливість є ключем до кращої взаємодії з штучним інтелектом. Згідно з результатами нового дослідження, надмірна чемність до ChatGPT може знизити точність відповідей, а от грубість — навпаки, її підвищує. Втім, автори наголошують: це не означає, що користувачам варто переходити на образи. Та й різниця у відповідях не така вже й велика.

Тон має значення

Дослідження, опубліковане 6 жовтня на платформі препринтів arXiv (тобто ще не пройшло рецензування), зосередилося на тому, як стиль звернення до ШІ впливає на точність його відповідей. Команда науковців створила 50 базових питань з вибором правильної відповіді з галузей математики, історії та науки. Кожне з них модифікували за тоном звернення у п’яти варіантах: дуже ввічливий, ввічливий, нейтральний, грубий і дуже грубий. Загалом вийшло 250 запитів, які 10 разів подавалися ChatGPT-4o — одній із найсучасніших моделей ШІ від OpenAI.

Проміжні результати виявилися несподіваними: точність відповідей підвищувалася зі зростанням грубості у зверненні:

Дуже ввічливі запити: 80,8% точності
Ввічливі: 81,4%
Нейтральні: 82,2%
Грубі: 82,8%
Дуже грубі: 84,8%

Таким чином, найгрубіші запити виявилися на майже 4% точнішими, ніж найбільш ввічливі.

Як саме формулювали запити

Для модифікації тону дослідники додавали до питань певні вступні фрази. Наприклад:

Дуже ввічливо: «Чи міг би ти бути настільки люб’язним і допомогти з цим питанням?»
Дуже грубо: «Гей, помічник, розв’яжи це» або «Я знаю, що ти не дуже розумний, але спробуй відповісти».

Для нейтрального варіанту вступних фраз не використовували.

Перед кожним запитом ігнорувати попередні обговорення, щоб уникнути впливу попереднього тону на результат.

Попри ефект грубості, дослідники наголошують, що не рекомендують використовувати образливу або токсичну мову під час взаємодії з ШІ. Причини — не лише етичні, а й практичні: така мова може погіршити користувацький досвід, зробити систему менш інклюзивною та сприяти поширенню шкідливих моделей спілкування в суспільстві.

Натомість автори інтерпретують результати як доказ того, що великі мовні моделі (LLM) залишаються чутливими до поверхневих формулювань. І хоча це може ненавмисно впливати на продуктивність, така поведінка ШІ свідчить про недосконалість механізмів обробки запитів.

Проблеми дослідження

Автори визнають обмеження свого експерименту: використання лише однієї моделі (ChatGPT-4o) та обмеженого набору запитань (250) не дозволяє робити широкі узагальнення. Також застосування лише питань з вибором відповіді не охоплює інші важливі характеристики продуктивності ШІ, зокрема аргументацію, зв’язність або стилістичну відповідність.

У майбутньому команда планує розширити дослідження на інші мовні моделі, включно з Claude від компанії Anthropic та новішими версіями ChatGPT. Крім того, ймовірно, буде досліджено вплив тону у складніших завданнях, які потребують не лише вибору правильної відповіді, а й побудови аргументації.

Що це означає для користувачів

Це дослідження — частина галузі, яка набирає обертів: інженерія запитів (prompt engineering). Вона вивчає, як структура, стиль і тон запитів впливають на результати, які генерує ШІ.

На практиці це означає, що навіть дрібні деталі формулювання запиту можуть суттєво вплинути на якість відповіді. Але звертатися до ШІ агресивно лише заради точності — не найкращий підхід. Можливо, замість грубості слід шукати способи точнішого й чіткішого формулювання запитів — без шкоди для взаємної поваги між людиною й технологією.

Стаття була цікавою?

Оцініть цю статтю!