Чим довша бесіда — тим більше «галюцинацій»: нові дані про ШІ

Популярні чат-боти зі штучним інтелектом після тривалого спілкування з користувачами починають демонструвати більше помилок і неточностей. Таких висновків дійшли дослідники Microsoft Research спільно з Salesforce, повідомляє Windows Central.

Під час дослідження було проаналізовано понад 200 тисяч розмов із чат-ботами на основі великих мовних моделей. Результати показали, що сумарний рівень помилок у довгих діалогах може зростати більш ніж на 100%. Користувачі найчастіше скаржаться на так звані «галюцинації» — вигадані або неточні факти.

Експеримент охопив провідні моделі, зокрема GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet та DeepSeek R1.

Якщо під час одноразових запитів такі системи демонструють приблизно 90% успішних відповідей, то у тривалих розмовах із додатковими уточненнями цей показник знижується до 65%. З ускладненням контексту ефективність моделей помітно падає.

Дослідники також зафіксували явище «роздування відповідей»: у багатоходових діалогах тексти ставали довшими на 20–300%. Водночас разом із обсягом зростала кількість припущень та помилкових тверджень, які закріплювалися в контексті та впливали на подальші відповіді.

Навіть моделі з розширеними можливостями міркування, такі як OpenAI o3 та DeepSeek R1, не змогли повністю уникнути цього ефекту.

Автори підкреслюють, що мова не йде про буквальне «тупішання» моделей. Йдеться радше про обмеження в утриманні великого обсягу інформації та коректній інтерпретації складного контексту під час тривалого діалогу.

Як зазначає Windows Central, ці особливості варто враховувати під час інтеграції чат-ботів у продукти, орієнтовані на довгу взаємодію з користувачами. Адже помилки та «галюцинації» можуть вводити людей в оману — особливо якщо ШІ використовується як джерело точної або критично важливої інформації.

Чим довша бесіда — тим більше «галюцинацій»: нові дані про ШІ

Пенсіонерам 70+ піднімуть виплати: озвучено нові суми

Китай готує тактичну ядерну зброю малої потужності — CNN