ChatGPT, Copilot і Gemini помиляються майже у половині відповідей

Міжнародне дослідження, проведене 22 громадськими мовниками, зокрема DW, BBC та NPR, показало: популярні чат-боти на основі штучного інтелекту регулярно перекручують факти та контекст. У 45% відповідей систем, серед яких ChatGPT, Copilot, Gemini та Perplexity AI, виявлено помилки або неточності — незалежно від мови чи країни. Повідомляє сайт Kirovograd з посиланням на dw.com.

Помилки у фактах та джерелах

Журналісти перевірили 3000 відповідей ШІ на актуальні запитання, порівнявши їх із перевіреними джерелами. У 31% випадків виявили проблеми з посиланнями та джерелами, а у 20% — фактичні помилки.

DW зафіксувала порушення у 53% відповідей. Серед прикладів — твердження, що Олаф Шольц досі є канцлером Німеччини, хоча посаду вже обійняв Фрідріх Мерц, а також неправильна інформація про нібито призначення Йенса Столтенберга генеральним секретарем НАТО після Марка Рютте.

Типові помилки, виявлені дослідниками:

неправильні дані про політичні призначення;
підміна джерел або хибні цитати;
змішування фактів і думок;
відсутність контексту при поданні новин.

Зростання довіри до ШІ при зниженні точності

За даними Інституту Рейтер, близько 7% користувачів онлайн-новин уже отримують інформацію через ШІ, а серед молоді до 25 років цей показник сягає 15%. Проте саме в цій групі зафіксовано найбільше спотворень, що викликає занепокоєння експертів.

Заступник генерального директора Європейського мовного союзу (EBU) Жан Філіп де Тендер зазначив: «Збої у роботі ШІ мають системний і багатомовний характер. Це підриває суспільну довіру і ставить під загрозу участь громадян у демократичних процесах».

Порівняння з дослідженням BBC

Нове дослідження стало продовженням аналізу BBC, проведеного у лютому 2025 року. Тоді було встановлено, що понад половина відповідей ШІ містила суттєві помилки. У новому проєкті взяли участь 18 країн, використано ті самі критерії оцінки — точність, контекст, якість редагування та розмежування фактів і думок.

Попри невелике покращення, рівень похибок залишається високим. За словами директора програми BBC з генеративного ШІ Пітера Арчера, «люди мають бути впевнені, що інформація, яку вони читають і дивляться, є достовірною. Попри певний прогрес, проблеми ШІ все ще серйозні».

Найгірші результати показав Gemini

Згідно зі звітом, найбільше помилок виявлено у Gemini — у 72% відповідей зафіксовані серйозні порушення. Друге місце за кількістю неточностей посів Copilot від Microsoft. Водночас усі чотири моделі продемонстрували схожі проблеми з точністю.

Рейтинг точності за результатами дослідження:

ChatGPT — найменше серйозних помилок;
Perplexity AI — стабільні, але неповні відповіді;
Copilot — часті проблеми з джерелами;
Gemini — найбільший відсоток спотворень.

Заклик до регулювання та контролю

EBU та інші медіаорганізації закликали уряди ЄС і національні регулятори посилити контроль за використанням ШІ у сфері новин. У заяві союзу наголошується на необхідності дотримання законів про цифрові послуги, достовірність інформації та плюралізм ЗМІ.

Мовники пропонують запровадити незалежний моніторинг систем штучного інтелекту, щоб запобігти подальшим випадкам спотворення новин.

Кампанія «Факти всередині: факти назовні»

У відповідь на результати дослідження EBU разом із партнерами запустили міжнародну ініціативу «Facts in, Facts out» («Факти всередині: факти назовні»). Мета кампанії — зобов’язати розробників ШІ забезпечити достовірність і прозорість використаних даних.

Організатори зазначають: «Якщо до системи надходять перевірені факти, користувач має отримувати саме їх. Інструменти ШІ не повинні підривати довіру до новин».

Вам може бути цікаво: Apple скорочує виробництво iPhone Air: попит виявився нижчим за очікування

Це по суті

Чат-боти зі штучним інтелектом спотворюють майже половину новинних даних