Porady medyczne chatbotów AI. Połowa odpowiedzi błędna

Mniej więcej połowa odpowiedzi na pytania medyczne udzielanych przez popularne chatboty AI była nieprawidłowa – wynika z badań opublikowanych przez „BMJ Open”. Kiedy naukowcy prosili o odniesienia do badań, sztuczna inteligencja podawała zarówno błędnych autorów oraz wadliwe linki, jak i całkowicie sfabrykowane artykuły.

W ramach badań ChatGPT, Gemini, Grok, Meta AI i DeepSeek otrzymały po 50 pytań dotyczących zdrowia i medycyny, obejmujących między innymi zagadnienia dotyczące nowotworów czy szczepionek. Odpowiedzi były następnie weryfikowane przez dwóch niezależnych ekspertów. Ocenili oni, że prawie 20 proc. odpowiedzi było wysoce problematycznych, połowa była problematycznych, a 30 proc. zostało sklasyfikowanych jako raczej problematyczne.

Oceny ekspertów dotyczące odpowiedzi wszystkich analizowanych chatbotów były podobne. Najgorzej wypadł Grok (58 proc. odpowiedzi oznaczonych jako problematyczne). Drugi od końca był ChatGPT, z wynikiem 52 proc.

Autorzy badania opisane w tekście „Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability audit”¹ podkreślają, że najgorzej wypadły odpowiedzi na pytania otwarte – a właśnie takie są zadawane najczęściej przez „zwykłych” użytkowników. Alarmująco prezentują się też wyniki dotyczące bibliografii. Okazuje się, że żaden chatbot nie zdołał stworzyć ani jednej w pełni poprawnej listy bibliograficznej w 25 próbach. Pozornie wiarygodne listy cytowań zawierały nie tylko niedziałające linki czy błędnych autorów, ale również całkowicie sfabrykowane artykuły.

Przypis: