Oamenii de știință au testat declinul cognitiv al inteligenţei artificiale. Rezultatele au fost un șoc.

17 aprilie 2025 Mike McRae

Au trecut doar doi ani de când ChatGPT de la OpenAI a fost lansat pentru publicul larg, permiţând oricui de pe internet să colaboreze cu o inteligenţă artificială pe orice subiect.

Astăzi, celebrul model lingvistic mare (LLM- large language model) este doar unul dintre programele de vârf care par convingător de umane în răspunsurile lor la întrebările de bază.

Această asemănare ciudată se poate extinde mai mult decât s-a prevăzut iniţial, cercetătorii din Israel descoperind acum că LLM-urile suferă o formă de afectare cognitivă similară cu declinul cognitiv la om. Acest declin cognitiv este mai pronunţat la modelele anterioare.

Cercetătorii au aplicat o serie de evaluări cognitive „chatbot-urilor” disponibile public: versiunile 4 și 4o ale ChatGPT, două versiuni ale lui Alphabet Gemini și versiunea 3.5 a lui Claude Anthropic.

Dacă LLM-urile sunt cu adevărat inteligente, rezultatele ar fi îngrijorătoare.

În lucrarea lor publicată recent, neurologii Roy Dayan și Benjamin Uliel de la Centrul Medical Hadassah și Gal Koplewitz, cercetător de date la Universitatea din Tel Aviv, descriu un nivel de „declin cognitiv care pare comparabil cu procesele neurodegenerative din creierul uman”.

Cu toată personalitatea lor, LLM-urile au mai multe în comun cu textul predictiv de pe telefon decât cu principiile care generează cunoștințe folosind materia cenușie moale din creierul nostru.

Ceea ce această abordare statistică a generării de text și imagini câștigă în viteză și personalitate, pierde în credibilitate, construind codul conform unor algoritmi care se chinuie să sorteze fragmente semnificative de text din ficțiune și nonsens.

Creierul uman nu este impecabil atunci când este necesară o scurtătură mentală ocazională. Cu toate acestea, odată cu creșterea așteptărilor ca inteligența artificială să furnizeze informaţii de încredere – chiar și sfaturi medicale și juridice – se presupune că fiecare nouă generație de LLM va găsi modalități mai bune de a „gândi” la ceea ce spune de fapt.

Pentru a vedea la ce ne putem aştepta în viitor, Dayan, Uliel și Koplewitz au aplicat o serie de teste care includ Montreal Cognitive Assessment (MoCA), un instrument pe care neurologii îl folosesc, în mod obișnuit, pentru a măsura abilitățile mentale precum memoria, orientarea spațiala și funcția executivă.

ChaptGPT 4o a obținut cel mai mare punctaj la evaluare, de 26 din 30 de puncte posibile, indicând o deficiență cognitivă ușoară. Acesta a fost urmat de 25 de puncte pentru ChatGPT 4 și Claude și de doar 16 puncte5 pentru Gemeni – un scor care ar sugera o afectare severă la om.

Comparații a cinci scoruri LLM MoCA. Credit: Dayan și colab., BMJ, 2025

Analizând rezultatele, observăm că toate modelele au avut rezultate slabe în ceea ce privește măsurile funcțiilor vizuale/executive.

Acestea au inclus o sarcină de a crea trasee, copierea unui cub simplu sau desenarea unui ceas, LLM-urile fie eșuând complet, fie necesitând instrucțiuni explicite.

Încercările de a desena un cub Necker (stânga sus) de către un om (dreapta sus) și versiunile ChatGPT 4 (stânga jos) și 4o (dreapta jos). Credit: Dayan și colab., BMJ , 2025

Unele răspunsuri la întrebările despre locația subiectului în spațiu au amintit de cele ale pacienților cu demență, cum ar fi răspunsul lui Claude: „locul și orașul specific depind de unde se află utilizatorul în acest moment”.

În mod similar, o lipsă de empatie manifestată de toate modelele într-un test Boston de examinare diagnostică a afaziei ar putea fi interpretată ca un semn al demenței frontotemporale.

După cum era de așteptat, versiunile anterioare ale LLM-urilor au obținut scoruri mai mici la teste decât modelele mai recente, ceea ce indică faptul că fiecare nouă generație de IA a găsit modalități de a depăși deficiențele cognitive ale predecesorilor săi.

Autorii recunosc că LLM-urile nu sunt creiere umane, ceea ce face imposibilă „diagnosticarea” modelelor testate cu orice formă de demență. Cu toate acestea, testele provoacă, de asemenea, presupunerile că suntem în pragul unei revoluții IA în medicina clinică, un domeniu care se bazează adesea pe interpretarea unor scene vizuale complexe.

Credit: piranka/Getty Images

Pe măsură ce ritmul inovației în inteligența artificială continuă să se accelereze, este posibil, chiar și probabil, că vom vedea primele note LLM la sarcinile de evaluare cognitivă în deceniile viitoare.

Până atunci, sfaturile chiar și ale celor mai avansați chatboti ar trebui tratate cu o doză sănătoasă de scepticism.

Această cercetare a fost publicată în BMJ.

Traducere după Scientists Tested AI For Cognitive Decline. The Results Were a Shock.

Ştiinţa Online

Oamenii de știință au testat declinul cognitiv al inteligenţei artificiale. Rezultatele au fost un șoc.

Lasă un răspuns Anulează răspunsul