ChatGPT-4, cel mai avansat model de inteligență artificială dezvoltat de OpenAI, a reușit să promoveze cu succes testul standardizat pentru obținerea licenței medicale din Regatul Unit, United Kingdom Medical Licensing Assessment (UKMLA). Studiul, publicat în revista Scientific Reports, a fost realizat de un grup de cercetători britanici care au dorit să evalueze dacă AI-ul poate atinge competențele medicale așteptate de la un medic junior.
Cercetătorii au adresat modelului ChatGPT-4 un set de 191 de întrebări, formulate după modelul UKMLA, care acoperă 24 de arii clinice și sunt organizate în două lucrări de câte 100 de întrebări fiecare. Nouă dintre acestea au fost eliminate, deoarece se bazau pe interpretarea imaginilor – o capacitate de care ChatGPT nu dispune în forma sa standard. Întrebările au fost formulate atât în format cu răspunsuri multiple, cât și în format deschis, pentru a testa flexibilitatea și capacitatea reală de raționament a AI-ului.
Unde se descurcă excelent ChatGPT
Rezultatele au arătat că ChatGPT-4 se descurcă bine când are variante de răspuns: a obținut o acuratețe de 86,3% pentru prima lucrare și 89,6% pentru a doua. Însă, în lipsa opțiunilor multiple, performanța a scăzut considerabil: la 61,5%, respectiv 74,7%. Cercetătorii au remarcat că, în unele cazuri, AI-ul a răspuns mai bine la întrebările fără sugestii, ceea ce sugerează că variantele multiple pot acționa ca „distractori” și influențează negativ răspunsul.
„Scopul a fost de a compara competența medicală a GPT-4 cu nivelul așteptat de la un medic junior din Marea Britanie și să discutăm potențialul său în practica clinică”, au precizat autorii studiului. Concluziile acestora relevă o distincție clară între abilitățile de diagnostic ale AI-ului și cele necesare pentru gestionarea cazurilor clinice complexe.
ChatGPT s-a dovedit a fi „bun” la întrebările de diagnostic, unde a avut o acuratețe de 91,2% cu opțiuni și 84,2% fără. În schimb, în domeniul managementului clinic – esențial în practica medicală reală – rezultatele au fost mult mai slabe: fără variante de răspuns, acuratețea a scăzut la 51,2%.
Autorii atrag atenția că modelele lingvistice mari (LLM) precum ChatGPT pot procesa cu competență scenariile clinice, dar nu le înțeleg cu adevărat. „LLM-urile sunt capabile să proceseze cu competență scenariile clinice, dar rămân incapabile să înțeleagă aceste scenarii clinice”, au comentat cercetătorii.
Deși ChatGPT-4 a promovat simularea testului UKMLA, studiul concluzionează că modelul este deocamdată mai potrivit ca instrument auxiliar – pentru învățare, monitorizare sau sprijin decizional – decât pentru diagnostic direct sau interacțiuni clinice autonome. „Este mai potrivit ca instrument suplimentar, de monitorizare sau de învățare decât ca diagnostic sau interacțiune cu spitalul”, subliniază autorii cercetării.
Fiți la curent cu ultimele noutăți. Urmăriți StiriDiaspora și pe Google News