GPT-4 Échecs dans les tâches réelles de soins de santé : un nouveau test HealthBench révèle les lacunes
En bref Les chercheurs ont présenté HealthBench, un nouveau benchmark qui teste les LLM comme GPT-4 et Med-PaLM 2 sur des tâches médicales réelles.
Les grands modèles linguistiques sont omniprésents : de la recherche au codage, en passant par les outils de santé destinés aux patients. De nouveaux systèmes sont introduits presque chaque semaine, notamment des outils prometteurs. pour automatiser les flux de travail cliniques Mais peut-on réellement leur faire confiance pour prendre de véritables décisions médicales ? Un nouveau référentiel, appelé HealthBench, répond que non. D'après les résultats, des modèles comme GPT-4 (Partir OpenAI) et Med-PaLM 2 (de Google DeepMind) ne parviennent toujours pas à répondre aux tâches pratiques de soins de santé, en particulier lorsque la précision et la sécurité sont primordiales.

HealthBench se distingue des tests plus anciens. Au lieu d'utiliser des questionnaires restreints ou des questionnaires académiques, il met les modèles d'IA au défi avec des tâches concrètes. Celles-ci incluent le choix de traitements, l'établissement de diagnostics et la décision sur les prochaines étapes à suivre par un médecin. Les résultats sont ainsi plus pertinents pour l'utilisation concrète de l'IA dans les hôpitaux et les cliniques.

Dans toutes les tâches, GPT-4 Les résultats étaient meilleurs que ceux des modèles précédents. Cependant, la marge n'était pas suffisante pour justifier un déploiement en conditions réelles. Dans certains cas, GPT-4 Dans d'autres cas, elle a proposé des traitements inappropriés. Dans d'autres cas, elle a donné des conseils susceptibles de retarder les soins, voire d'aggraver les risques. Ce benchmark est clair : l'IA peut sembler intelligente, mais en médecine, ce n'est pas suffisant.
Tâches réelles, échecs réels : là où l'IA continue de percer en médecine
L'une des principales contributions de HealthBench réside dans la manière dont il teste les modèles. Il comprend 14 tâches médicales concrètes réparties en cinq catégories : planification des traitements, diagnostic, coordination des soins, gestion des médicaments et communication avec les patients. Ces questions ne sont pas inventées. Elles proviennent de recommandations cliniques, d'ensembles de données ouvertes et de ressources rédigées par des experts, qui reflètent le fonctionnement réel des soins de santé.
Dans de nombreuses tâches, les grands modèles linguistiques présentaient des erreurs constantes. Par exemple, GPT-4 Les médecins ont souvent échoué dans leurs prises de décisions cliniques, notamment pour déterminer le moment opportun de prescription d'antibiotiques. Dans certains cas, ils ont été surprescrits. Dans d'autres, ils ont omis des symptômes importants. Ces erreurs ne sont pas seulement répréhensibles : elles pourraient causer de réels dommages si elles étaient utilisées dans le cadre des soins aux patients.

Les modèles ont également rencontré des difficultés avec des flux de travail cliniques complexes. Par exemple, lorsqu'on leur a demandé de recommander des mesures de suivi après les résultats de laboratoire, GPT-4 Les conseils prodigués étaient généraux ou incomplets. Ils omettaient souvent le contexte, ne donnaient pas la priorité à l'urgence ou manquaient de profondeur clinique. Cela les rendait dangereux dans les cas où le temps et l'ordre des interventions étaient cruciaux.
Dans les tâches liées aux médicaments, la précision a encore diminué. Les modèles ont fréquemment confondu les interactions médicamenteuses ou fourni des indications obsolètes. C'est d'autant plus alarmant que les erreurs médicamenteuses sont déjà l'une des principales causes de préjudices évitables dans le secteur de la santé.

Même lorsque les modèles semblaient fiables, ils n'étaient pas toujours exacts. L'analyse comparative a révélé que la fluidité et le ton ne correspondaient pas à l'exactitude clinique. C'est l'un des plus grands risques de l'IA en santé : elle peut paraître humaine tout en étant factuellement erronée.
Pourquoi HealthBench est important : une évaluation réelle pour un impact réel
Jusqu'à présent, de nombreuses évaluations de santé par IA utilisaient des questionnaires académiques comme les examens MedQA ou USMLE. Ces tests de référence permettaient de mesurer les connaissances, mais ne permettaient pas de vérifier si les modèles pouvaient penser comme des médecins. HealthBench change la donne en simulant la prestation de soins réelle.
Au lieu de poser des questions ponctuelles, HealthBench examine l'ensemble de la chaîne décisionnelle, de la lecture d'une liste de symptômes à la recommandation de soins. Cela donne une vision plus complète des capacités et des limites de l'IA. Par exemple, il teste si un modèle peut gérer le diabète sur plusieurs visites ou suivre les tendances des analyses de laboratoire au fil du temps.

Le benchmark évalue également les modèles selon plusieurs critères, et pas seulement leur exactitude. Il vérifie la pertinence clinique, la sécurité et le potentiel nocif. Cela signifie qu'il ne suffit pas de répondre à une question techniquement correcte : la réponse doit également être sûre et utile en situation réelle.
Un autre point fort de HealthBench est sa transparence. L'équipe à l'origine du projet a publié l'ensemble des invites, grilles de notation et annotations. Cela permet à d'autres chercheurs de tester de nouveaux modèles, d'améliorer les évaluations et de s'appuyer sur leurs travaux. L'appel à la communauté de l'IA est ouvert : si vous souhaitez prouver l'utilité de votre modèle dans le domaine de la santé, prouvez-le ici.
GPT-4 et Med-PaLM 2 n'est toujours pas prêt pour les cliniques
Malgré le battage médiatique récent autour de GPT-4 et d'autres grands modèles, l'analyse comparative montre qu'ils commettent encore de graves erreurs médicales. Au total, GPT-4 En moyenne, les élèves n'ont obtenu qu'un taux de réussite d'environ 60 à 65 % pour toutes les tâches. Dans les domaines à enjeux élevés, comme les décisions relatives aux traitements et aux médicaments, le score était encore plus faible.
Med-PaLM 2, un modèle optimisé pour les tâches médicales, n'a pas obtenu de résultats nettement supérieurs. Il a montré une précision légèrement supérieure pour le rappel médical de base, mais a échoué pour le raisonnement clinique en plusieurs étapes. Dans plusieurs scénarios, il a proposé des conseils qu'aucun médecin agréé n'aurait acceptés. Il s'agissait notamment d'une mauvaise identification des symptômes d'alerte et de la suggestion de traitements non standard.

Le rapport met également en évidence un danger caché : l'excès de confiance. Des modèles comme GPT-4 Les patients donnent souvent des réponses erronées sur un ton assuré et fluide. Il est donc difficile pour les utilisateurs, même les professionnels formés, de détecter les erreurs. Ce décalage entre le raffinement linguistique et la précision médicale est l'un des principaux risques liés au déploiement de l'IA dans le secteur de la santé sans garanties strictes.
Pour le dire clairement : paraître intelligent n’est pas synonyme de sécurité.
Ce qui doit changer avant que l'IA soit fiable dans le secteur de la santé
Les résultats de HealthBench ne constituent pas seulement un avertissement. Ils soulignent également les points à améliorer en matière d'IA. Premièrement, les modèles doivent être entraînés et évalués à l'aide de flux de travail cliniques réels, et non pas uniquement de manuels ou d'examens. Cela implique d'impliquer les médecins, non seulement en tant qu'utilisateurs, mais aussi en tant que concepteurs, testeurs et évaluateurs.

Deuxièmement, les systèmes d'IA devraient être conçus pour demander de l'aide en cas d'incertitude. Actuellement, les modèles devinent souvent au lieu de dire « Je ne sais pas ». C'est inacceptable dans le secteur de la santé. Une mauvaise réponse peut retarder le diagnostic, augmenter le risque ou saper la confiance du patient. Les systèmes futurs devront apprendre à signaler l'incertitude et à orienter les cas complexes vers des experts.
Troisièmement, des évaluations comme HealthBench doivent devenir la norme avant un déploiement réel. La simple réussite d'un test académique ne suffit plus. Les modèles doivent prouver leur capacité à prendre des décisions concrètes en toute sécurité, sous peine de devoir rester totalement à l'écart des contextes cliniques.
La voie à suivre : une utilisation responsable, pas de battage médiatique
HealthBench ne prétend pas que l'IA n'a pas d'avenir dans le secteur de la santé. Il montre plutôt où nous en sommes aujourd'hui et le chemin qu'il reste à parcourir. Les grands modèles de langage peuvent faciliter les tâches administratives, la synthèse ou la communication avec les patients. Mais pour l'instant, ils ne sont pas prêts à remplacer ni même à soutenir de manière fiable les médecins dans leurs soins cliniques.
Une utilisation responsable implique des limites claires. Elle implique la transparence des évaluations, des partenariats avec des professionnels de santé et des tests constants par rapport à des situations médicales réelles. Sans cela, les risques sont trop élevés.
Les créateurs de HealthBench invitent la communauté de l'IA et de la santé à l'adopter comme nouvelle norme. Si elle est bien menée, elle pourrait faire progresser le domaine, passant du simple battage médiatique à un impact réel et sûr.
Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.
Vous pourriez également aimer



Filecoin et Lockheed Martin testent le transfert décentralisé de données dans l’espace avec IPFS

En vogue
PlusPrix des cryptos
Plus








