Report 1782

À propos de la prédiction automatique des grossesses chez les adolescentes

Après avoir étudié la méthodologie du système d'intelligence artificielle censé être capable de prédire les grossesses chez les adolescentes, mentionnée par le gouverneur de Salta, Juan Manuel Urtubey, nous avons trouvé de graves erreurs techniques et conceptuelles, qui remettent en question les résultats rapportés et compromettent l'utilisation dudit outil, en particulier tous dans le cas d'un sujet aussi sensible.

Le 4/11/2018, dans l'émission télévisée "El Diario de Mariana", le gouverneur de Salta, Juan Manuel Urtubey, a décrit un système d'intelligence artificielle censé être capable de prédire les grossesses chez les adolescentes :

« Nous avons récemment lancé un programme avec le ministère de la petite enfance […] pour prévenir la grossesse chez les adolescentes en utilisant l'intelligence artificielle avec une société de logiciels de renommée mondiale, dont nous menons un plan pilote. Vous pouvez aujourd'hui avec la technologie dont vous disposez, vous pouvez voir, cinq ou six ans avant, avec nom et prénom et adresse, qui est une fille, une future adolescente, qui est prédestinée à 86% à avoir une grossesse d'adolescente.

Auparavant, le 20/03/2018, lors de l'événement « Microsoft Data & AI Experience 2018 », Urtubey avait déjà évoqué ce sujet :

« Les exemples que vous avez cités dans le cas de la prévention des grossesses chez les adolescentes et de la question du décrochage scolaire en sont des exemples très clairs. Nous avons clairement défini, avec nom et prénom, 397 cas d'enfants que nous connaissons, sur un univers de 3 000, qui abandonnent inexorablement l'école. Nous avons environ 490, près de 500 cas de filles qui, nous le savons, nous devons aller chercher aujourd'hui.

Différents médias journalistiques ont associé ces déclarations du Gdor. Urtubey à un document disponible sur github signé par Facundo Davancens, un employé de Microsoft Argentine. Ce document se termine en remerciant "le ministère de la petite enfance du gouvernement provincial de Salta" et "Microsoft".

Après avoir soigneusement étudié la méthodologie détaillée dans ce document, nous avons constaté de graves erreurs techniques et conceptuelles, qui jettent un doute sur les résultats rapportés par le Gdor. Urtubey, et qui compromettent l'utilisation de l'outil généré, dans une question aussi sensible que la grossesse chez les adolescentes.

Nous énumérons brièvement et familièrement certains des problèmes les plus graves que nous avons rencontrés :

Problème 1 : résultats artificiellement surdimensionnés

L'étude détaille la procédure suivante :

Construire un ensemble de règles statistiques pour essayer de déterminer si une adolescente aura une grossesse à l'avenir.
Ces règles sont construites sur la base de données connues (les "données d'entraînement"). Ainsi, les règles statistiques sont faites à l'image et à la ressemblance des données d'apprentissage.
Une fois les règles statistiques construites, elles doivent être testées à l'aide de nouvelles données inconnues (les "données d'évaluation"), calculant ainsi leur "précision" (combien de fois elles sont correctes dans les prédictions).

Le problème ici est que les données d'évaluation (à l'étape 3) incluent des répliques presque identiques de nombreuses données d'apprentissage. Et par conséquent, les résultats rapportés sont fortement surestimés. Cela conduit à la conclusion erronée que le système de prédiction fonctionne mieux qu'il ne le fait réellement. (Dans l'annexe ci-dessous, nous donnons plus de détails sur ce problème.)

Problème 2 : données potentiellement faussées

L'autre problème, clé et insurmontable, est que nous doutons fortement de la fiabilité des données utilisées dans cette étude.

Les données sur les grossesses adolescentes ont tendance à être biaisées ou incomplètes, du fait qu'il s'agit d'un sujet sensible et confidentiel, difficile d'accès. Par exemple, dans de nombreuses familles, les grossesses d'adolescentes ont tendance à être cachées, voire interrompues clandestinement. Par conséquent, les données utilisées risquent d'inclure plus de grossesses chez les adolescentes de certains secteurs de la société que d'autres.

Ainsi, même si la méthodologie utilisée pour construire et évaluer les systèmes était correcte, les règles statistiques construites sur ces données conduiraient à des conclusions erronées, qui refléteraient les distorsions des données.

Problème 3 : Données inadéquates

Les données utilisées ont été extraites d'une enquête auprès d'adolescents vivant dans la province de Salta contenant des informations personnelles (âge, ethnie, pays d'origine, etc.), sur leur environnement (nombre de personnes avec qui ils vivent, s'ils ont de l'eau chaude dans le salle de bain, etc.) et si elle avait terminé ou était en cours, au moment de l'enquête, d'une grossesse.

Ces données ne sont pas suffisantes pour répondre à la question posée : si une adolescente aura une grossesse dans le futur (par exemple, dans 5 ou 6 six ans). Pour cela, il faudrait avoir des données collectées 5 ou 6 ans avant que la grossesse ne survienne.

Avec les données actuelles, dans le meilleur des cas, le système pourrait déterminer si une adolescente a eu ou a actuellement une grossesse. Il faut s'attendre à ce que les conditions et les caractéristiques d'un adolescent aient été très différentes 5 ou 6 ans plus tôt.

conclusion

Les problèmes méthodologiques et les données non fiables présentent le risque d'induire les décideurs en erreur.

Ce cas est un exemple des dangers d'utiliser les résultats d'un ordinateur comme vérité révélée. Les techniques d'intelligence artificielle sont puissantes et exigent la responsabilité de ceux qui les emploient. Dans des domaines interdisciplinaires comme celui-ci, il ne faut pas perdre de vue qu'ils ne sont qu'un outil de plus, qui doit être complété par d'autres, et ne remplace en aucun cas les connaissances ou l'intelligence d'un expert, en particulier dans les domaines qui ont un lien direct influence sur les questions de santé publique et les secteurs vulnérables.

Addendum : Plus de détails sur le problème 1

Le processus utilisé pour obtenir les résultats rapportés est techniquement incorrect. Un principe de base de l'apprentissage automatique est violé : que les données sur lesquelles le système est évalué doivent être différentes des données utilisées pour l'entraîner. Si ce principe est violé, c'est-à-dire s'il y a contamination des données d'apprentissage dans les données sur lesquelles il est validé, les résultats seront invalides.

Dans le système décrit sur github par l'auteur, la contamination des données d'évaluation survient assez subtilement. Le système utilise une méthode pour équilibrer le nombre d'échantillons de chaque classe appelée SMOTE. Cette méthode génère de nouveaux échantillons "synthétiques" en reproduisant les échantillons de la classe minoritaire (à risque de grossesse, dans ce cas) X fois avec de petites variations par rapport à l'échantillon d'origine. Le problème survient parce que l'auteur effectue cette réplication des données avant de diviser les données en formation et évaluation. Cette division est effectuée de manière aléatoire, il est donc très probable qu'un échantillon apparaisse dans l'ensemble d'apprentissage et que certaines de ses répliques apparaissent dans les données d'évaluation. Lors de l'évaluation sur ces données répliquées, la conséquence est que la valeur de précision est surestimée. Compte tenu de ce problème, il est impossible de savoir quelle est la véritable précision de ce système.

Cela peut être compris à l'aide d'un exemple. Supposons qu'au lieu d'utiliser les caractéristiques considérées dans ce travail (âge, quartier, ethnie, pays d'origine, etc.), nous utilisions simplement le prénom et le nom de chaque adolescent. De toute évidence, un système qui ne disposerait que de ces informations en entrée ne serait pas en mesure d'apprendre à extrapoler et à prendre des décisions sur de nouvelles données. Mais, dans le cas d'utilisation de SMOTE tel qu'il a été utilisé, il serait facile d'apprendre à mémoriser parfaitement les données d'entraînement puis de prédire avec une très grande précision les données d'évaluation puisqu'il contiendrait des répliques de ces mêmes noms et prénoms. Dans le cas que nous étudions, le prénom et le nom ne sont pas utilisés comme entrée, mais plutôt une série de caractéristiques qui, si nous y réfléchissons bien, permettent au même problème de se produire. Par exemple, un système qui apprend qu'un adolescent de 16 ans, qui vit dans le quartier El Milagro, créole, non handicapé, d'origine argentine, avec de l'eau chaude dans la salle de bain et qui vit avec 4 personnes où le chef de ménage n'a pas abandonné les études sur le risque de grossesse chez les adolescentes, en évaluant le système avec des données où des répliques presque identiques de ces caractéristiques se produisent, vous pourrez prédire sans problème la classe de ces répliques. Étant donné que, en raison de l'utilisation de SMOTE avant de diviser les données en ensembles de formation et d'évaluation, une forte proportion des échantillons de classe minoritaire vus dans l'évaluation auront été vus pendant la formation, cela se traduit par une valeur de précision surdimensionnée. .

Remarque : Il convient de noter qu'au moment de la rédaction de ce document, d'autres ont trouvé et rapporté une vision très similaire, publiée sur la même page où la description originale du système de prédiction a été publiée. Lien : https://github.com/facundod/case-studies/issues/2

Problème 1782

Incidents associés

Incident 1884 Rapports
Argentinian City Government Deployed Teenage-Pregnancy Predictive Algorithm Using Invasive Demographic Data

À propos de la prédiction automatique des grossesses chez les adolescentes

Problème 1782

Incidents associés

Incident 1884 RapportsArgentinian City Government Deployed Teenage-Pregnancy Predictive Algorithm Using Invasive Demographic Data

À propos de la prédiction automatique des grossesses chez les adolescentes

Incident 1884 Rapports
Argentinian City Government Deployed Teenage-Pregnancy Predictive Algorithm Using Invasive Demographic Data