Report 217

Utilisateur : Siri, appelle-moi une ambulance.

Siri : D'accord, à partir de maintenant, je t'appellerai "une ambulance".

Apple a corrigé cette erreur peu de temps après la sortie de son assistant virtuel en 2011. Mais un nouveau concours montre que les ordinateurs n'ont toujours pas le bon sens nécessaire pour éviter de telles confusions embarrassantes.

Les résultats du concours ont été présentés lors d'une conférence universitaire à New York cette semaine, et ils donnent une idée de la quantité de travail qui reste à faire pour rendre les ordinateurs vraiment intelligents.

Illustration par Max Bode

Le Winograd Schema Challenge demande aux ordinateurs de donner un sens à des phrases ambiguës mais généralement simples à analyser pour les humains. La désambiguïsation des phrases du schéma de Winograd nécessite une compréhension de bon sens. Dans la phrase « Les conseillers municipaux ont refusé un permis aux manifestants parce qu'ils craignaient la violence », on ne sait logiquement pas à qui le mot « ils » fait référence, bien que les humains comprennent en raison du contexte plus large.

Les programmes entrés dans le défi étaient un peu meilleurs qu'au hasard pour choisir le sens correct des phrases. Les deux meilleurs participants avaient raison dans 48 % des cas, contre 45 % si les réponses étaient choisies au hasard. Pour pouvoir prétendre au grand prix de 25 000 $, les participants devaient atteindre une précision d'au moins 90 %. Les meilleures candidatures conjointes sont venues de Quan Liu, chercheur à l'Université des sciences et technologies de Chine, et de Nicos Issak, chercheur à l'Open University of Cyprus.

"Il n'est pas surprenant que les machines aient été à peine meilleures que le hasard", déclare Gary Marcus, chercheur en psychologie à l'Université de New York et conseiller du concours. C'est parce que donner aux ordinateurs des connaissances de bon sens est notoirement difficile. Le codage manuel des connaissances prend énormément de temps et il n'est pas simple pour les ordinateurs d'en apprendre davantage sur le monde réel en effectuant une analyse statistique du texte. La plupart des participants au Winograd Schema Challenge essaient d'utiliser une combinaison de compréhension de la grammaire codée à la main et d'une base de connaissances factuelles.

Marcus, qui est également le cofondateur d'une nouvelle startup d'IA, Geometric Intelligence, dit qu'il est à noter que Google et Facebook n'ont pas participé à l'événement, même si les chercheurs de ces entreprises ont suggéré qu'ils faisaient des progrès majeurs dans la compréhension du langage naturel. "Cela aurait pu être que ces gars sont entrés dans cette pièce et ont obtenu cent pour cent et ont dit" hah! "", Dit-il. "Mais ça m'aurait étonné."

Le concours ne sert pas seulement à mesurer les progrès de l'IA. Cela montre également à quel point il sera difficile de créer des chatbots plus intuitifs et gracieux, et de former des ordinateurs pour extraire plus d'informations d'un texte écrit.

Les chercheurs de Google, Facebook, Amazon et Microsoft se tournent vers le langage. Ils utilisent les dernières techniques d'apprentissage automatique, en particulier les réseaux de neurones « d'apprentissage en profondeur », pour développer des chatbots et des assistants personnels plus intelligents et plus intuitifs (voir « Apprendre aux machines à nous comprendre »). En fait, avec les chatbots et les assistants vocaux de plus en plus courants, et avec des progrès spectaculaires dans des domaines tels que la reconnaissance d'images et de la parole, vous pourriez penser que les machines devenaient assez bonnes pour comprendre le langage.

L'une des deux premières entrées a en fait utilisé une approche d'apprentissage automatique de pointe. Le groupe de Liu, qui comprenait des chercheurs de l'Université York à Toronto et du Conseil national de recherches du Canada, a utilisé l'apprentissage en profondeur pour entraîner un ordinateur à reconnaître la relation entre différents événements, tels que "jouer au basket" et "gagner" ou "se blesser". parmi des milliers de textes.

"J'ai été ravie de voir l'apprentissage en profondeur utilisé", déclare Leora Morgenstern, scientifique senior chez Leidos Corporation, une société de conseil en technologie et l'une des organisatrices du défi.

L'équipe de Liu affirme qu'après avoir résolu un problème avec la façon dont son système a analysé les questions du concours, il est précis à près de 60 %. Morgenstern prévient cependant que même si ces affirmations étaient confirmées, la précision serait encore bien pire que celle d'un humain.

Les phrases du schéma de Winograd ont d'abord été mises en évidence comme un moyen d'évaluer la compréhension de la machine par Hector Levesque, un chercheur en intelligence artificielle à l'Université de Toronto. Ils portent le nom de Terry Winograd, un pionnier dans le domaine et professeur à l'Université de Stanford qui a construit l'un des premiers programmes informatiques conversationnels.

Le défi a été proposé en 2014 comme une amélioration du test de Turing. Alan Turing, un ancêtre de l'informatique et de l'intelligence artificielle qui, dans les années 1950, s'est demandé si les machines pourraient un jour penser comme les humains, a suggéré un moyen simple de tester l'intelligence d'une machine. Son idée était qu'une machine essaie de tromper une personne en lui faisant croire qu'elle conversait avec une personne réelle dans une conversation textuelle.

Le problème avec le test de Turing est qu'il est souvent facile pour un programme de tromper une personne en utilisant des astuces et des évasions simples. Mais un programme ne peut pas analyser Winograd Schema ou d'autres phrases ambiguës sans une certaine forme de général

Problème 217

Un test de Turing plus difficile révèle la stupidité des chatbots