Siri: « D’accord, je vais désormais vous appeler « une ambulance ». » Apple a rapidement corrigé cette erreur après le lancement de son assistante virtuelle en 2011, mais un nouveau concours démontre que les ordinateurs ne disposent pas encore du bon sens nécessaire pour éviter de tels moments embarrassants.
Comme l’explique Will Knight, journaliste pour la publication Technology Review du MIT, les résultats de ce concours ont été présentés cette semaine lors d’une conférence académique à New York, et ils offrent des indices pour déterminer l’ampleur des travaux qui restent à accomplir pour faire des ordinateurs de véritables machines intelligentes.
Le Winograd Schema Challenge demande aux ordinateurs de comprendre des phrases aux sens ambigu, mais qui ne posent habituellement pas trop de problèmes aux humains. Saisir le sens des phrases soumises dans le cadre du concours nécessite ainsi une dose de « bon sens ». Ainsi, dans la phrase « les conseillers municipaux ont refusé un permis aux manifestants parce qu’ils craignaient des violences », il est logiquement nébuleux de comprendre à qui le mot « ils » fait référence, bien que les humains saisissent le sens de la phrase en raison du contexte général.
Les programmes inscrits au concours étaient légèrement meilleurs que le pur hasard lorsque venait le temps de choisir le bon sens des phrases. Les deux participants les plus adroits avaient raison 48 % du temps, comparativement à 45 % de succès lorsque les réponses étaient choisies au hasard. Pour avoir la chance de remporter le grand prix de 25 000 $ US, les participants devaient l’emporter neuf fois sur 10. Les deux meilleurs programmes ont été développés par Quan Liu, un chercheur de l’Université chinoise de science et de technologie, et Nicos Issak, de l’Université libre de Chypre.
« Ce n’est pas surprenant que les machines n’aient pas vraiment été meilleures que la chance », mentionne Gary Marcus, un chercheur en psychologie à l’Université de New York et un conseiller dans le cadre du concours. « Cela s’explique par le fait que l’art de donner du bon sens aux ordinateurs est notoirement difficile. Coder des connaissances et de la sagesse à la main prend un temps fou, et il n’est pas facile, pour des ordinateurs, d’apprendre à connaître le vrai monde en effectuant des analyses statistiques de textes. La plupart des participants au concours ont essayé une combinaison de compréhension de la grammaire et de connaissances de base. »
M. Marcus, qui est aussi le cofondateur d’une nouvelle PME spécialisée en intelligence artificielle, Geometric Intelligence, dit qu’il est significatif que ni Google, ni Facebook n’aient participé à l’événement, bien que des chercheurs de ces entreprises eurent suggéré qu’ils effectuaient de grands progrès dans la compréhension du langage naturel. « Ces gens auraient pu entrer dans la pièce et obtenir 100 % et dire « bah! », poursuit-il. Mais cela m’aurait stupéfait. »
Le concours ne sert pas uniquement de mesure des progrès en matière d’intelligence artificielle, mais révèle également à quel point il sera difficile de développer des robots plus évolués pour tenir des conversations avec des humains, ainsi que de former des ordinateurs à extraire davantage d’informations à partir de textes écrits.
Les chercheurs de Google, Facebook, Amazon et Microsoft se concentrent sur le langage. Ils emploient ainsi les plus récentes méthodes d’apprentissage machine, particulièrement les réseaux neuronaux de l’apprentissage « profond » pour développer des outils de conversation et des assistants personnels plus intelligents et intuitifs. En fait, avec les améliorations fréquentes apportées à ce genre de programmes et d’outils, il serait facile de penser que les machines sont davantage aptes à comprendre le langage.
L’un des meilleurs participants a, de fait, utilisé une méthode novatrice d’apprentissage numérique entre autres mise au point par des chercheurs de l’Université York, à Toronto, et le Conseil national de recherche du Canada pour reconnaître les liens entre divers événements, comme « jouer au basketball » et « gagner » ou « être blessé » à partir de milliers de messages texte et autres écrits.
Le concours a été proposé en 2014 en tant qu’alternative au test de Turing. Alan Turing, l’un des défricheurs du domaine de l’informatique et de l’intelligence artificielle qui, dans les années 1950, s’est interrogé à savoir si les machines pourraient un jour penser comme le font les humains, a suggéré une manière simple de tester l’intelligence d’un ordinateur. Selon lui, il suffirait de tenter de convaincre une personne qu’elle ne dialoguait pas avec un programme, mais avec un véritable individu.
Le problème avec ce test est qu’il est souvent facile, pour un programme, d’induire une personne en erreur à l’aide de simples trucs. Mais un programme ne peut pas venir à bout du schème de Winograd ou d’autres phrases complexes sans posséder des connaissances générales minimales.
Le concours pourrait avoir plusieurs applications pratiques. Pour Charlie Ortiz, chercheur principal chez Nuance, une compagnie qui développe des logiciels de reconnaissance vocale et des interfaces vocales, cette compréhension du discours sera essentielle dans tout dialogue avec les consommateurs.
De son côté, M. Marcus ajoute que le raisonnement selon le bon sens deviendra plus important alors que se multiplieront les électroménagers connectés et les gadgets « portables ». « Lorsque vous commencez à parler à votre voiture ou à votre montre, et vous n’avez plus besoin de taper vos interactions, et que vous désirez disposer d’un ensemble de phrases liées, les gens effectuent naturellement des références aux contextes qu’ils connaissent, et l’ordinateur doit disposer de ces connaissances et de cette compréhension pour que le tout fonctionne. »
Un commentaire
Bonjour,
Je suis un des quatre participants au concours Winograd Schema Challenge du 12 juillet dernier (six participants si on compte ceux qui se sont inscrits plusieurs fois).
La reconnaissance des pronoms est un problème qui est très compliqué, bien qu’il existe diverses méthodes d’approche intéressantes.
Mais faire face à l’organisation calamiteuse de ce concours a été un problème autrement plus compliqué. Les règles ont changé plusieurs fois, le format des fichiers d’entrée et de sortie on également changé, dont une fois 20 jours avant la date limite des candidatures. Les réponses possibles, qui étaient limitées à deux au départ, sont passées à un nombre indéterminé, le plus souvent trois ou quatre. Moi j’ai eu à me battre parce que les fichiers d’entrée étaient illisibles (vraisemblablement cryptés en EFS). Je crois qu’il devait y avoir au départ beaucoup plus de participants, mais un certain nombre ont baissé les bras devant cette organisation à la limite de l’amateurisme.
Alors présenter ça comme une défaite de l’intelligence artificielle me semble totalement malhonnête. C’est un concours organisé par des incompétents, et les problèmes étaient surtout d’ordre technique. Laissez-nous du temps et des règles claires et nous (moi ou d’autres) ferons beaucoup mieux.