Un système créé par des chercheurs du MIT pourrait servir à corriger automatiquement les erreurs factuelles dans les articles de l’encyclopédie en ligne Wikipédia, ce qui réduirait le temps et les efforts consacrés par les éditeurs humains qui effectuent en ce moment cette tâche manuellement.
Wikipédia compte ainsi des millions d’articles qui ont constamment besoin d’être modifiés pour refléter la disponibilité de nouvelles informations. Cela peut impliquer le prolongement d’articles, des réécritures importantes, ou des modifications plus mineures comme de nouvelles données chiffrées, dates, noms et noms de lieux. Actuellement, ce sont des humains de partout dans le monde qui donnent de leur temps pour effectuer ces modifications.
Dans le cadre d’une étude présentée à la Conférence AAAI sur l’intelligence artificielle, les chercheurs ont décrit un système de génération de texte qui isole et remplace des informations importantes dans des phrases publiées sur Wikipédia, tout en conservant un langage et un style familiers aux méthodes humaines.
L’idée consiste, pour des humains, à entrer, dans une interface, une phrase non structurée avec des informations mises à jour, sans avoir besoin de s’inquiéter du style ou des normes grammaticales. Le système passerait même Wikipédia au crible, pour y trouver la page appropriée et la phrase devant être changée, et ensuite la réécrire avec un style « humain ». Dans l’avenir, affirment les chercheurs, il pourrait être possible de créer un système entièrement automatisé qui identifie et utilise de l’information d’ailleurs sur le web pour produire des phrases révisées dans les articles correspondants sur Wikipédia.
Il existe déjà plusieurs robots qui modifient automatiquement des articles de Wikipédia. Généralement, ils servent à contrer le vandalisme ou à insérer des informations pointues dans des cadres prédéfinis, mentionne M. Shah. Le modèle des chercheurs, dit-il, vient résoudre un problème d’intelligence artificielle plus important: en obtenant une nouvelle information non structurée, le modèle modifie automatiquement la phrase en adoptant un style « humain ». « Les autres robots s’en tiennent davantage à des règles déjà écrites, tandis qu’il faut ici une dose de réflexion pour venir à bout, par exemple, de sections contradictoires dans des phrases, et pour pouvoir générer du texte qui est cohérent », poursuit-il.
Mettre fin aux biais
L’étude a également démontré que ce nouveau système peut être utilisé pour améliorer les ensembles de données pour mettre fin aux biais lorsque vient le temps « d’entraîner » des détecteurs de fausses nouvelles. Certains de ces détecteurs sont formés à l’aide de paires de phrases structurées selon un modèle « accord-désaccord », histoire « d’apprendre » à vérifier une affirmation en la comparant aux preuves existantes.
Dans ce contexte, les affirmations correspondront soit à de certaines informations s’appuyant sur des preuves provenant de Wikipédia, ou auront été modifiées par des humains pour contenir des informations contredisant les preuves existantes. Les modèles sont codés pour signaler ces affirmations erronées comme étant « fausses », ce qui peut servir à combattre les fausses nouvelles.
Malheureusement, de tels ensembles de données contiennent des biais, affirme M. Shah: « Pendant la formation, les modèles utilisent des extraits des affirmations écrites par des humains comme autant de signes de la présence de fausses nouvelles, sans s’appuyer principalement sur la phrase contenant les preuves. Cela réduit l’efficacité du modèle lorsque vient le temps d’évaluer des exemples véridiques, puisqu’il ne s’agit pas de vérification des faits. »
Les chercheurs ont utilisé les mêmes techniques de détection et de fusion des contenus provenant de leur projet lié à Wikipédia pour équilibrer les paires de phrases du bloc de données et tenté de masquer les biais. En agissant de cette façon, les chercheurs ont réduit le taux d’erreur d’un détecteur de fausses nouvelles déjà largement utilisé par 13%.