Alors que seront bientôt imposées les premières amendes pour des violations des plus récentes normes européennes en matière de protection des données, des chercheurs ont démontré que même des données « rendues anonymes » peuvent être liées à des individus en particulier en utilisant l’apprentissage machine.
Les chercheurs soutiennent que leur étude, publiée dans Nature Communications, démontre que le fait de permettre l’utilisation de ces données, par exemple pour « entraîner » des algorithmes liés à l’intelligence artificielle (IA), tout en protégeant l’identité des gens, nécessite bien plus que l’ajout de simples « bruits » numériques, qu’un échantillonnage des données, ou d’autres techniques d’anonymisation.
Les scientifiques ont également rendu disponible un outil de démonstration qui permet au commun des mortels de déterminer leur risque d’être suivi, même si la base de données dans laquelle se trouvent leurs informations est anonymisée, et si seulement une partie de celle-ci est partagée.
Au dire des chercheurs, les conclusions de leurs travaux devraient faire réagir les décideurs pour leur faire prendre conscience de la nécessité de renforcer les règles en matières de données véritablement anonymes.
Des entreprises et des gouvernements recueillent régulièrement nos données personnelles. Certaines lois, comme en Europe et en Californie, protègent ces données et la façon dont elles sont utilisées.
Les données sont ainsi « échantillonnées » et rendues anonymes, ce qui veut dire faire disparaître les caractéristiques qui permettraient d’identifier les individus, comme les noms et les adresses courriel, pour que tous demeurent anonymes… théoriquement. Après ce processus, les données ne sont plus soumises aux protections liées à la vie privée, et peuvent donc être librement employées et vendues à des tierces parties, comme des compagnies de marketing et des grossistes en données.
La nouvelle étude démontre qu’une fois achetées, les données peuvent bien souvent être « retournées à leur état d’origjne » en utilisant l’apprentissage machine pour ré-identifier les individus, malgré les techniques d’anonymisation.
Cela pourrait faire en sorte que les données permettant l’identification des individus soient accessibles, donnant ainsi l’occasion, pour les acheteurs de ces données, de bâtir un profil toujours plus complets de Monsieur et Madame Tout-le-monde.
Lors des tests effectués au cours des travaux des chercheurs, 99,98% des Américains ont été correctement identifiés de nouveau dans n’importe quelle base de données « anonymisée » en utilisant à peine 15 caractéristiques, comme l’âge, le genre et le statut matrimonial.
Pour l’auteur principal de l’étude, le Dr Luc Rocher de l’Université catholique de Louvain, « s’il existe sans doute bien des hommes trentenaires vivant à New York, on en compte beaucoup moins qui sont aussi nés le 5 janvier, conduisent une voiture sport rouge, et vivent avec deux enfants (deux filles) et un chien ».
Toujours selon les chercheurs, les indices permettant de ré-identifier les individus correspondent à des « informations relativement standardisées que les compagnies demandent à savoir. Bien que celles-ci soient liées par des lois sur la protection des données, elles sont aussi libres de vendre les données à quiconque une fois que celles-ci ont été anonymisées. Notre étude démontre à quel point il est facile de retracer les individus une fois que cela se produit ».
Il en revient maintenant aux politiciens, poursuivent les scientifiques, d’en faire davantage pour protéger les individus contre des attaques découlant de données « ré-identifiées », qui pourraient avoir d’importantes répercussions sur le plan professionnel, ainsi qu’en matière de vie personnelle et de finances.