Un nouvel algorithme pour sérier des données bruitées

Vue aérienne du campus
Les archéologues et les autres scientifiques ont parfois besoin de sérier leurs données, c’est-à-dire de les ordonner selon des critères définis.

Dans ses travaux, le professeur Aaron Smith étudie le concept de sériation de données bruitées : à partir d’un ensemble de types d’objets (p. ex. : tous les types de glaçure utilisés sur les poteries durant une dynastie sumérienne) et de renseignements sur le moment où ces objets ont coexisté (p. ex. : découverte de deux types de glaçure dans un même site de fouilles), classer approximativement les objets selon leur âge relatif (p. ex. : glaçures conçues en premier, en deuxième, etc.). Les archéologues se servent de la sériation depuis 1898, et les spécialistes de l’informatique ont créé des algorithmes permettant de résoudre efficacement de nombreuses variantes de ce problème au cours des 40 dernières années. Cependant, aucun de ces algorithmes ne possède à la fois les trois propriétés suivantes : 1) production de réponses raisonnables à partir de données bruitées; 2) tractabilité computationnelle (algorithme dont le résultat peut être calculé par un ordinateur en un temps raisonnable); 3) production d’estimations beaucoup plus justes que celles de l’approche habituelle de « plongement spectral ». Comme toutes les données sont bruitées et qu’il est impossible d’exécuter des algorithmes non tractables, on n’avait pas vraiment trouvé d’amélioration à la bien connue méthode de plongement spectral jusqu’à ce que le professeur Smith s’attaque à cette question. Ce dernier a conçu une nouvelle procédure de « nettoyage » (un algorithme), et montré qu’elle donnait des réponses raisonnables pour la plupart des modèles de données bruitées, qu’elle était toujours tractable par ordinateur et qu’elle était bien plus juste que le plongement spectral pour un large éventail de modèles. Il a aussi établi que les approches de plongement spectral représentent en quelque sorte une avenue sans issue, en démontrant qu’elles sont considérablement moins exactes que son algorithme.

Professeur Aaron Smith
Professeur Aaron Smith

C’est de cet algorithme qu’émanent les retombées immédiates des travaux du professeur Smith. Les scientifiques appelés à sérier des données présentant une similarité deux à deux (p. ex. : neuroscientifiques, personnes devant classer des choix) peuvent l’utiliser en remplacement ou en complément de leur approche traditionnelle basée sur le plongement. Cela dit, le professeur Smith s’attend à ce qu’à long terme, son algorithme soit supplanté et à ce que ses résultats théoriques gagnent en importance. Les approches les plus courantes pour effectuer des sériations, des classements et d’autres tâches semblables reposent toutes sur le plongement de points dans un espace latent continu. Le professeur Smith a démontré l’existence de limites fondamentales à l’exactitude de cette méthode. Il espère que ses travaux inciteront la communauté de recherche à abandonner ses efforts inutiles de raffinage du plongement pour se pencher sur des algorithmes plus prometteurs.

Pour en savoir plus :