Un cadre d'analyse multirésolution pour l'analyse statistique des classements incomplets.

Auteurs
Date de publication
2016
Type de publication
Autre
Résumé Bien que l'analyse statistique des données de classement ait été un sujet d'intérêt au cours des siècles passés, en particulier en économie, en psychologie ou en théorie du choix social, elle a été revitalisée au cours des 15 dernières années par des applications récentes telles que les moteurs de recommandation ou de recherche et fait l'objet d'un intérêt croissant dans la littérature sur l'apprentissage automatique. De nombreux systèmes modernes génèrent en effet des données de classement, représentant par exemple des résultats ordonnés à une requête ou les préférences d'un utilisateur. Chacun de ces classements ne concerne généralement qu'un sous-ensemble petit mais variable de l'ensemble du catalogue d'articles. L'étude de la variabilité de ces données, c'est-à-dire l'analyse statistique des classements incomplets, est cependant un grand défi statistique et informatique, en raison de leur hétérogénéité et de la complexité combinatoire du problème. Alors que de nombreuses méthodes statistiques pour analyser les classements complets (classement de tous les articles du catalogue) sont documentées dans la littérature spécialisée, les classements partiels (classements complets avec des égalités) ou les comparaisons par paire, seules quelques approches sont disponibles aujourd'hui pour traiter les classements incomplets, chacune reposant sur une hypothèse spécifique forte. L'objectif de cet article est d'introduire un nouveau cadre général pour l'analyse statistique des classements incomplets. Il est basé sur une représentation adaptée à ces données spécifiques, dont la construction est également expliquée ici, qui s'adapte à la structure multi-échelle naturelle des classements incomplets et fournit une nouvelle décomposition de l'information sur les classements avec une interprétation d'analyse multi-résolu-tion (ARM). Nous montrons que la représentation ARM permet naturellement de surmonter les défis statistiques et informatiques sans aucune hypothèse structurelle sur les données. Elle fournit donc un cadre général et flexible pour résoudre une grande variété de problèmes statistiques, où les données sont sous la forme de classements incomplets.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr