VARCLUST : regroupement de variables en utilisant la réduction de la dimensionnalité.

Auteurs
  • SOBCZYK Piotr
  • BOGDAN Malgorzata
  • GRACZYK Piotr
  • JOSSE Julie
  • PANLOUP Fabien
  • SEEGERS Valerie
  • STANIAK Mateusz
  • WILCZYNSKI Stanislaw
Date de publication
2020
Type de publication
Autre
Résumé L'algorithme VARCLUST est proposé pour le regroupement de variables en partant de l'hypothèse que les variables d'un groupe donné sont des combinaisons linéaires d'un petit nombre de variables latentes cachées, corrompues par le bruit aléatoire. L'ensemble de la tâche de clustering est considéré comme le problème de la sélection du modèle statistique, qui est défini par le nombre de clusters, la partition des variables dans ces clusters et les "dimensions des clusters", c'est-à-dire le vecteur des dimensions des sous-espaces linéaires couvrant chacun des clusters. Le modèle "optimal" est sélectionné en utilisant le critère bayésien approximatif basé sur les approximations de Laplace et en utilisant une priorité uniforme non informative sur le nombre de clusters. Pour résoudre le problème de la recherche sur un immense espace de modèles possibles, nous proposons une extension de l'algorithme ClustOfVar de [29, 7] qui était dédié aux sous-espaces de dimension 1 seulement, et qui est similaire en structure à l'algorithme K-centroid. Nous fournissons une méthodologie complète avec des garanties théoriques, des expérimentations numériques étendues, des analyses de données complètes et une mise en œuvre. Notre algorithme affecte les variables aux clusters appropriés sur la base du critère d'information bayésien (BIC) cohérent, et estime la dimensionnalité de chaque cluster par le critère de vraisemblance intégré SEmi PEnalized (PESEL) de [24], dont nous prouvons la cohérence. De plus, nous prouvons que chaque itération de notre algorithme conduit à une augmentation de l'approximation de Laplace de la probabilité postérieure du modèle et nous fournissons le critère pour l'estimation du nombre de clusters. Des comparaisons numériques avec d'autres algorithmes montrent que VARCLUST peut surpasser certains outils d'apprentissage automatique populaires pour le clustering de sous-espace clairsemé. Nous présentons également les résultats de l'analyse de données réelles, notamment les données du cancer du sein TCGA et les données météorologiques, qui montrent que l'algorithme peut conduire à un regroupement significatif. La méthode proposée est mise en œuvre dans le paquetage R varclust disponible au public. Mots clés clustering variable - approche bayésienne - k-means - réduction de la dimensionnalité - subspace clustering 2 P. Sobczyk, S. Wilczyński, M. Bogdan et al.
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr