JAKUBOWICZ Jeremie

< Retour à ILB Patrimoine
Affiliations
  • 2012 - 2019
    Services repartis, architectures, modélisation, validation, administration des réseaux
  • 2012 - 2017
    Télécom ParisTech
  • 2012 - 2017
    Institut Mines-Télécom
  • 2012 - 2013
    Laboratoire traitement et communication de l'information
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • Apprentissage profond versus apprentissage automatique conventionnel pour la détection des infections associées aux soins dans les récits cliniques français.

    Sara RABHI, Jeremie JAKUBOWICZ, Marie helene METZGER
    Methods of Information in Medicine | 2019
    Objectif : L'objectif de cet article était de comparer les performances de détection des infections associées aux soins de santé (IAS) entre les méthodes d'apprentissage profond et d'apprentissage machine (ML) conventionnelles dans les rapports médicaux français. Méthodes : Le corpus était composé de différents types de rapports médicaux (résumés de sortie, rapports de chirurgie, rapports de consultation, etc.) Au total, 1 531 documents textuels médicaux ont été extraits et désidentifiés dans trois hôpitaux universitaires français. Chacun d'entre eux a été étiqueté comme présence (1) ou absence (0) de HAI. Nous avons commencé par normaliser les documents à l'aide d'une liste de techniques de prétraitement. Nous avons calculé une mesure de performance globale, le score F1, pour comparer une méthode d'apprentissage profond (réseau de neurones convolutifs [CNN]) avec les modèles ML conventionnels les plus populaires (Bayes de Bernoulli et multi-naïfs, k-voisins les plus proches, régression logistique, forêts aléatoires, arbres supplémentaires, boosting de gradient, machines à vecteurs de support). Nous avons appliqué l'optimisation bayésienne des hyperparamètres pour chaque modèle en fonction de ses performances en matière d'identification des IAH. Nous avons inclus l'ensemble de la représentation textuelle comme hyperparamètre supplémentaire pour chaque modèle, en utilisant quatre représentations textuelles différentes (sac de mots, fréquence des termes - fréquence inverse des documents, word2vec, et Glove). Résultats : CNN surpasse tous les autres algorithmes ML conventionnels pour la classification HAI. Le meilleur score F1 de 97,7 % ± 3,6 % et le meilleur score de l'aire sous la courbe de 99,8 % ± 0,41 % ont été obtenus lorsque la CNN a été appliquée directement aux notes cliniques traitées sans incorporation word2vec pré-entraînée. Grâce à l'analyse de la courbe caractéristique de fonctionnement du récepteur, nous avons pu atteindre un bon équilibre entre les fausses notifications (avec une spécificité égale à 0,937) et la capacité de détection du système (avec une sensibilité égale à 0,962) en utilisant la référence de l'indice de Youden. Conclusions : Le principal inconvénient des CNN est leur opacité. Pour résoudre ce problème, nous avons étudié les valeurs d'activation des couches internes des CNN afin de visualiser les phrases les plus significatives dans un document. Cette méthode pourrait être utilisée pour construire un algorithme d'assistant médical basé sur les phrases afin d'aider le praticien du contrôle des infections à sélectionner les dossiers médicaux pertinents. Notre étude a démontré que l'approche d'apprentissage profond surpasse les autres algorithmes d'apprentissage de classification pour identifier automatiquement les infections nosocomiales dans les rapports médicaux.
  • Applications de l'intelligence artificielle dans le domaine du commerce électronique et de la finance.

    Yang JIAO, Walid BEN AMEUR, Amel BOUZEGHOUB, Jeremie JAKUBOWICZ, Bruno GOUTORBE, Arthur CHARPENTIER, Romuald ELIE
    2018
    L'Intelligence Artificielle est présente dans tous les aspects de notre vie à l'ère du Big Data. Elle a entraîné des changements révolutionnaires dans divers secteurs, dont le commerce électronique et la finance. Dans cette thèse, nous présentons quatre applications de l'IA qui améliorent les biens et services existants, permettent l'automatisation et augmentent considérablement l'efficacité de nombreuses tâches dans les deux domaines. Tout d'abord, nous améliorons le service de recherche de produits offert par la plupart des sites de commerce électronique en utilisant un nouveau système de pondération des termes pour mieux évaluer l'importance des termes dans une requête de recherche. Ensuite, nous construisons un modèle prédictif sur les ventes quotidiennes en utilisant une approche de prévision des séries temporelles et tirons parti des résultats prévus pour classer les résultats de recherche de produits afin de maximiser les revenus d'une entreprise. Ensuite, nous proposons la difficulté de la classification des produits en ligne et analysons les solutions gagnantes, consistant en des algorithmes de classification à la pointe de la technologie, sur notre ensemble de données réelles. Enfin, nous combinons les compétences acquises précédemment à partir de la prédiction et de la classification des ventes basées sur les séries temporelles pour prédire l'une des séries temporelles les plus difficiles mais aussi les plus attrayantes : le stock. Nous effectuons une étude approfondie sur chaque titre de l'indice S&P 500 en utilisant quatre algorithmes de classification à la pointe de la technologie et nous publions des résultats très prometteurs.
  • Optimisation des réseaux de transport et de communication à l'aide de données massives.

    Longbiao CHEN, Thi mai trang NGUYEN, Gang PAN, Jeremie JAKUBOWICZ, Guy PUJOLLE, Igor monteiro MORAES, Shijian LI, Anelise MUNARETTO, Marco FIORE
    2018
    L'évolution des structures métropolitaines ont créé divers types de réseaux urbains. Parmi lesquels deux types de réseaux sont d'une grande importance pour notre vie quotidienne : les réseaux de transport correspondant à la mobilité humaine dans l'espace physique et les réseaux de communications soutenant les interactions humaines dans l'espace numérique. L'expansion rapide dans la portée et l'échelle de ces deux réseaux soulève des questions de recherche fondamentales sur la manière d’optimiser ces réseaux. Certains des objectifs principaux comprennent le provisioning de ressources à la demande, la détection des anomalies, l'efficacité énergétique et la qualité de service. Malgré les différences dans la conception et les technologies de mise en œuvre, les réseaux de transport et les réseaux de communications partagent des structures fondamentales communes, et présentent des caractéristiques spatio-temporelles dynamiques similaires. En conséquence, ils existent les défis communs dans l’optimisation de ces deux réseaux : le profil du trafic, la prédiction de la mobilité, l’agrégation de trafic, le clustering des nœuds et l'allocation de ressources. Pour atteindre les objectifs d'optimisation et relever les défis de la recherche, différents modèles analytiques, algorithmes d'optimisation et systèmes de simulation ont été proposés et largement étudiés à travers plusieurs disciplines. Ces modèles analytiques sont souvent validés par la simulation et pourraient conduire à des résultats sous-optimaux dans le déploiement. Avec l'émergence de l’Internet, un volume massif de données de réseau urbain peuvent être collecté. Les progrès récents dans les techniques d'analyse de données Big Data ont fourni aux chercheurs de grands potentiels pour comprendre ces données. Motivé par cette tendance, l’objectif de cette thèse est d'explorer un nouveau paradigme d'optimisation des réseaux basé sur les données. Nous abordons les défis scientifiques mentionnés ci-dessus en appliquant des méthodes d'analyse de données pour l'optimisation des réseaux. Nous proposons deux algorithmes data-driven pour le clustering de trafic réseau et la prédiction de la mobilité d’utilisateur, et appliquer ces algorithmes à l'optimisation dans les réseaux de transport et de communications. Premièrement, en analysant les jeux de données de trafic à grande échelle des deux réseaux, nous proposons un algorithme de clustering à base de graphe pour mieux comprendre les similitudes de la circulation et les variations de trafic entre différents zones et heures. Sur cette base, nous appliquons l'algorithme d’agrégation (clustering) de trafic aux deux applications d'optimisation de réseau suivants : 1. Un clustering de trafic dynamique pour la planification à la demande des réseaux de vélos partagés. Dans cette application, nous regroupons dynamiquement les stations de vélos avec des motifs de trafic similaires pour obtenir des demandes de trafic groupées (en cluster) plus stables et plus prédictible, de manière à pouvoir prévoir les stations surchargés dans le réseau et à permettre une planification dynamique de réseau en fonction de la demande. Les résultats d'évaluation en utilisant les données réelles de New York City et Washington, D.C. montrent que notre solution prévoit précisément des clusters surchargés [.].
  • Regroupement complémentaire de stations de base pour un réseau radio en nuage rentable et économe en énergie.

    Longbiao CHEN, Linjin LIU, Xiaoliang FAN, Johnthan LI, Cheng WANG, Gang PAN, Jeremie JAKUBOWICZ, Thi mai trang NGUYEN
    2017 IEEE SmartWorld, Ubiquitous Intelligence & Computing, Advanced & Trusted Computed, Scalable Computing & Communications, Cloud & Big Data Computing, Internet of People and Smart City Innovation (SmartWorld/SCALCOM/UIC/ATC/CBDCom/IOP/SCI) | 2017
    Pas de résumé disponible.
  • Comprendre les modèles de déplacement à vélo en exploitant les données ouvertes des systèmes de partage de vélos.

    Longbiao CHEN, Xiaojuan MA, Thi mai trang NGUYEN, Gang PAN, Jeremie JAKUBOWICZ
    Frontiers of Computer Science | 2017
    Les systèmes de vélos en libre-service sont en plein essor dans le monde entier en tant que mode de transport écologique et flexible, mais cette flexibilité entraîne également des difficultés pour maintenir l'équilibre entre les stations de vélos et le nombre de vélos et de quais. Il est important pour les chercheurs de comprendre les schémas spatio-temporels des déplacements à vélo dans un système de partage de vélos, comme les origines et les destinations les plus populaires aux heures de pointe, afin de concevoir des modèles pour la programmation des vélos et la gestion des stations. Cependant, pour des raisons de confidentialité et d'exploitation, les données sur les déplacements à vélo ne sont généralement pas accessibles au public dans de nombreuses villes. En revanche, les données relatives au nombre de vélos et de stations en temps réel sont généralement publiques, ce que nous appelons les données ouvertes des systèmes de vélos en libre-service. Dans cet article, nous proposons une approche pour déduire les schémas spatio-temporels des déplacements à vélo à partir des données publiques des stations. Puisque le nombre de déplacements possibles (c'est-à-dire les paires origine-destination des stations) est beaucoup plus grand que le nombre de stations, nous définissons l'inférence des déplacements comme un problème inverse mal posé. Pour résoudre ce problème, nous identifions les propriétés d'éparpillement et de localité des modèles de déplacement à vélo, et nous proposons un modèle de régularisation épars et pondéré pour imposer ces deux propriétés dans la solution. Nous évaluons notre méthode à l'aide de données réelles provenant de Washington, D.C. et de la ville de New York. Les résultats montrent que notre méthode peut déduire efficacement les schémas spatio-temporels de déplacement à vélo et surpasse les résultats de base dans les deux villes.
  • Détection et caractérisation des événements urbains à grain fin basées sur la cofactorisation des tenseurs.

    Longbiao CHEN, Jeremie JAKUBOWICZ, Dingqi YANG, Daqing ZHANG, Gang PAN
    IEEE Transactions on Human-Machine Systems | 2017
    La compréhension des mouvements de foule et des activités sociales irréguliers provoqués par des événements urbains tels que les festivals et les concerts peut être utile à la gestion des événements et à la planification urbaine. Bien que diverses données urbaines puissent être exploitées pour détecter ces irrégularités, les données relatives à la mobilité des foules (par exemple, les enregistrements des déplacements à vélo) sont généralement mixtes et présentent plusieurs schémas de base (par exemple, repas, travail et loisirs), ce qui rend difficile la distinction entre les événements simultanés qui se déroulent dans la même région. Les données relatives à l'activité sociale (par exemple, les enregistrements sur les réseaux sociaux) sont généralement trop éparses, ce qui entrave la caractérisation fine des événements urbains. Dans cet article, nous proposons un cadre de fusion de données basé sur la cofactorisation tensorielle pour la détection et la caractérisation d'événements urbains à grain fin en exploitant les données de mobilité de la foule et les données d'activité sociale. Tout d'abord, nous adoptons une approche de cofactorisation de tenseur non négatif pour décomposer le tenseur de mobilité de la foule en plusieurs modèles de base, avec l'aide du tenseur auxiliaire d'activité sociale. Nous utilisons ensuite une méthode multivariée basée sur la détection des valeurs aberrantes pour identifier les irrégularités des modèles de base décomposés et les agréger pour détecter et caractériser les événements urbains associés. Nous évaluons la performance de notre cadre en utilisant des données réelles de déplacements à vélo et des données d'enregistrement de la ville de New York et de Washington, DC, respectivement. Les résultats montrent qu'en fusionnant les deux types de données urbaines, notre méthode permet de détecter et de caractériser finement les événements urbains dans les deux villes et d'obtenir des performances supérieures à celles des solutions de référence.
  • Stratégies de reclassement basées sur des événements d'utilisateurs professionnels à grain fin, évaluées sur un grand ensemble de données sur le commerce électronique.

    Yang JIAO, Bruno GOUTORBE, Matthieu CORNEC, Jeremie JAKUBOWICZ, Christelle GRAUER, Sebastien ROMANO, Maxime DANINI
    E-Commerce and Web Technologies | 2017
    Pas de résumé disponible.
  • Regroupement complémentaire de stations de base pour le Cloud-RAN rentable et économe en énergie.

    Longbiao CHEN, Thi mai trang NGUYEN, Gang PAN, Jeremie JAKUBOWICZ, Linjin LIU, Xiaoliang FAN, Johnthan LI, Cheng WANG
    14th IEEE International Conference on Ubiquitous Intelligence and Computing (UIC 2017) | 2017
    La croissance rapide du trafic de données sur les réseaux mobiles pose de grands défis aux opérateurs, qui doivent augmenter leur capacité de traitement des données dans les stations de base de manière efficace. Avec l'émergence du réseau d'accès radio en nuage (Cloud-RAN), les unités de traitement des données peuvent désormais être centralisées dans un centre de données et partagées entre plusieurs stations de base. En regroupant les stations de base ayant des modèles de trafic complémentaires dans le même centre de données, le coût de déploiement et la consommation d'énergie peuvent être réduits. Dans cet article, nous proposons un cadre en deux phases pour trouver des schémas optimaux de regroupement des stations de base dans un Cloud-RAN à l'échelle d'une ville. Tout d'abord, nous concevons un profil de trafic pour chaque station de base, et proposons une métrique basée sur l'entropie pour caractériser la complémentarité entre les stations de base. Ensuite, nous construisons un modèle de graphe pour représenter la complémentarité en tant que poids de lien, et nous proposons un algorithme de regroupement sous contrainte de distance pour trouver des schémas de regroupement de stations de base optimaux. Nous évaluons la performance de notre cadre en utilisant deux mois de données réelles de trafic de réseau mobile à Milan, en Italie. Les résultats montrent que notre cadre réduit efficacement 12,88% du coût de déploiement et 9,45% de la consommation d'énergie par rapport aux architectures traditionnelles, et surpasse la méthode de base.
  • Un cadre d'analyse multirésolution pour l'analyse statistique des classements incomplets.

    Eric SIBONY, Stephan CLEMENCON, Jeremie JAKUBOWICZ
    2016
    Bien que l'analyse statistique des données de classement ait été un sujet d'intérêt au cours des siècles passés, en particulier en économie, en psychologie ou en théorie du choix social, elle a été revitalisée au cours des 15 dernières années par des applications récentes telles que les moteurs de recommandation ou de recherche et fait l'objet d'un intérêt croissant dans la littérature sur l'apprentissage automatique. De nombreux systèmes modernes génèrent en effet des données de classement, représentant par exemple des résultats ordonnés à une requête ou les préférences d'un utilisateur. Chacun de ces classements ne concerne généralement qu'un sous-ensemble petit mais variable de l'ensemble du catalogue d'articles. L'étude de la variabilité de ces données, c'est-à-dire l'analyse statistique des classements incomplets, est cependant un grand défi statistique et informatique, en raison de leur hétérogénéité et de la complexité combinatoire du problème. Alors que de nombreuses méthodes statistiques pour analyser les classements complets (classement de tous les articles du catalogue) sont documentées dans la littérature spécialisée, les classements partiels (classements complets avec des égalités) ou les comparaisons par paire, seules quelques approches sont disponibles aujourd'hui pour traiter les classements incomplets, chacune reposant sur une hypothèse spécifique forte. L'objectif de cet article est d'introduire un nouveau cadre général pour l'analyse statistique des classements incomplets. Il est basé sur une représentation adaptée à ces données spécifiques, dont la construction est également expliquée ici, qui s'adapte à la structure multi-échelle naturelle des classements incomplets et fournit une nouvelle décomposition de l'information sur les classements avec une interprétation d'analyse multi-résolu-tion (ARM). Nous montrons que la représentation ARM permet naturellement de surmonter les défis statistiques et informatiques sans aucune hypothèse structurelle sur les données. Elle fournit donc un cadre général et flexible pour résoudre une grande variété de problèmes statistiques, où les données sont sous la forme de classements incomplets.
  • Un algorithme de point proximal stochastique pour la régularisation de la variation totale sur des graphes à grande échelle.

    Adil SALIM, Pascal BIANCHI, Walid HACHEM, Jeremie JAKUBOWICZ
    2016 IEEE 55th Conference on Decision and Control (CDC) | 2016
    Pas de résumé disponible.
  • Random Pairwise Gossip on $\text{CAT}(\kappa)$ Metric Spaces.

    Anass BELLACHEHAB, Jeremie JAKUBOWICZ
    IEEE Transactions on Automatic Control | 2016
    Dans le contexte des réseaux de capteurs, les algorithmes de commérage sont une technique populaire et bien établie pour obtenir un consensus lorsque les données des capteurs sont codées dans des espaces linéaires. Les algorithmes de commérage ont également plusieurs extensions aux espaces de données non linéaires. La plupart de ces extensions traitent des manifolds riemanniens et utilisent la descente de gradient riemannienne. Cet article, au contraire, présente une propriété métrique très simple qui ne repose sur aucune structure différentielle. Cette propriété suggère fortement que les algorithmes de ragots pourraient être étudiés sur une famille plus large que les collecteurs riemanniens. Et il s'avère qu'en effet, la convergence (locale) est garantie dès que l'espace de données est un simple espace métrique CAT(κ). Nous étudions également la vitesse de convergence dans ce contexte et établissons des taux linéaires pour les espaces CAT(0), et des taux linéaires locaux pour les espaces CAT(κ) avec κ > 0. Des simulations numériques sur plusieurs scénarios, avec des espaces d'état correspondants qui sont soit des manifestes riemanniens - comme dans le problème du consensus des matrices définies positives - soit des espaces métriques nus - comme dans le problème du consensus des armes - valident les résultats. Cela montre que notre approche métrique permet non seulement une analyse mathématique plus simple et plus générale, mais ouvre également la voie à de nouveaux types d'applications qui dépassent le cadre riemannien.
  • Prédiction dynamique de la sur-demande basée sur les clusters dans les systèmes de partage de vélos.

    Longbiao CHEN, Daqing ZHANG, Leye WANG, Dingqi YANG, Xiaojuan MA, Shijian LI, Zhaohui WU, Gang PAN, Thi mai trang NGUYEN, Jeremie JAKUBOWICZ
    Proceedings of the 2016 ACM International Joint Conference on Pervasive and Ubiquitous Computing | 2016
    Le vélo en libre-service est en plein essor dans le monde entier en tant que mode de transport écologique, mais l'apparition de stations en sur-demande qui n'ont pas de vélos ou de quais disponibles affecte grandement l'expérience des utilisateurs. Il est difficile de prédire directement les stations à forte demande pour prendre des mesures préventives, car le modèle d'utilisation des vélos d'une station est très dynamique et dépend du contexte. De plus, le fait que le modèle d'utilisation des vélos soit affecté non seulement par des facteurs contextuels communs (par exemple, le temps et la météo) mais aussi par des facteurs contextuels opportunistes (par exemple, des événements sociaux et de trafic) pose un grand défi. Pour répondre à ces problèmes, nous proposons un cadre dynamique basé sur les clusters pour la prédiction de la sur-demande. En fonction du contexte, nous construisons un réseau de corrélation pondéré pour modéliser la relation entre les stations de vélo, et nous regroupons dynamiquement les stations voisines avec des modèles d'utilisation de vélo similaires dans des clusters. Nous adoptons ensuite la simulation de Monte Carlo pour prédire la probabilité de sur-demande de chaque groupe. Les résultats de l'évaluation utilisant des données réelles de la ville de New York et de Washington, D.C., montrent que notre cadre prédit avec précision les groupes de surconsommation et surpasse les méthodes de base de manière significative.
  • Consensus robuste distribué utilisant la variation totale.

    Walid BEN AMEUR, Pascal BIANCHI, Jeremie JAKUBOWICZ
    IEEE Transactions on Automatic Control | 2016
    Considérons un réseau connecté d'agents dotés de fonctions de coût locales représentant des objectifs privés. Les agents cherchent à trouver un accord sur un certain minimiseur du coût agrégé, au moyen de communications répétées entre voisins. Le consensus sur la moyenne du réseau, généralement traité par les algorithmes de commérage, est une instance spéciale de ce problème, correspondant à des objectifs privés quadratiques. Le consensus sur la médiane, ou plus généralement, le consensus sur un quantile donné, est également une instance spéciale de ce problème. Dans cet article, nous montrons que l'optimisation de la fonction de coût agrégée régularisée par un terme de variation totale (TV) présente des propriétés intéressantes. Premièrement, elle peut être réalisée très naturellement de manière distribuée, ce qui donne des algorithmes efficaces pour les simulations numériques. Deuxièmement, il est démontré que l'optimum pour le coût régularisé est également l'optimum pour la fonction de coût agrégée initiale sous des hypothèses simples à énoncer. Enfin, ces algorithmes sont robustes aux agents non fiables qui injectent sans cesse une fausse valeur dans le réseau. Ceci est assez remarquable, et ce n'est pas le cas, par exemple, des algorithmes de commérage qui sont entièrement régis par des agents non fiables comme détaillé dans l'article.
  • Analyse multir?solution de donn?es de classements.

    Eric SIBONY, St?phan CL?MEN?ON, J?r?mie JAKUBOWICZ, St?phane MALLAT, Eyke HULLERMEIER, Jonathan HUANG, Miche?le SEBAG, Risi KONDOR, Devavrat SHAH
    2016
    Cette th?se introduit un cadre d?analyse multir?solution pour les donn?es de classements. Initi?e au 18e si?cle dans le contexte d??lections, l?analyse des donn?es de classements a attir? un int?r?t majeur dans de nombreux domaines de la litt?rature scientifique : psychom?trie, statistiques, ?conomie, recherche op?rationnelle, apprentissage automatique ou choix social computationel entre autres. Elle a de plus ?t? revitalis?e par des applications modernes comme les syst?mes de recommandation, o? le but est d?inf?rer les pr?f?rences des utilisateurs pour leur proposer les meilleures suggestions personnalis?es. Dans ces contextes, les utilisateurs expriment leurs pr?f?rences seulement sur des petits sous-ensembles d?objets variant au sein d?un large catalogue. L?analyse de tels classements incomplets pose cependant un d?fi important, tant du point de vue statistique que computationnel, poussant les acteurs industriels ? utiliser des m?thodes qui n?exploitent qu?une partie de l?information disponible. Cette th?se introduit une nouvelle repr?sentation pour les donn?es, qui surmonte par construction ce double d?fi. Bien qu?elle repose sur des r?sultats de combinatoire et de topologie alg?brique, ses nombreuses analogies avec l?analyse multir?solution en font un cadre naturel et efficace pour l?analyse des classements incomplets. Ne faisant aucune hypoth?se sur les donn?es, elle m?ne d?j? ? des estimateurs au-del? de l??tat-de-l?art pour des petits catalogues d?objets et peut ?tre combin?e avec de nombreuses proc?dures de r?gularisation pour des larges catalogues. Pour toutes ces raisons, nous croyons que cette repr?sentation multir?solution ouvre la voie ? de nombreux d?veloppements et applications futurs.
  • Apprentissage statistique basé sur l'ARM à partir de classements incomplets Stéphan Clémençon.

    Eric SIBONY, Stephan CLEMENCON, Jeremie JAKUBOWICZ
    MRA-based Statistical Learning from Incomplete Rankings Stéphan Clémençon | 2015
    L'analyse statistique des données de rangs décrivant les préférences sur des sous-ensembles petits et variables d'un ensemble potentiellement grand d'éléments {1,.... , n} est un problème très difficile. Il est motivé par une grande variété d'applications modernes, telles que les systèmes de recommandation ou les moteurs de recherche. Cependant, très peu de méthodes d'inférence ont été documentées dans la littérature pour apprendre un modèle de classement à partir de telles données de classement incomplètes. L'objectif de cet article est double : il développe un cadre mathématique rigoureux pour le problème de l'apprentissage d'un modèle de classement à partir de classements incomplets et introduit une nouvelle méthode statistique générale pour le résoudre. Basée sur un concept original d'analyse multi-résolution (ARM) des classements incomplets, cette méthode s'adapte finement à n'importe quel cadre d'observation, conduisant à une précision statistique et une complexité algorithmique qui dépendent directement de la complexité des données observées. Au-delà des garanties théoriques, nous fournissons également des résultats expérimentaux qui montrent ses performances statistiques.
  • Inférer les modèles de déplacement à vélo à partir des données ouvertes des systèmes de partage de vélos.

    Longbiao CHEN, Jeremie JAKUBOWICZ
    2015 IEEE International Conference on Big Data (Big Data) | 2015
    La compréhension des schémas de déplacement des vélos dans un système de vélos en libre-service est importante pour les chercheurs qui conçoivent des modèles pour le placement des stations et la programmation des vélos. Par modèles de déplacements à vélo, nous faisons référence au grand nombre de déplacements à vélo observés entre deux stations. Cependant, pour des raisons de confidentialité et d'exploitation, les données sur les déplacements à vélo ne sont généralement pas rendues publiques. Dans cet article, au lieu de s'appuyer sur des enquêtes fastidieuses et des simulations imprécises, nous essayons de déduire les modèles de déplacements à vélo directement à partir des données sur l'état des stations, qui sont généralement publiques pour aider les usagers à trouver les stations et les vélos à proximité. Cependant, les données sur l'état des stations ne contiennent pas d'informations sur l'origine et la destination des vélos, ce qui fait que les mêmes observations sur les stations peuvent correspondre à différents déplacements à vélo. Pour relever ce défi, nous menons une étude empirique sur un échantillon de données de déplacements à vélo afin de mieux comprendre la structure interne des déplacements à vélo. Nous formulons ensuite le problème d'inférence des trajets comme un problème inverse mal posé, et proposons une technique de régularisation pour incorporer les informations a priori sur les trajets en vélo afin de résoudre le problème. Nous évaluons notre méthode à l'aide d'ensembles de données réelles sur les vélos en libre-service de Washington, D.C. Les résultats montrent que notre méthode infère efficacement les modèles de déplacements à vélo.
  • Apprentissage statistique basé sur l'ARM à partir de classements incomplets.

    Eric SIBONY, Stephan CLEMENCON, Jeremie JAKUBOWICZ
    ICML 2015 : 32nd International Conference on Machine Learning | 2015
    L'analyse statistique des données de rangs décrivant les préférences sur des sous-ensembles petits et variables d'un ensemble potentiellement grand d'éléments 1, ., n est un problème très difficile. Il est motivé par une grande variété d'applications modernes, telles que les systèmes de recommandation ou les moteurs de recherche. Cependant, très peu de méthodes d'inférence ont été documentées dans la littérature pour apprendre un modèle de classement à partir de telles données de classement incomplètes. L'objectif de cet article est double : il développe un cadre mathématique rigoureux pour le problème de l'apprentissage d'un modèle de classement à partir de classements incomplets et introduit une nouvelle méthode statistique générale pour le résoudre. Basée sur un concept original d'analyse multi-résolution (MRA) des classements incomplets, elle s'adapte finement à tout cadre d'observation, conduisant à une précision statistique et une complexité algorithmique qui dépendent directement de la complexité des données observées. Au-delà des garanties théoriques, nous fournissons également des résultats expérimentaux qui montrent ses performances statistiques.
  • Random Pairwise Gossip on $$CAT(\kappa )$$ C A T ( κ ) Metric Spaces.

    Anass BELLACHEHAB, Jeremie JAKUBOWICZ
    Geometric Science of Information | 2015
    Dans le contexte des réseaux de capteurs, les algorithmes de commérage sont une technique populaire et bien établie pour obtenir un consensus lorsque les données des capteurs sont codées dans des espaces linéaires. Les algorithmes de commérage ont également plusieurs extensions aux espaces de données non linéaires. La plupart de ces extensions portent sur les collecteurs riemanniens et utilisent la descente de gradient riemannienne. Cet article étudie plutôt le commérage dans un cadre métrique CAT(k) plus large, englobant, sans s'y limiter, plusieurs cas intéressants de manifestes riemanniens. Il s'avère que la convergence peut être garantie dès lors que les données se trouvent dans une boule suffisamment petite d'un simple espace métrique CAT(k). Nous étudions également la vitesse de convergence dans ce cadre et établissons des taux de convergence linéaires.
  • Consensus distribué pour les systèmes métamorphiques utilisant un algorithme de commérage pour les espaces métriques CAT(0).

    Anass BELLACHEHAB, Jeremie JAKUBOWICZ
    MAXENT 2014 : 34th International Workshop on Bayesian Inference and Maximum Entropy Methods in Science and Engineering | 2015
    Nous présentons une application des algorithmes de consensus distribués aux systèmes métamorphiques. Un système métamorphique est un ensemble d'unités identiques qui peuvent s'auto-assembler pour former une structure rigide. Par exemple, on peut penser à un bras robotique composé de multiples liens reliés par des articulations. Le système peut changer sa forme afin de s'adapter à différents environnements via la reconfiguration de ses unités constitutives. Nous supposons dans ce travail que plusieurs systèmes métamorphiques forment un réseau : deux systèmes sont connectés dès lors qu'ils sont capables de communiquer entre eux. L'objectif de cet article est de proposer un algorithme distribué qui synchronise tous les systèmes du réseau. La synchronisation signifie que tous les systèmes doivent finir par avoir la même configuration. Cet objectif est atteint en deux étapes : (i) nous présentons le problème comme un problème de consensus sur un espace métrique et (ii) nous utilisons un algorithme de consensus distribué récent qui ne fait appel qu'à des notions métriques.
  • Capter le pouls des centres d'activités urbaines en exploitant les données ouvertes des vélos en libre-service.

    Longbiao CHEN, Dingqi YANG, Jeremie JAKUBOWICZ, Gang PAN, Daqing ZHANG, Shijian LI
    2015 IEEE 12th Intl Conf on Ubiquitous Intelligence and Computing and 2015 IEEE 12th Intl Conf on Autonomic and Trusted Computing and 2015 IEEE 15th Intl Conf on Scalable Computing and Communications and Its Associated Workshops (UIC-ATC-ScalCom) | 2015
    La compréhension des activités sociales dans les centres d'activités urbaines peut profiter à la fois aux autorités urbaines et aux citoyens. Traditionnellement, le suivi des activités sociales de grande envergure entraîne généralement des coûts importants en termes de travail humain et de temps. Heureusement, avec l'essor récent des données urbaines ouvertes, une grande variété d'empreintes numériques humaines sont devenues ouvertement accessibles, nous offrant de nouvelles opportunités pour comprendre la dynamique sociale dans les villes. Dans cet article, nous avons recours à des données urbaines ouvertes provenant de systèmes de vélos en libre-service et nous proposons un cadre en deux phases pour identifier les activités sociales dans les centres d'activités urbaines sur la base des données ouvertes des vélos en libre-service. Plus précisément, nous détectons d'abord les anomalies d'utilisation des vélos à partir des données sur les déplacements en vélo, puis nous identifions les activités sociales potentielles à partir des anomalies détectées en utilisant une méthode heuristique proposée en tenant compte des contraintes spatiales et temporelles. Nous évaluons notre cadre sur la base d'un ensemble de données réelles à grande échelle collectées à partir du système de partage de vélos de Washington, D.C. Les résultats montrent que notre cadre peut identifier efficacement les activités sociales dans différents types de centres d'activités urbaines et surpasse l'approche de base. En particulier, notre cadre peut identifier 89% des activités sociales dans les principaux centres d'activités urbaines de Washington, D.C.
  • Un schéma de pondération des termes basé sur l'entropie et son application dans les moteurs de recherche de commerce électronique.

    Yang JIAO, Matthieu CORNEC, Jeremie JAKUBOWICZ
    International Symposium on Web Algorithms | 2015
    Les schémas de pondération des termes sont couramment utilisés dans le domaine de la recherche d'information pour extraire les termes les plus pertinents des documents. La principale contribution de cet article consiste à définir un nouveau schéma de pondération des termes basé sur l'entropie. Nous pensons que ce schéma est particulièrement bien adapté à la comparaison de requêtes provenant de sites de commerce électronique. Ces requêtes ont leurs propres spécificités. Elles ont tendance à être courtes et une grande partie d'entre elles sont des requêtes uniques, c'est-à-dire qu'elles n'ont pas d'historique. Nous affirmons que les schémas de pondération largement utilisés, tels que tf-idf, ne sont pas bien adaptés à ce type de requêtes. Cette affirmation est étayée par des expériences numériques où l'approche proposée, basée sur l'entropie, est incorporée dans un cadre de filtrage collaboratif. Dans ce cadre, bien adapté aux moteurs de recherche de commerce électronique, nous avons constaté, sur des données réelles d'achat de commerce électronique, que le schéma de pondération proposé surpasse le schéma de pondération tf-idf.
  • Analyse multirésolution de classements incomplets avec applications à la prédiction.

    Eric SIBONY, Stephan CLEMENCON, Jeremie JAKUBOWICZ
    2014 IEEE International Conference on Big Data (Big Data) | 2014
    Les données représentant les préférences des utilisateurs sont un exemple typique des Big Datasets que les technologies modernes, telles que les portails de commerce électronique, permettent désormais de collecter, de manière explicite ou implicite. Ces données sont très complexes, dans la mesure où le nombre d'articles n pour lesquels les utilisateurs peuvent éventuellement exprimer leurs préférences est explosif et où la collection d'articles ou de produits qu'un utilisateur donné examine effectivement et est capable de comparer est très variable et d'une cardinalité extrêmement faible par rapport à n. C'est l'objectif principal de cet article que de promouvoir une nouvelle représentation des données de préférence, considérées comme des classements incomplets. Contrairement aux approches alternatives, la nature même des données de préférence est préservée par l'"analyse multi-échelle" que nous proposons, identifiant ici l'"échelle" à l'ensemble des éléments sur lesquels les préférences sont exprimées, et dont la construction repose sur des résultats récents en topologie algébrique. La représentation des données de préférence qu'elle fournit présente des similitudes avec l'analyse multirésolution en ondelettes sur un espace euclidien et peut être calculée à un coût raisonnable compte tenu de la complexité des données originales. Au-delà des avantages informatiques et théoriques, il est démontré que la transformée "similaire aux ondelettes" comprime les données de préférence en un nombre relativement faible de coefficients de base et facilite ainsi les tâches statistiques telles que l'estimation ou la prédiction de la distribution. Ceci est illustré ici par des travaux empiriques très encourageants basés sur des ensembles de données réelles de référence populaires.
  • Bavardage aléatoire par paire sur les espaces métriques CAT(0).

    Anass BELLACHEHAB, Jeremie JAKUBOWICZ
    53rd IEEE Conference on Decision and Control | 2014
    Dans le contexte des réseaux de capteurs, les algorithmes de commérage sont une technique populaire et bien établie pour obtenir un consensus lorsque les données des capteurs sont codées dans des espaces euclidiens. L'algorithme a également plusieurs extensions aux espaces de données non linéaires. La plupart de ces extensions traitent des espaces de données riemanniens et utilisent des techniques de descente de gradient pour obtenir une généralisation de l'algorithme de commérage. Cependant, leur forte dépendance à l'égard des outils de calcul masque les propriétés métriques simples qui font fonctionner les algorithmes de commérage. Cet article étudie l'algorithme de commérage par paire d'un point de vue purement métrique. En se concentrant sur la propriété essentielle qui fait converger les bavardages par paires sur les collecteurs riemanniens, cet article soutient que la notion d'espace C AT (0) est parfaitement adaptée à l'analyse des algorithmes de bavardage. Le passage d'un cadre riemannien à un cadre purement métrique a trois vertus : il simplifie les preuves, préserve de manière prouvée la vitesse de convergence du gossip par paire, mais dans un cadre plus général, et ouvre la voie à de nouvelles applications, comme l'illustrent nos expériences numériques sur des bras de robots vus comme des points du graphe métrique associé au groupe libre.
  • Analyse multirésolution des classements incomplets.

    Stephan CLEMENCON, Jeremie JAKUBOWICZ, Eric SIBONY
    2014
    Les classements incomplets sur un ensemble d'éléments {1, ., n} sont des ordonnancements de la forme a_{1} \prec . \prec a_{k}, avec {a_{1}, ., a_{k}} \sous-ensemble {1, ., n} et k < n. Bien qu'ils apparaissent dans de nombreuses applications modernes, seules quelques méthodes ont été introduites pour les manipuler, la plupart consistant à représenter tout classement incomplet par l'ensemble de toutes ses extensions linéaires possibles sur {1, ., n}. L'objectif principal de cet article est d'introduire une approche complètement nouvelle, qui permet de traiter les classements incomplets directement, en les représentant comme des mots injectifs sur {1, ., n}. De manière inattendue, les opérations sur les classements incomplets ont des équivalents très simples dans ce contexte et la structure topologique du complexe de mots injectifs peut être interprétée de manière simple du point de vue du classement. Nous exploitons ici cette connexion et utilisons des résultats récents de la topologie algébrique pour construire une analyse multirésolution et développer un cadre d'ondelettes pour les classements incomplets. Bien que purement combinatoire, cette construction repose sur les mêmes idées qui sous-tendent l'analyse multirésolution sur un espace euclidien et permet de localiser l'information liée aux classements sur chaque sous-ensemble d'éléments. Elle peut être considérée comme une étape cruciale vers l'approximation non linéaire des distributions de classements incomplets et ouvre la voie à de nombreuses applications statistiques, notamment l'analyse des données de préférence et la conception de systèmes de recommandation.
  • Noter les anomalies : une formulation par M-estimation.

    Stephan CLEMENCON, Jeremie JAKUBOWICZ
    AISTATS 2013: 16th International Conference on Artificial Intelligence and Statistics | 2013
    L'objectif de cet article est de formuler le problème de la notation d'observations multivariées en fonction de leur degré d'anormalité/de nouveauté comme une tâche d'apprentissage non supervisé. Alors que dans la situation 1-d, ce problème peut être traité au moyen de techniques d'estimation de queue, les observations étant considérées comme d'autant plus "anormales" qu'elles sont situées loin dans la ou les queues de la distribution de probabilité sous-jacente. Dans une grande variété d'applications, il est souhaitable de disposer d'une fonction de "notation" à valeur scalaire permettant de comparer le degré d'anormalité d'observations multi-variées. Nous formulons ici la question de la notation des anomalies comme un problème de M-estimation. Un critère de performance (fonctionnel) est proposé, dont les éléments optimaux sont, comme prévu, des transformées non décroissantes de la densité. La question de l'estimation empirique de ce critère est abordée et des résultats statistiques préliminaires relatifs à la précision des techniques basées sur les partitions pour optimiser les estimations empiriques de la mesure de performance empirique sont établis.
  • Convergence d'un algorithme de gradient stochastique projeté multi-agents pour l'optimisation non convexe.

    Pascal BIANCHI, Jeremie JAKUBOWICZ
    IEEE Transactions on Automatic Control | 2013
    Nous introduisons un nouveau cadre pour l'analyse de la convergence d'une classe d'algorithmes d'optimisation non convexe avec contraintes distribuées dans les systèmes multi-agents. Le but est de rechercher des minimiseurs locaux d'une fonction objectif non-convexe qui est supposée être une somme de fonctions d'utilité locales des agents. L'algorithme étudié se compose de deux étapes : une descente de gradient stochastique locale à chaque agent et une étape de commérage qui conduit le réseau d'agents à un consensus. Sous l'hypothèse d'une taille de pas décroissante, il est prouvé que le consensus est asymptotiquement atteint dans le réseau et que l'algorithme converge vers l'ensemble des points de Karush-Kuhn-Tucker. Une caractéristique importante de l'algorithme est qu'il ne nécessite pas la double stochasticité des matrices de commérage. Il convient en particulier à un scénario de diffusion naturelle pour lequel aucun message de retour entre agents n'est requis. Il est prouvé que nos résultats sont également valables si le nombre de communications dans le réseau par unité de temps disparaît à une vitesse modérée lorsque le temps augmente, ce qui permet d'économiser l'énergie du réseau. Les applications à l'allocation de puissance dans les réseaux ad-hoc sans fil sont discutées. Enfin, nous fournissons des résultats numériques qui confirment nos affirmations.
  • Consensus pair-à-pair asynchrone dans les variétés.

    Anass BELLACHEHAB, Pascal BIANCHI, Jeremie JAKUBOWICZ
    15èmes Rencontres Francophones sur les Aspects Algorithmiques des Télécommunications (AlgoTel) | 2013
    L'objectif de ce papier est de proposer une généralisation de l'algorithme de consensus pair--à--pair distribué et asynchrone de \cite{boyd:gossip} pour des données appartenant à une variété Riemmannienne. On montre sa convergence dans le cas où la variété est simplement connexe et sans points focaux. L'intérêt de cet algorithme est illustré dans le cas où un réseaux de capteurs cherche à trouver un consensus sur des lois de probabilité discrète. Cependant le champ d'applications couvertes par cet algorithme dépasse largement ce cadre.
  • Une approche basée sur la variation totale pour un consensus robuste dans les réseaux distribués.

    Walid BEN AMEUR, Pascal BIANCHI, Jeremie JAKUBOWICZ
    52nd IEEE Conference on Decision and Control | 2013
    Considérons un réseau connecté d'agents dotés de fonctions de coût locales représentant des objectifs privés. Les agents cherchent à trouver un accord sur un certain minimiseur du coût global, au moyen de communications répétées entre voisins. Cet article étudie le cas où certains agents ne sont pas fiables dans le sens où ils injectent en permanence une fausse valeur dans le réseau. Nous introduisons une nouvelle relaxation du problème d'optimisation initial. Nous montrons que le problème relaxé est équivalent au problème initial sous certaines conditions de régularité qui sont caractérisées. Nous proposons deux algorithmes itératifs distribués pour trouver les minimiseurs du problème relaxé. Lorsque tous les agents sont fiables, ces algorithmes convergent vers le consensus recherché à condition que les conditions de régularité ci-dessus soient satisfaites. En présence d'agents malhonnêtes, nous montrons dans un scénario simple que nos algorithmes convergent vers une solution qui reste dans le voisinage du consensus recherché. Contrairement aux algorithmes distribués standards, notre approche s'avère peu sensible aux grandes perturbations. Des expériences numériques complètent nos résultats théoriques.
  • Un modèle stochastique de dynamique d'opinion avec des contenus multiples.

    Julio cesar LOUZADA PINTO, Tijani CHAHED, Jeremie JAKUBOWICZ
    52nd IEEE Conference on Decision and Control | 2013
    Nous introduisons un nouveau modèle de dynamique d'opinion dans lequel les agents interagissent les uns avec les autres sur plusieurs opinions/contenus distincts. Dans la plupart de la littérature sur la dynamique des opinions, les agents effectuent des combinaisons convexes des opinions des autres agents. Dans notre cadre, une compétition entre les opinions a lieu : les agents n'échangent pas toutes leurs opinions entre eux, ils ne communiquent que sur les opinions qu'ils aiment le plus. Notre modèle utilise des scores pour prendre en compte cette compétition : chaque agent maintient une liste de scores pour chaque opinion détenue. Les opinions sont sélectionnées en fonction de leurs scores (plus le score est élevé, plus une opinion a de chances d'être exprimée) puis transmises aux voisins. Lorsqu'un agent reçoit une opinion, il lui accorde plus de crédit, c'est-à-dire un score plus élevé. Dans ce nouveau cadre, nous dérivons un résultat de convergence qui tient sous des hypothèses légères sur la façon dont l'information est transmise par les agents et qui mène au consensus dans un cas particulier. Nous fournissons également quelques résultats numériques illustrant la formation du consensus sous différentes topologies (graphes complets et en anneau) et différentes conditions initiales (aléatoires et biaisées vers un contenu spécifique).
  • Noter les anomalies : une formulation par M-estimation.

    Stephan CLEMENCON, Jeremie JAKUBOWICZ
    AISTATS 2013 : 16th international conference on Artificial Intelligence and Statistics | 2013
    L'objectif de cet article est de formuler le problème de la notation d'observations multivariées en fonction de leur degré d'anormalité/de nouveauté comme une tâche d'apprentissage non supervisé. Alors que dans la situation 1-d, ce problème peut être traité au moyen de techniques d'estimation de queue, les observations étant considérées comme d'autant plus "anormales" qu'elles sont situées loin dans la ou les queues de la distribution de probabilité sous-jacente. Dans une grande variété d'applications, il est souhaitable de disposer d'une fonction de "notation" à valeur scalaire permettant de comparer le degré d'anormalité d'observations multivariées. Nous formulons ici la question de la notation des anomalies comme un problème de M-estimation. Un critère de performance (fonctionnel) est proposé, dont les éléments optimaux sont, comme prévu, des transformées non décroissantes de la densité. La question de l'estimation empirique de ce critère est abordée et des résultats statistiques préliminaires relatifs à la précision des techniques basées sur les partitions pour optimiser les estimations empiriques de la mesure de performance empirique sont établis.
  • Approximation stochastique distribuée : le coût de la non-bistochasticité.

    Gemma MORRAL, Pascal BIANCHI, Gersende FORT, Jeremie JAKUBOWICZ
    XXIVème Colloque Gretsi | 2013
    On s'intéresse au problème de l'approximation stochastique dans un contexte distribué. L'algorithme itératif étudié se déroule en deux étapes : une étape locale d'approximation stochastique effectuée par chaque agent, et une étape de commérage (en anglais gossip) consistant en des moyennes pondérées des estimées locales. La matrice des coefficients de pondération utilisés dans l'étape de gossip est supposée stochastique par ligne. Nous relâchons l'hypothèse de bistochasticité afin d'avoir des protocoles de communication moins restrictifs et nous caractérisons la dégradation des performances qui en résulte.
  • Classification des aéronefs avec un capteur infrarouge à basse résolution.

    Sidonie LEFEBVRE, Sidonie ALLASSONNIERE, Jeremie JAKUBOWICZ, Thomas LASNE, Eric MOULINES
    Machine Vision and Applications | 2013
    Les simulations informatiques existantes de la signature infrarouge des avions (IRS) ne tiennent pas compte de la dispersion induite par l'incertitude sur les paramètres d'entrée, tels que les angles d'aspect des avions et les conditions météorologiques. Par conséquent, elles sont peu utiles pour quantifier les performances de détection des systèmes optroniques IR : dans ce cas, le scénario englobe un grand nombre de situations possibles qui doivent effectivement être prises en compte, mais qui ne peuvent pas être simulées individuellement. Dans cet article, nous nous concentrons sur les capteurs infrarouges à basse résolution et nous proposons une approche méthodologique pour prédire la dispersion IRS simulée d'un avion, et pour effectuer une classification de différents avions sur le jeu d'images infrarouges à basse résolution qui en résulte. Elle est basée sur une étude quasi-Monte Carlo de la dispersion de sortie du code, et sur une classification à maximum de vraisemblance tirant profit de l'estimation bayésienne de modèles déformables denses. Cette méthode est illustrée dans un scénario typique, à savoir une attaque air-sol full-frontale de jour par un avion de combat générique volant à basse altitude, sur une base de données de 30 000 images d'avions simulées. En supposant un modèle de bruit de fond blanc dans l'espace, les performances de classification sont très prometteuses et semblent être plus précises que les techniques plus classiques de l'état de l'art (telles que les classificateurs à vecteur de support à noyau).
  • Quantification vectorielle à apprentissage adaptatif pour l'estimation paramétrique en ligne.

    Pascal BIANCHI, Jeremie JAKUBOWICZ
    IEEE Transactions on Signal Processing | 2013
    Cet article traite du problème de l'estimation des paramètres dans un cadre quantifié et en ligne. Une unité de détection collecte des échantillons vectoriels aléatoires de l'environnement. Ces échantillons sont quantifiés et transmis à un processeur central qui génère une estimation en ligne du paramètre inconnu. Cet article fournit une expression sous forme fermée de l'excès d'erreur quadratique moyenne (EQM) causée par la quantification dans le régime à haut débit, c'est-à-dire lorsque le nombre de niveaux de quantification est supposé être grand. Ensuite, nous déterminons les quantificateurs qui atténuent l'excès d'EQM. La règle de quantification optimale dépend malheureusement du paramètre inconnu. Pour contourner ce problème, nous introduisons un nouveau schéma de quantification vectorielle par apprentissage adaptatif qui permet simultanément d'estimer le paramètre d'intérêt et de sélectionner un quantificateur efficace.
  • Bavardage aléatoire par paires sur les collecteurs Hadamard.

    Anass BELLACHEHAB, Jeremie JAKUBOWICZ
    2013 5th IEEE International Workshop on Computational Advances in Multi-Sensor Adaptive Processing (CAMSAP) | 2013
    Pas de résumé disponible.
  • Algorithme d'apprentissage en ligne Gossip dans les systèmes multi-agents avec règles de décision locales.

    Pascal BIANCHI, Stephan CLEMENCON, Jeremie JAKUBOWICZ, Gemma MORRAL
    2013
    Pas de résumé disponible.
  • Régularisation TV pour le consensus robuste dans les systèmes distribués.

    Walid BEN AMEUR, Pascal BIANCHI, Jeremie JAKUBOWICZ
    XXIVème Colloque Gretsi | 2013
    Considérons un réseau d'agents dont l'objectif est de trouver un consensus sur le minimiseur d'une certaine fonction inconnue. Un cas particulier important est obtenu lorsque ce minimiseur est la moyenne de valeurs localement observées par les agents. On s'intéresse à des algorithmes distribués permettant d'estimer la solution par le biais d'échanges entre les agents, supposés connectés par un graphe. La littérature est riche en algorithmes distribués résolvant un tel problème. Toutefois, ces algorithmes s'avèrent très sensibles à de possibles comportements déficients de certains agents (agents malveillants ou agents "têtus" refusant d'actualiser leur estimée). Notre objectif est de proposer des algorithmes robustes. Nous introduisons une relaxation du problème initial fondée sur la variation totale. Nous démontrons que les solutions du problème initial et du problème relaxé coïncident, sous certaines conditions de régularité vérifiables. Nous fournissons deux algorithmes distribués conduisant à la solution. Enfin, nous testons la robustesse de nos algorithmes en présence d'un agent têtu injectant en permanence une estimée incohérente dans le réseau : nous montrons que, indépendamment de l'amplitude de l'estimée incohérente, les estimées sont maintenues dans un voisinage du consensus souhaité. Des résultats numériques confirment la robustesse de nos algorithmes de cet article.
Les affiliations sont détectées à partir des signatures des publications identifiées dans scanR. Un auteur peut donc apparaître affilié à plusieurs structures ou tutelles en fonction de ces signatures. Les dates affichées correspondent seulement aux dates des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr