Un estimateur impropre avec un excès de risque optimal dans l'estimation de densité mal spécifiée et la régression logistique.

Auteurs
Date de publication
2020
Type de publication
Autre
Résumé Nous introduisons une procédure d'estimation prédictive de la densité conditionnelle sous perte logarithmique, que nous appelons SMP (Sample Minmax Predictor). Cet estimateur minimise une nouvelle limite générale de risque excédentaire pour l'apprentissage statistique supervisé. Sur des exemples standards, cette limite s'échelonne comme $d/n$ avec $d$ la dimension du modèle et $n$ la taille de l'échantillon, et reste critiquement valide en cas de mauvaise spécification du modèle. Comme il s'agit d'une procédure impropre (hors modèle), le SMP est meilleur que les estimateurs à l'intérieur du modèle, comme l'estimateur du maximum de vraisemblance, dont l'excès de risque se dégrade en cas de mauvaise spécification. Par rapport aux approches réduisant au problème séquentiel, nos limites éliminent les facteurs sous-optimaux $\log n$, ce qui répond à un problème ouvert de Gr\"unwald et Kotlowski pour les modèles considérés, et peuvent traiter des classes non limitées. Pour le modèle linéaire gaussien, les prédictions et la limite de risque de SMP sont régies par les scores de levier des covariables, ce qui correspond presque au risque optimal dans le cas bien spécifié sans conditions sur la variance du bruit ou l'erreur d'approximation du modèle linéaire. Pour la régression logistique, le SMP fournit une approche non bayésienne de la calibration des prédictions probabilistes reposant sur des échantillons virtuels, et peut être calculé en résolvant deux régressions logistiques. Il atteint un excès de risque non asymptotique de $O ( (d + B^2R^2)/n )$, où $R$ limite la norme des caractéristiques et $B$ celle du paramètre de comparaison. En revanche, aucun estimateur interne au modèle ne peut atteindre un meilleur taux que $\min( {B R}/{\sqrt{n}}, {d e^{BR}}/{n} )$ en général. Cela fournit une alternative plus efficace sur le plan informatique aux approches bayésiennes, qui nécessitent un échantillonnage postérieur approximatif, répondant ainsi partiellement à une question de Foster et al. (2018).
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr