De l'importance de la fonction de poids dans le noyau des sous-arbres

Probabilités et Statistique

Lieu: 
Salle séminaire M3-324
Orateur: 
Romain Azaïs
Affiliation: 
Inria (équipe MOSAIC)
Dates: 
Mercredi, 24 Avril, 2019 - 10:30 - 11:30
Résumé: 

En classification supervisée, on souhaite construire une règle de prédiction d'une variable qualitative $Y$ en fonction d'un prédicteur $X$ (généralement à valeurs dans $\mathbb{R}^d$) à partir d'un ensemble d'exemples $(X_i,Y_i)_{1\leq i\leq n}$. On suppose ici que $X_i$ est un arbre, ordonné ou non, avec ou sans étiquette sur ses noeuds. Ce cadre est un peu particulier puisque l'espace d'état des prédicteurs n'est pas muni d'un produit scalaire canonique. Dans ce contexte, les méthodes à noyau permettent de transporter les données dans un espace de Hilbert rendant le problème plus facile à traiter. Se pose alors la question de la construction d'un bon noyau.

Le noyau des sous-arbres - introduit par Vishwanathan et Smola (NIPS '02) - a deux bonnes propriétés : une combinatoire réduite le rendant facile à calculer et une grande efficacité en pratique.
Dans le cadre d'un modèle probabiliste, nous obtenons des garanties théoriques sur ce noyau et en déduisons une propriété importante de la fonction de poids. Cela nous amène à définir une nouvelle fonction de poids, apprise sur les données, qui permet dans des cas difficiles de déceler une information qui semblait indisponible. Nous illustrons ces résultats par une application à la prédiction de la langue d'articles Wikipedia à partir de leur structure. (Travail avec Florian Ingels)