Forêts aléatoires : sélection de variables et bornes de risque.

Robin Genuer (Université Paris Sud et Paris 5)
vendredi 11 mars 2011

Résumé : Dans un premier temps, nous présentons une méthode de
sélection de variables basée sur l’algorithme des forêts aléatoires.
Les forêts aléatoires,
introduites par Léo Breiman en 2001, sont une technique statistique très
utilisée dans des problèmes pratiques aussi bien en régression qu’en
classification. En plus d’être très performantes en prédiction, les forêts
aléatoires calculent un indice d’importance des variables. Basée sur
cet indice d’importance, notre procédure de sélection de variables
cherche à traiter deux problèmes distincts : trouver toutes les
variables reliées à la variable réponse (interprétation) ; et trouver
un ensemble de variables suffisant pour prédire la variable réponse
(prédiction). Nous illustrons cette procédure sur des données réelles
d’IRMf (Imagerie à Résonance Magnétique fonctionnelle) de très grande
dimension. Dans un deuxième temps, nous présentons des résultats
théoriques pour une version simple de forêt aléatoire. Dans un
contexte de régression avec une seule variable explicative, nous
montrons que les arbres aléatoires ainsi que les forêts aléatoires
atteignent la vitesse de convergence minimax. Et plus important, nous
prouvons que les forêts améliorent les performances des arbres, en
réduisant la variance d’un facteur trois quarts.


Cet exposé se tiendra en salle C20-13, 20ème étage, Université Paris 1, Centre Pierre Mendès-France, 90 rue de Tolbiac, 75013 Paris (métro : Olympiades).