Partenaires

CNRS
Logo tutelle
Logo tutelle
Logo tutelle


Rechercher

Sur ce site

Sur le Web du CNRS


Accueil du site > Séminaires > Probabilités Statistiques et réseaux de neurones > Sélection de variables par information mutuelle et rééchantillonnage

Vendredi 23 février 2007 à 11h00

Sélection de variables par information mutuelle et rééchantillonnage

Michel Verleysen (Université catholique de Louvain, Belgique), verleysen@dice.ucl.ac.be

Résumé : Face à des problèmes de classification ou de régression où le nombre de variables est important, il est souvent essentiel d’adopter une stratégie efficace de sélection de ces variables, dans deux buts : d’une part améliorer les propriétés des modèles construits sur les variables, pour diminuer les effets de la "malédiction de la dimensionnalité", et d’autre part pour aider à l’interprétation des modèles construits, afin d’identifier les variables responsables des phénomènes modélisés. Dans le cas d’une modélisation non-linéaire, l’information mutuelle est souvent utilisée comme critère de pertinence de variables. L’information mutuelle est un critère qui mesure une relation de façon non-linéaire, sans faire d’hypothèse paramétrique, et peut facilement être étendu à des groupes de variables, ce qui est essentiel dans des procédures de sélection de type "greedy" (procédures itératives "forward", "forward-backward", etc.). Malheureusement, l’information mutuelle n’est pas aisée à estimer sur des échantillons de taille finie, surtout lorsque le nombre de variables augmente. Des estimateurs plus robustes que de simples histogrammes ou noyaux ont été proposés, en se basant sur des approches de plus proches voisins. Néanmoins, ils requièrent l’ajustement délicat d’hyper-paramètres. Cet exposé présentera d’abord la technique de sélection de variables par information mutuelle. La spectroscopie infrarouge illustrera l’intérêt d’une telle approche, dans le cas de données fonctionnelles, aussi bien dans un but de performance que pour accroître l’interprétabilité des modèles. Ensuite, des méthodes de rééchantillonnage (validation croisée et test de permutation) seront utilisées afin de déterminer de façon automatique les hyper-paramètres des estimateurs.

Dans la même rubrique :