Sélection de variable en classification non supervisée par mélange fini à partir de données génétiques multilocus.

Wilson Toussile (Université Paris 5)
vendredi 4 mars 2011

Résumé : Nous considérons le problème de sélection de variable en
classification non supervisée par mélange fini de lois multinomiales
dans un contexte de données génétiques multilocus. Le problème de
sélection du nombre de composants du mélange et du sous ensemble de
variables utiles est vu comme celui de sélection de modèle via
pénalisation du maximum de vraisemblance. Sous des hypothèses faibles
sur la fonction de pénalité, nous montrons que la procédure de
sélection est consistante. Nous construisons ensuite une fonction de
pénalité garantissant une inégalité oracle non-asymptotique. Ce
résultat suggère une pénalité de la forme du produit de la dimension
par un paramètre données-dépendant que nous calibrons grâce à
l’heuristique de la pente. Nous montrons sur des données simulées que
cette calibration de la pénalité peut permettre de résoudre le
problème du choix du critère de sélection en fonction de la taille de
l’échantillon.


Cet exposé se tiendra en salle C20-13, 20ème étage, Université
Paris 1, Centre Pierre Mendès-France, 90 rue de Tolbiac, 75013 Paris
(métro : Olympiades).