Partenaires

CNRS
Logo tutelle
Logo tutelle
Logo tutelle


Rechercher

Sur ce site

Sur le Web du CNRS


Accueil du site > Séminaires > Mathématiques des systèmes complexes > Des techniques d’apprentissage statistique face à la complexité des données d’expression génomiques ou industrielles

Vendredi 9 février 2007 à 11h

Des techniques d’apprentissage statistique face à la complexité des données d’expression génomiques ou industrielles

Philippe Besse (Université Toulouse III), besse@math.ups-tlse.fr

Résumé : Les données industrielles et biologiques, notamment en post génomique (transcriptomique, protéomique...), posent des défis difficiles à la Statistique, essentiellement pour des questions de très grande dimension au regard de la taille des échantillons : des centaines voire milliers de variables observées sur quelques dizaines ou au mieux centaines de cas. Dans cette situation, les techniques usuelles de modélisation, très sensibles au sur ajustement, se montrent inutilisables lorsqu’il s’agit de contrôler la complexité du modèle par des procédures de sélection. Celles par régularisation (ridge) ou par projection (PLS) peuvent conduire à des résultats mais pas toujours très efficaces. On se propose d’introduire des approches alternatives relativement récentes, proposées en terme d’agrégation de modèles (bagging, boosting), et d’en illustrer l’utilisation dans des situations plus ou moins complexes afin d’en comparer les performances. Une approche heuristique est donc ici préférée bien que de nombreux travaux théoriques en cours cherchent à justifier le bon comportement de ces algorithmes.

Dans la même rubrique :