Partenaires

CNRS
Logo tutelle
Logo tutelle
Logo tutelle


Rechercher

Sur ce site

Sur le Web du CNRS


Accueil du site > Séminaires > Probabilités Statistiques et réseaux de neurones > L’algorithme Ridge-Partial Least Squares et application à la classification de puces ADN

Vendredi 28 mai 2004 à 10h

L’algorithme Ridge-Partial Least Squares et application à la classification de puces ADN

Gersende Fort (CNRS, LMC/IMAG Grenoble)

Résumé : L’analyse Partial Least Squares (PLS) est, à la fois, une méthode de réduction de dimension, et une méthode de régression dans les modèles linéaires. Nous présentons une extension de PLS aux modèles linéaires généralisés (GLM), extension robuste au cas ’grande dimension’, dans lequel le nombre de prédicteurs est très largement supérieur au nombre d’observations. Nous illustrons cette extension par l’application à la classification de puces à ADN. Pour un couple (Y,X) de vecteur de réponses et de matrice de prédicteurs donnés, l’algorithme PLS permet de construire des variables latentes (ou PLS-scores), combinaisons linéaires des prédicteurs initiaux, et simultanément, de régresser les observations sur ces variables latentes au sens des moindres carrés. La définition des scores est basée sur la corrélation entre réponses et covariables ; de par cette dépendance des scores en les observations, on peut espérer que PLS soit une méthode plus adaptée que des méthodes classiques (type Analyse en Composantes Principales) pour pallier aux problèmes engendrés par le grand nombre de covariables et par leurs fortes colinéarités. Dans les GLM, les paramètres associés au modèle de régression sont estimés au sens du Maximum de Vraisemblance, et, en pratique, calculés par un algorithme itératif de régression pondérée d’une pseudo-variable sur la matrice des covariables X. On trouve dans la littérature des extensions de PLS à de tels modèles, basées sur la substitution des covariables initiales par les PLS-scores. Outre la question de la pertinence d’appliquer PLS à un couple (Y,X) dont la composante Y est ’catégorielle’, ces extensions reviennent à chercher l’estimateur de maximum de vraisemblance dans des modèles où son existence n’est pas garantie. Nous proposons une extension de PLS aux GLM, Ridge-PLS, dont l’originalité réside dans la définition d’une pseudo-variable à valeur continue, qui ’capture’ l’information contenue dans Y. Nous présenterons cette analyse dans le cadre du modèle logit, et discuterons des aspects ’régularisations’ et ’réduction de dimension’ inhérents à l’algorithme Ridge-PLS. Enfin, nous motiverons et illustrerons cette recherche en montrant comment l’analyse Ridge-PLS peut être utilisée pour la classification (supervisée) de puces à ADN : il s’agit de déterminer - par exemple - le type de pathologie dont est atteint un individu (c’est à dire de déterminer un label 0/1) à partir du niveau d’expressions de plusieurs milliers de gènes (c’est-à-dire plusieurs milliers de covariables), lorsque l’on dispose pour ce faire d’une base d’apprentissage d’une petite centaine d’observations.

Dans la même rubrique :