Un modèle génératif pour données de rangs.

Julien Jacques (Université Lille 1)
vendredi 14 janvier 2011

Résumé : Les données de rang proviennent d’un mécanisme généralement
non observable par le statisticien. En supposant que ce processus
repose sur des comparaisons par paires, l’algorithme de tri par
insertion est connu comme étant le meilleur candidat pour minimiser ce
nombre de comparaisons, dès lors que le nombre d’objets à trier est
plus petit que 10. En supposant que les rangs observés sont le
résultat de cet algorithme optimal et en assimilant les comparaisons
par paires à des épreuves de Bernoulli, nous définissons un modèle
génératif pour données de rangs appelé ISR (Insertion Sorting Rank
data model). Une des spécificités majeures du modèle ISR est qu’il
prend en compte l’ordre de présentation des objets à classer. Nous
verrons que le modèle ISR présente plusieurs propriétés théoriques
intéressantes, comme l’unimodalité, la symétrie ou l’identifiabilité.
Nous présenterons l’estimation par maximum de vraisemblance des
paramètres du modèle ISR, basée sur l’algorithme EM. Enfin,
nous montrerons comment le modèle ISR peut être utilisé sous la forme
de mélange pour des applications en clustering de données de rangs.
L’intérêt de ce modèle sera finalement illustré par des applications
sur des données réelles.


Cet exposé se tiendra en salle C20-13, 20ème étage, Université
Paris 1, Centre Pierre Mendès-France, 90 rue de Tolbiac, 75013 Paris
(métro : Olympiades)