Modèles en grille pour l’estimation non paramétrique de densité

Marc Boullé (Orange Lab)
vendredi 28 octobre 2011

Résumé : Nous introduisons dans cet exposé une famille de modèles non
paramétriques pour l’estimation de densité, baptisés modèles en
grille. Chaque variable étant partitionnée en intervalles ou groupes
de valeurs selon sa nature numérique ou catégorielle, l’espace complet
des données est partitionné en une grille de cellules résultant du
produit cartésien de ces partitions univariées. On recherche alors un
modèle où l’estimation de densité est constante sur chaque cellule de
la grille. Du fait de leur très grande expressivité, les modèles en
grille sont difficiles à régulariser et à optimiser. En exploitant une
technique de sélection de modèles selon une approche MAP, on aboutit à
une évaluation analytique de la probabilité a posteriori des modèles.
Des algorithmes d’optimisation combinatoire exploitant les propriétés
du critère d’évaluation et la faible densité des données en grandes
dimensions permettent une optimisation efficace avec une complexité
algorithmique garantie, super-linéaire en nombre d’individus. Les
modèles en grilles ont été appliqués dans de nombreux contextes de
l’analyse de données, pour la classification supervisée, la
régression, le clustering ou le coclustering, avec des cas
d’utilisation en pratique pour le ciblage marketing, le clustering de
textes, de graphes ou de courbes. Les résultats démontrent la validité
de l’approche, qui permet automatiquement et efficacement de détecter
des informations fines et fiables utiles en analyse des données.


Cet exposé se tiendra en salle C20-13, 20ème étage, Université
Paris 1, Centre Pierre Mendès-France, 90 rue de Tolbiac, 75013 Paris
(métro : Olympiades).