Partenaires

CNRS
Logo tutelle
Logo tutelle
Logo tutelle


Rechercher

Sur ce site

Sur le Web du CNRS


Accueil du site > Séminaires > Mathématiques des systèmes complexes > Boosting Itéré pour la Detection de Donnees Aberrantes

Vendredi 13 octobre 2006 à 11h00

Boosting Itéré pour la Detection de Donnees Aberrantes

Jean-Michel Poggi (Université Paris 11-Orsay et Paris 5)

Résumé : Une procédure de détection de valeurs aberrantes dans les problèmes de régression est proposée. Basée sur l’information fournie par le boosting d’arbres de régression CART, l’idée maîtresse consiste à sélectionner l’observation la plus fréquemment rééchantillonnée au cours des itérations du boosting puis de recommencer après l’avoir retirée. Le critère de sélection est basée sur l’application de l’inégalité de Tchebychev au maximum, au cours des itérations du boosting, du nombre moyen d’apparitions dans les échantillons bootstrap. En particulier, la procédure ne fait pas d’hypothèse sur la distribution du bruit et sélectionne les valeurs aberrantes comme des observations particulièrement difficiles à prévoir. On considère un grand nombre de jeux de données réelles ou artificielles et une étude comparative avec des méthodes éprouvées en montre l’intérêt. Cet exposé est issu de :
- Cheze N., Poggi J-M., "Outlier Detection by Boosting Regression Trees", Preprint Orsay, 2005-17, 23 p.
- Cheze N., Poggi J-M., "Iterated boosting for outlier detection", Data Science and Classification, Proceedings IFCS06, Springer, 213-221, 2006

Dans la même rubrique :