Une méthode rapide de détection de ruptures : Dérivée filtrée + p-value
Résumé : Dans de nombreuses applications, on modélise les données par une série
temporelle avec un nombre fini de paramètres structurels constants par morceaux.
Ces paramètres changent brutalement, et il est pertinent de détecter les instants de
ruptures. Le progrès technologique a entrainé l’accès à des flux de données
longitudinales de grande (ou très grande) taille. Par exemple, on peut actuellement
enregistrer tous les battements de coeur lors d’un marathon ou pendant 24 heures.
Ceci conduit alors à des tailles de données n=40.000 ou n=100.000. Ce phénomène
de grand jeu de données ou "Data deluge" est général depuis le début du 21ème siècle.
Ceci a conduit à revisiter le problème de détection de ruptures a posteriori en
prenant compte la complexité des algorithmes en fonction de la taille du jeu de
données. Avant le "déluge de données", la méthode la plus utilisée pour la détection
de ruptures était la méthode des moindres carrés pénalisés (PLS= Penalized Least
Squares). Sa complexité en temps de calcul et en mémoire utilisée est en O(n^2).
Nous proposons une nouvelle méthode de complexité O(n), à la fois en temps de calcul
et en mémoire. Cette méthode est la combinaison de deux étapes : une étape 1, basée
sur les moyennes mobiles, qui détecte les ruptures potentielles ainsi que de
nombreuses fausses alarmes, une étape 2 qui élimine la majorité des fausses alarmes.
Nous procédons à des comparaisons numériques avec la méthode PLS et donnons quelques
exemples d’applications à des données réelles (rythme cardiaque).
Cet exposé se tiendra en salle C20-13, 20ème étage, Université
Paris 1, Centre Pierre Mendès-France, 90 rue de Tolbiac, 75013 Paris
(métro : Olympiades).