Le séminaire du SAMOS 2003-2004
Vendredi
31 octobre 2003 à 10h, salle B-14-08, 14ème étage, ascenseurs jaunes
Marc Lavielle (Université Paris V - Paris XI)
Estimation non-parametrique de processus autorégressifs non linéaires sous des contraintes dynamiques
En collaboration avec R.
Biscay, Université de la Havane (Cuba) et C. Ludena, IVIC et UCV, (Vénézuéla)
Résumé : Nous proposons une méthodologie pour estimer de façon non paramétrique la fonction de régression d'un modèle autorégressif non linéaire, sous la contrainte que cette fonction de régression possède un cycle stable. L'estimateur des moindres carrés pénalisés que nous proposons est consistant sous des hypothèses très générales. Une application sur des données EEG d'un sujet épileptique illustre la méthode.
Vendredi 7 novembre2003 à 10h, salle B-14-08, 14ème étage, ascenseurs jaunes
Paul Doukhan (CREST - ENSAE)
En collaboration avec J.
Leon, UCV, (Vénézuéla)
Résumé : Le périodogramme d'une suite stationnaire est intégré par rapport à une classe de fonctions (de type classe de Sobolev).
Considéré comme un élément aléatoire dans le dual de cet espace, nous prouvons une loi forte des grands nombres. Une autre manière de comprendre cet énoncé est de le qualifier d'uniforme sur la boule unité de cet espace de Sobolev; il s'écrit uniquement en termes de sommabilité de certains cumulants jusqu'à l'ordre 4. Un théorème de limite centrale fonctionnelle est aussi obtenu sous des hypothèses variées de dépendance faible: mélange, dépendance faible causale ou non causale.
Vendredi
19 décembre 2003 à 10h, salle B-22-07, 22ème étage, ascenseurs rouges
Nathalie Villa
(Université Toulouse II)
Réseaux
de neurones à entrées fonctionnelles
Résumé : Nous proposons une méthode pour l'extension de l'utilisation des réseaux de neurones multi-couches (perceptrons) à des entrées fonctionnelles. L'originalité de la méthode est basée sur un pré-traitement des données permettant d'obtenir une base de projection pertinante. Nous démontrons alors la convergence des paramètres empiriques du réseau vers les paramètres optimaux. Enfin, nous illustrons le modèle au travers d'exemples à partir de données réelles et simulées.
Vendredi
16 janvier 2004 à 10h
Fabienne Comte (Université ParisV)
Estimation adaptative de la densité dans un modèle de déconvolutions
En collaboration avec M.-L.
Taupin, Université Paris V
Résumé : Nous considérons le problème de l'estimation de la densité g de variables X_i identiquement distribuées à partir d'un échantillon Z_1, ..., Z_n où Z_i=X_i+e_i, i=1,...n, e désignant un bruit indépendant de X. Nous pouvons mettre en place dans ce cadre une méthode de sélection de modèle afin de trouver des bornes du risque quadratique intégré au moyen d'inégalités non asymptotiques. Les bornes obtenues permettent de réaliser un compromis automatique entre le carré du biais et le terme de variance, à un facteur logarithmique près parfois, mais uniquement dans des cas où ce facteur est négligeable. Ainsi, notre estimateur atteint automatiquement des vitesses optimales, ou presque, dans des cas très divers : erreurs "ordinary smooth" ou "super smooth", fonction g à estimer "ordinary smooth" ou "super smooth", variables indépendantes ou mélangeantes. Il est d'autant plus intéressant d'obtenir un estimateur dont la vitesse est issue d'un compromis automatique entre les termes en jeu, que, dans certains cas, l'expression explicite de ladite vitesse est peu commode à écrire et difficile à obtenir.
Vendredi 30 janvier 2004 à 10h
Marta Sanz-Solé (Université de Barcelone)
Propriétés des trajectoires de la solution de l'équation des ondes stochastique en dimension spatiale 3
Résumé : Nous étudions la continuité Höldérienne conjointe en temps et en espace de la solution de l'équation aux dérivées partielles stochastique
\begin{align}
& \big( \frac{\partial^{2}}{\partial t^{2}} -\Delta_{3}\big) u(t,x)=\sigma(u(t,x))\dot{F}(t,x)+b(u(t,x)), \nonumber \\
& u(0,x)= \frac{\partial u}{\partial t}(0,x) = 0,\label{1}
\end{align}
où $(t,x)\in [0,T]\times \re^{3}$~; $\Delta_{3}$ désigne le Laplacien sur $\ret$ et $\dot F$ est un bruit Gaussien blanc en temps et corrélé en espace.
Nous considérons le cas d'une corrélation spatiale de la forme $\mu (d\xi)=|\xi|^{3-\beta}$, $\beta\in(0,2)$ et montrons que la solution de (1) est Höldérienne d'ordre $\alpha$ en $x$, uniformément en $t\in[0,T]$, avec $\alpha\in(0,\frac{2-\beta}{2})$ et est Höldérienne d'ordre $\gamma$ en $t$, uniformément en $x\in\ret$, avec $\gamma\in(0, \inf(\frac{1}{2}, \frac{2-\beta}{2}))$. Nous discuterons également quelques extensions à des équations non stationnaires.
Vendredi 27 février 2004, à 11h
Christian
Paroissin (Université Paris X)
Analyse probabiliste des heuristiques Move-To-Front et Move-To-Root avec poids aléatoires.
Résumé : Considérons n objets ayant des poids aléatoires indépendants, ce qui permet de définir un vecteur de popularité de ces objets. On souhaite ranger ces objets dans une structure de données de sorte que les objets les plus populaires soient accessibles le plus rapidement possible. Nous allons considérons successivement deux structures de données : une liste et un arbre binaire de recherche. Deux heuristiques, Move-To-Front et Move-To-Root, ont été introduites pour s'approcher de la forme optimale que devrait avoir ces structures de données. A chaque requête, l'objet demandé est placé, selon la structure considérée, soit en tête de liste, soit à la racine de l'arbre. Dans les deux cas, on obtient une chaîne de Markov ayant une unique mesure stationnaire. Dans ce travail, nous nous intéressons au coût de recherche d'un objet lorsque la chaîne est dans l'état stationnaire. La première partie est dédiée à l'heuristique MTF : nous donnons la transformée de Laplace du coût et une approximation lorsque le nombre d'objets tend vers l'infini. La seconde partie est consacrée à l'heuristique MTR : nous donnons les deux premiers moments du coût de recherche. Dans chacun des cas, des exemples sont donnés. Une comparaison du coût de recherche correspondant aux deux heuristiques est brièvement faite.
Vendredi 27 février 2004 à 10h
Yves
Rozenholc (Université du Maine),
Résumé : Soit dans $R^n$, le modèle $Y = f + \epsilon$ où $Y$ est une vecteur d'observations, $f$ son espérance inconnue et $\epsilon$ un bruit. Un test de l'hypothèse $f=0$ contre $f\not=0$ est construit sous des hypothèses minimales sur $\epsilon$ à l'aide d'un principe de symétrisation. Le test proposé est non paramétrique et non asymptotique. Son niveau ainsi que sa puissance peuvent être controlés en supposant seulement que les composantes de $\epsilon$ sont symétriques, indépendantes et ne chargent pas 0. Dans un cadre de régression "fix-design" où $f_i = F(x_i)$ avec $F$ fonction de régression inconnue, ce test est adaptatif pour la régularité Holdérienne et la vitesse de test obtenue est optimale pour $s>1/4$ et équivalente à celle du cas Gaussien pour $s<1/4$.
Vendredi
19 mars 2004 à 10h
Eva Locherbach (Université Paris XII)
Sur
quelques problèmes statistiques liés à des diffusions avec
branchements
et immigrations
En collaboration avec R. Höpfner, Université de Mainz, et M. Hoffmann, Université de Marne la Vallée
Résumé : On considère des systèmes finis de diffusions dans $\RR^d $ avec branchement et immigration. Dans un système de $l$ particules, chaque particule évolue en suivant la trajectoire d'une diffusion, est tuée avec un taux $\kappa (.)$ qui dépend de sa position dans l'espace et crée -- à l'instant de sa mort -- un nombre aléatoire d'enfants selon une loi de reproduction $F$ fixée. De plus, un mécanisme d'immigration crée des nouvelles particules dans des positions aléatoires. En dimension $d = 1, $ dans le cas ergodique, nous nous intéressons à l'estimation non paramétrique du taux de branchement $\kappa (.)$ basée sur une observation du processus en temps continu, à l'aide d'un estimateur à noyau. Pour ceci, une étude attentive de la mesure d'intensité $\bar{m}$ associée à la mesure invariante $m$ du processus se révèle être nécessaire. En particulier, nous avons besoin de contrôler la régularité de la densité de Lebesgue de $\bar{m}$. Dans le cas "interactif" (les particules interagissent dans leur déplacement spatial ainsi que dans leur mécanisme de reproduction), cette étude fait intervenir le calcul de Malliavin.
Vendredi 2 avril 2004 à 10h
Benoite de Saporta (Université
Rennes I)
Résumé : Soit Y une diffusion de Ornstein-Ulenbeck à régime Markovien X stationnaire et ergodique: dYt=a(Xt)Yt dt+s(Xt) dWt, Y0=y0. On connaît des conditions qui assurent l'ergodicité de Y, et on s'intéresse à la queue de sa distribution stationnaire. Par des méthodes de renouvellement, on peut entièrement caractériser les deux cas possibles: queue polynomiale ou queue exponentielle.
Vendredi
30 avril 2004 à 10h
Carl Graham (CMAP-X)
Théorèmes
limites centraux pour un réseau avec choix de la file
d'attente
la plus courte.
Résumé : Les clients arrivent à taux Na sur un réseau de N files d'attente, choisissent L files uniformément, et vont à la plus courte. Le service est à taux b. Nous étudions les queues des distributions empiriques pour N grand. Des résultats de lois de grands nombres (LGN) sont connus, montrant en particulier sous la condition de stabilité a<b une décroissance hyper-exponentielle à la limite à l'équilibre. Nous démontrons un Théorème Limite Central (TLC) fonctionnel lorsque les conditions initiales satisfont à un TLC, dans certains espaces de Hilbert avec la topologie faible, avec pour limite un processus d'Ornstein-Uhlenbeck. Nous étendons ce résultat lorsque les réseaux de taille N sont à l'équilibre. Les lois invariantes, connues seulement implicitement, étant à N fixé la limite temps long des lois instantanées, nous étudions d'abord le comportement en temps long des lois instantanées des limites N grand, puis justifions rigoureusement l'inversion des limites par une méthode de compacité-unicité. Un outil essentiel est un résultat de stabilité globale exponentielle pour le système dynamique non-linéaire qui régit la limite LGN, basé sur des comparaisons originales avec des systèmes linéaires et l'étude de leur décomposition spectrale et de leur trou de spectre.
à
10h : Nathanaël Enriquez (Université
Paris 6)
Une construction simple du mouvement brownien fractionnaire
à 11h : Michel Benaim (Inst. Math. Neuchâtel)
Nathanaël Enriquez.
Résumé : On introduit un modèle simple de marche aléatoire corrélée sur Z. Si l'on tire au sort le coefficient de corrélation (nombre compris entre 0 et 1), la moyenne d'un grand nombre de telles marches se réechelonne suivant un mouvement brownien fractionnaire. A chaque tirage au sort correspond une certaine valeur de H. Deux modèles très différents de marches corrélées doivent être considérés pour les cas 0,5<H<1 et 0<H<0,5.
Gersende Fort (CNRS, LMC/IMAG Grenoble)
L'algorithme Ridge-Partial Least Squares et application à la classification de puces ADN
Résumé :
L'analyse Partial Least Squares (PLS) est, à la fois, une méthode de
réduction de dimension, et une méthode de régression dans les modèles
linéaires. Nous présentons une extension de PLS aux modèles linéaires
généralisés (GLM), extension robuste au cas 'grande dimension', dans lequel le
nombre de prédicteurs est très largement supérieur au nombre d'observations.
Nous illustrons cette extension par l'application à la classification de puces
à ADN. Pour un couple $(Y,X)$ de vecteur de réponses et de matrice de
prédicteurs donnés, l'algorithme PLS permet de construire des variables
latentes (ou PLS-scores), combinaisons linéaires des prédicteurs initiaux, et
simultanément, de régresser les observations sur ces variables latentes au sens
des moindres carrés. La définition des scores est basée sur la corrélation
entre réponses et covariables; de par cette dépendance des scores en les observations,
on peut espérer que PLS soit une méthode plus adaptée que des méthodes
classiques (type Analyse en Composantes Principales) pour pallier aux problèmes
engendrés par le grand nombre de covariables et par leurs fortes
colinéarités. Dans les GLM, les paramètres associés au modèle de
régression sont estimés au sens du Maximum de Vraisemblance, et, en pratique,
calculés par un algorithme itératif de régression pondérée d'une
pseudo-variable sur la matrice des covariables $X$. On trouve dans la littérature
des extensions de PLS à de tels modèles, basées sur la substitution des
covariables initiales par les PLS-scores. Outre la question de la
pertinence d'appliquer PLS à un couple ($Y,X$) dont la composante $Y$ est
'catégorielle', ces extensions reviennent à chercher l'estimateur de maximum de
vraisemblance dans des modèles où son existence n'est pas garantie. Nous
proposons une extension de PLS aux GLM, Ridge-PLS, dont l'originalité réside
dans la définition d'une pseudo-variable à valeur continue, qui 'capture'
l'information contenue dans $Y$. Nous présenterons cette analyse dans le cadre
du modèle logit, et discuterons des aspects 'régularisations' et 'réduction de
dimension' inhérents à l'algorithme Ridge-PLS. Enfin, nous motiverons et
illustrerons cette recherche en montrant comment l'analyse Ridge-PLS peut être
utilisée pour la classification (supervisée) de puces à ADN: il s'agit de
déterminer - par exemple - le type de pathologie dont est atteint un individu
(c'est à dire de déterminer un label $0/1$) à partir du niveau d'expressions de
plusieurs milliers de gènes (c'est-à-dire plusieurs milliers de covariables),
lorsque l'on dispose pour ce faire d'une base d'apprentissage d'une petite
centaine d'observations.
En juin 2004, Samuel Kaski (University of Helsinki)
proposera
trois séminaires:
Vendredi 4 juin 2004, 10h-12h : Self-organizing maps and
learning metrics.
Vendredi 11 juin 2004, 10h-12h : Exploration of genome
data.
Vendredi 18 juin 2004, 10h-12h : Dependency exploration
Résumé : I will start from introducing the basic
principles and algorithms of the SOM and some of its variants. I will then discuss
the use of SOMs for data exploration and text mining, and its relationships
with some alternative methods. Learning metrics is a new principle for focusing
data analysis on "relevant" aspects of data, instead of modeling both
relevant and irrelevant parts. Metrics are learned from paired data. I will
introduce the principle and discuss how to use with SOMs and other information
visualization methods.
Exploration of genome data
Résumé : Current high-throughput measurement
technologies are revolutionizing biology. With DNA microarray techniques, the
expression of thousands of genes can be routinely measured. The genomes of
several organisms have already been sequenced, and individual differences in
genome sequences can be mapped with increasing accuracy. I will start by
introducing the necessary biological background from the computer
science/statistics perspective, and then discuss some of the most burning data
analysis problems. Statistical machine learning methods are being intensively
applied to the problems of clustering, information visualization,
classification, and prediction of genome data. I will discuss some current
applications on gene expression and sequences of human endogenous retroviruses.
Résumé : Canonical correlation analysis is a
traditional linear method for finding what is common in two data sets. For
normally distributed data it maximizes mutual information, and recently several
groups have been working on other kinds of methods for the same problem, maximizing
mutual information between data sets. I will discuss a new Bayesian principle
for this task, and new clustering and component models for exploring the
dependencies between data sets.
Maria Emilia Caballero (Unam,
Mexico)
Résumé : A partir de
la transformation de Lamperti, on étudie la convergence faible dans l’espace de
Skorohod des processus de Markov autosimilaires à valeurs dans R+ quand le
point initial tend vers 0.
Les séminaires des années précédentes
SAMOS (Statistique Appliquée et MOdélisation Stochastique)
Université Paris 1