Le séminaire du SAMOS  2003-2004

 

Vendredi 31 octobre 2003 à 10h, salle B-14-08, 14ème étage, ascenseurs jaunes

Marc Lavielle (Université Paris V - Paris XI)

Estimation non-parametrique de processus autorégressifs non linéaires sous des contraintes dynamiques

 

En collaboration avec R. Biscay, Université de la Havane (Cuba) et C. Ludena, IVIC et UCV, (Vénézuéla)

 

Résumé : Nous proposons une méthodologie pour estimer de façon non  paramétrique la fonction de régression d'un modèle autorégressif non  linéaire, sous la contrainte que cette fonction de régression possède un  cycle stable. L'estimateur des moindres carrés pénalisés que nous proposons  est consistant sous des hypothèses très générales. Une application sur des  données EEG d'un sujet épileptique illustre la méthode.

 

 

 

Vendredi 7 novembre2003 à 10h, salle B-14-08, 14ème étage, ascenseurs jaunes

 

Paul Doukhan (CREST - ENSAE)

 

Périodogramme

 

En collaboration avec J. Leon, UCV, (Vénézuéla)

 

Résumé : Le périodogramme d'une suite stationnaire est intégré par rapport à une classe de fonctions (de type classe de Sobolev).

Considéré comme un élément aléatoire dans le dual de cet espace, nous prouvons une loi forte des grands nombres. Une autre manière de comprendre cet énoncé est de le qualifier d'uniforme sur la boule unité de cet espace de Sobolev; il s'écrit uniquement en termes de sommabilité de certains cumulants jusqu'à l'ordre 4.  Un théorème de limite centrale fonctionnelle est aussi obtenu sous des hypothèses variées de dépendance faible:  mélange, dépendance faible causale ou non causale.

 

Vendredi 19 décembre 2003 à 10h, salle B-22-07, 22ème étage, ascenseurs rouges

Nathalie Villa (Université Toulouse II)

Réseaux de neurones à entrées fonctionnelles

Résumé : Nous proposons une méthode pour l'extension de l'utilisation des réseaux de  neurones multi-couches (perceptrons) à des entrées fonctionnelles.  L'originalité de la méthode est basée sur un pré-traitement des données  permettant d'obtenir une base de projection pertinante. Nous démontrons alors  la convergence des paramètres empiriques du réseau vers les paramètres optimaux. Enfin, nous illustrons le modèle au travers d'exemples à partir de  données réelles et simulées.

 

Vendredi 16 janvier 2004 à 10h

Fabienne Comte (Université ParisV)

 

Estimation  adaptative de la densité dans un modèle de déconvolutions

 

En collaboration avec M.-L. Taupin, Université Paris V

 

Résumé : Nous considérons le problème de l'estimation de la densité g de variables X_i identiquement distribuées à partir d'un échantillon Z_1, ..., Z_n où Z_i=X_i+e_i, i=1,...n, e désignant un bruit indépendant de X. Nous pouvons mettre en place dans ce cadre une méthode de sélection de modèle afin de trouver des bornes du risque quadratique intégré au moyen d'inégalités non asymptotiques. Les bornes obtenues permettent de réaliser un compromis automatique entre le carré du biais et le terme de variance, à un facteur logarithmique près parfois, mais uniquement dans des cas où ce facteur est négligeable. Ainsi, notre estimateur atteint automatiquement des vitesses optimales, ou presque, dans des cas très divers : erreurs "ordinary smooth" ou "super smooth", fonction g à estimer "ordinary smooth" ou "super smooth", variables indépendantes ou mélangeantes. Il est d'autant plus intéressant d'obtenir un estimateur dont la vitesse est issue d'un compromis automatique entre les termes en jeu, que, dans certains cas, l'expression explicite de ladite vitesse est peu commode à écrire et difficile à obtenir.

 

 

 

Vendredi 30 janvier 2004 à 10h
 
Marta Sanz-Solé (Université de Barcelone)
 

Propriétés des trajectoires de la solution de l'équation des ondes stochastique en dimension spatiale 3

 

 

Résumé : Nous étudions la continuité Höldérienne conjointe en temps et en espace de la solution de l'équation aux dérivées partielles stochastique

\begin{align}

& \big( \frac{\partial^{2}}{\partial t^{2}} -\Delta_{3}\big) u(t,x)=\sigma(u(t,x))\dot{F}(t,x)+b(u(t,x)), \nonumber \\

& u(0,x)= \frac{\partial u}{\partial t}(0,x) = 0,\label{1}

\end{align}

où  $(t,x)\in [0,T]\times \re^{3}$~; $\Delta_{3}$ désigne le  Laplacien sur $\ret$ et $\dot F$ est un bruit Gaussien blanc en temps et corrélé en espace.

Nous considérons le cas d'une corrélation spatiale de la forme  $\mu (d\xi)=|\xi|^{3-\beta}$, $\beta\in(0,2)$ et montrons que la solution  de (1) est  Höldérienne d'ordre $\alpha$ en  $x$, uniformément  en  $t\in[0,T]$, avec $\alpha\in(0,\frac{2-\beta}{2})$ et est Höldérienne d'ordre $\gamma$ en  $t$, uniformément en  $x\in\ret$, avec  $\gamma\in(0, \inf(\frac{1}{2}, \frac{2-\beta}{2}))$. Nous discuterons également quelques extensions à des équations non stationnaires.

 

 

 

Vendredi 27 février 2004, à 11h

 

Christian Paroissin (Université Paris X)

 

Analyse probabiliste des heuristiques Move-To-Front et Move-To-Root avec poids aléatoires.

 

Résumé : Considérons n objets ayant des poids aléatoires indépendants, ce qui permet de définir un vecteur de popularité de ces objets. On souhaite  ranger ces objets dans une structure de données de sorte que les objets les plus populaires soient accessibles le plus rapidement possible. Nous allons considérons successivement deux structures de données : une liste et un arbre binaire de recherche. Deux heuristiques, Move-To-Front et Move-To-Root, ont été introduites pour s'approcher de la forme optimale que devrait avoir ces structures de données. A chaque requête, l'objet demandé est placé, selon la structure considérée, soit en tête de liste, soit à la racine de l'arbre. Dans les deux cas, on obtient une chaîne de Markov ayant une unique mesure stationnaire. Dans ce travail, nous nous intéressons au coût de recherche d'un objet lorsque la chaîne est dans l'état stationnaire. La première partie est dédiée à l'heuristique MTF : nous donnons la transformée de Laplace du  coût et une approximation lorsque le nombre d'objets tend vers l'infini. La seconde partie est consacrée à l'heuristique MTR : nous donnons les deux premiers moments du coût de recherche. Dans chacun des cas, des exemples  sont donnés. Une comparaison du coût de recherche correspondant aux deux heuristiques est brièvement faite.

 

 

 

Vendredi 27 février 2004 à 10h 

 

Yves Rozenholc (Université du Maine),

 

Test adaptatif de nullité par symmétrisation

 

Résumé : Soit dans $R^n$, le modèle $Y = f + \epsilon$ où $Y$ est une vecteur d'observations, $f$ son espérance inconnue et $\epsilon$ un bruit. Un test de l'hypothèse $f=0$ contre $f\not=0$ est construit sous des hypothèses minimales sur $\epsilon$ à l'aide d'un principe de symétrisation. Le test proposé est non paramétrique et non asymptotique. Son niveau ainsi que sa puissance peuvent être controlés en supposant seulement que les composantes de $\epsilon$ sont symétriques, indépendantes et ne chargent pas 0. Dans un cadre de régression "fix-design" où $f_i = F(x_i)$ avec $F$ fonction de régression inconnue, ce test est adaptatif pour la régularité Holdérienne et la vitesse de test obtenue est optimale pour $s>1/4$ et équivalente à celle du cas Gaussien pour $s<1/4$.

 

Vendredi 19 mars 2004 à 10h

 

Eva Locherbach (Université Paris XII)

 

Sur quelques problèmes statistiques liés à des diffusions avec

branchements et immigrations


En collaboration avec R. Höpfner, Université de Mainz, et M. Hoffmann, Université de Marne la Vallée

 

 

Résumé : On considère des systèmes finis de diffusions dans $\RR^d $ avec branchement et immigration. Dans un système de $l$ particules, chaque particule évolue en suivant la trajectoire d'une diffusion, est tuée avec un taux $\kappa (.)$ qui dépend de sa position dans l'espace et crée -- à l'instant de sa mort -- un nombre aléatoire d'enfants selon une loi de reproduction $F$ fixée. De plus, un mécanisme d'immigration crée des nouvelles particules dans des positions aléatoires. En dimension $d = 1, $ dans le cas ergodique, nous nous intéressons à l'estimation non paramétrique du taux de branchement $\kappa (.)$ basée sur une observation du processus en temps continu, à l'aide d'un estimateur à noyau. Pour ceci, une étude attentive de la mesure d'intensité $\bar{m}$ associée à la mesure invariante $m$ du processus se révèle être nécessaire. En particulier, nous avons besoin de contrôler la régularité de la densité de Lebesgue de $\bar{m}$. Dans le cas "interactif" (les particules interagissent dans leur déplacement spatial ainsi que dans leur mécanisme de reproduction), cette étude fait intervenir le calcul de Malliavin.

 

 

Vendredi 2 avril 2004 à 10h

 

Benoite de Saporta (Université Rennes I)

 

Queue d'une diffusion linéaire à régime Markovien

 

Résumé : Soit Y une diffusion de Ornstein-Ulenbeck à régime Markovien X  stationnaire et ergodique: dYt=a(Xt)Yt dt+s(Xt) dWt, Y0=y0. On connaît  des conditions qui assurent l'ergodicité de Y, et on s'intéresse à la  queue de sa distribution stationnaire. Par des méthodes de  renouvellement, on peut entièrement caractériser les deux cas possibles:  queue polynomiale ou queue exponentielle.

 

 

Vendredi 30 avril 2004 à 10h

 

Carl Graham (CMAP-X)

 

Théorèmes limites centraux pour un réseau avec choix de la file

d'attente la plus courte.

 

Résumé : Les clients arrivent à taux Na sur un réseau de N files d'attente, choisissent L files uniformément, et vont à la plus courte. Le service est à taux b. Nous étudions les queues des distributions empiriques pour N grand. Des résultats de lois de grands nombres (LGN) sont connus, montrant en particulier sous la condition de stabilité  a<b une décroissance hyper-exponentielle à la limite à l'équilibre. Nous démontrons un Théorème Limite Central (TLC) fonctionnel lorsque les conditions initiales satisfont à un TLC, dans certains espaces de Hilbert avec la topologie faible, avec pour limite un processus d'Ornstein-Uhlenbeck. Nous étendons ce résultat lorsque les réseaux de taille N sont à l'équilibre. Les lois invariantes, connues seulement implicitement, étant à N fixé la limite temps long des lois instantanées, nous étudions d'abord le comportement en temps long des lois instantanées des limites N grand, puis justifions rigoureusement l'inversion des limites par une méthode de compacité-unicité. Un outil essentiel est un résultat de stabilité globale exponentielle pour le système dynamique non-linéaire qui régit la limite LGN, basé sur des comparaisons originales avec des systèmes linéaires et  l'étude de leur décomposition spectrale et de leur trou de spectre.

 

 

Vendredi 14 mai 2004

 

à 10h : Nathanaël Enriquez (Université Paris 6)

Une construction simple du mouvement brownien fractionnaire

 

à 11h : Michel Benaim (Inst. Math. Neuchâtel)

L'approchabilité de Blackwell revisitée

 

 

Une construction simple du mouvement brownien fractionnaire

Nathanaël Enriquez.

 

Résumé : On introduit un modèle simple de marche aléatoire corrélée sur Z. Si l'on tire au sort le coefficient de corrélation (nombre compris entre 0 et 1), la moyenne  d'un grand nombre de telles marches se réechelonne suivant un  mouvement brownien fractionnaire. A chaque tirage au sort correspond une certaine valeur de H. Deux modèles très différents de marches  corrélées doivent être considérés pour les cas 0,5<H<1 et 0<H<0,5.

 

 

 

Vendredi 28 mai 2004 à 10h

 

Gersende Fort (CNRS, LMC/IMAG Grenoble)

L'algorithme Ridge-Partial Least Squares  et application à la  classification de puces ADN

 

Résumé : L'analyse Partial Least Squares (PLS) est, à la fois, une méthode de réduction de dimension, et une méthode de régression dans les modèles linéaires. Nous présentons une extension de PLS aux modèles linéaires généralisés (GLM), extension robuste au cas 'grande dimension', dans lequel le nombre de prédicteurs est très largement supérieur au nombre d'observations. Nous illustrons cette extension par l'application à la classification de puces à ADN. Pour un couple $(Y,X)$ de vecteur de réponses et de matrice de prédicteurs donnés, l'algorithme PLS permet de construire des variables latentes (ou PLS-scores), combinaisons linéaires des prédicteurs initiaux, et simultanément, de régresser les observations sur ces variables latentes au sens des moindres carrés. La définition des scores est basée sur la corrélation entre réponses et covariables; de par cette dépendance des scores en les observations, on peut espérer que PLS soit une méthode plus adaptée que des méthodes classiques (type Analyse en Composantes Principales) pour pallier aux problèmes engendrés par le grand nombre de covariables et par leurs fortes colinéarités.  Dans les GLM, les paramètres associés au modèle de régression sont estimés au sens du Maximum de Vraisemblance, et, en pratique, calculés par un algorithme itératif de régression pondérée d'une pseudo-variable sur la matrice des covariables $X$. On trouve dans la littérature des extensions de PLS à de tels modèles, basées sur la substitution des covariables initiales par les PLS-scores.  Outre la question de la pertinence d'appliquer PLS à un couple ($Y,X$) dont la composante $Y$ est 'catégorielle', ces extensions reviennent à chercher l'estimateur de maximum de vraisemblance dans des modèles où son existence n'est pas garantie. Nous proposons une extension de PLS aux GLM, Ridge-PLS, dont l'originalité réside dans la définition d'une pseudo-variable à valeur continue, qui 'capture' l'information contenue dans $Y$. Nous présenterons cette analyse dans le cadre du modèle logit, et discuterons des aspects 'régularisations' et 'réduction de dimension' inhérents à l'algorithme Ridge-PLS. Enfin, nous motiverons et illustrerons cette recherche en montrant comment l'analyse Ridge-PLS peut être utilisée pour la classification (supervisée) de puces à ADN: il s'agit de déterminer - par exemple - le type de pathologie dont est atteint un individu (c'est à dire de déterminer un label $0/1$) à partir du niveau d'expressions de plusieurs milliers de gènes (c'est-à-dire plusieurs milliers de covariables), lorsque l'on dispose pour ce faire d'une base d'apprentissage d'une petite centaine d'observations.

 

 

En juin 2004, Samuel Kaski  (University of Helsinki)

proposera trois séminaires:

 

Vendredi 4 juin 2004, 10h-12h : Self-organizing maps and learning metrics.

Vendredi 11 juin 2004, 10h-12h : Exploration of genome data.

Vendredi 18 juin 2004, 10h-12h : Dependency exploration

 

Self-organizing maps and learning metrics

 

Résumé : I will start from introducing the basic principles and algorithms of the SOM and some of its variants. I will then discuss the use of SOMs for data exploration and text mining, and its relationships with some alternative methods. Learning metrics is a new principle for focusing data analysis on "relevant" aspects of data, instead of modeling both relevant and irrelevant parts. Metrics are learned from paired data. I will introduce the principle and discuss how to use with SOMs and other information visualization methods.

 

Exploration of genome data

 

Résumé : Current high-throughput measurement technologies are revolutionizing biology. With DNA microarray techniques, the expression of thousands of genes can be routinely measured. The genomes of several organisms have already been sequenced, and individual differences in genome sequences can be mapped with increasing accuracy. I will start by introducing the necessary biological background from the computer science/statistics perspective, and then discuss some of the most burning data analysis problems. Statistical machine learning methods are being intensively applied to the problems of clustering, information visualization, classification, and prediction of genome data. I will discuss some current applications on gene expression and sequences of human endogenous retroviruses.

 

Dependency exploration

 

Résumé : Canonical correlation analysis is a traditional linear method for finding what is common in two data sets. For normally distributed data it maximizes mutual information, and recently several groups have been working on other kinds of methods for the same problem, maximizing mutual information between data sets. I will discuss a new Bayesian principle for this task, and new clustering and component models for exploring the dependencies between data sets.

 

Vendredi 25 juin 2004 à 10h

 

Maria Emilia Caballero (Unam, Mexico)

Convergence faible de processus de Lévy autosimilaires

 

Résumé : A partir de la transformation de Lamperti, on étudie la convergence faible dans l’espace de Skorohod des processus de Markov autosimilaires à valeurs dans R+ quand le point initial tend vers 0.

 

Les séminaires des années précédentes


SAMOS (Statistique Appliquée et MOdélisation Stochastique)

Université Paris 1