Le séminaire du Samos

et

Le séminaire co-organisé par les équipes Marin Mersenne et Samos

Mathématiques des Systèmes Complexes

(en liaison avec l'Institut de la Complexité)

 

Se tiennent habituellement à l’Université Paris 1

90, rue de Tolbiac

75013 Paris

Métro : Place d’Italie, Tolbiac ou Bibliothèque François Mitterand

 

 

 

Séminaire Samos :

 

Vendredi 6 avril 2007 à 11 heures

 

Salle C2013, 20ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Sylvain Lespinat (INSERM unité U722)

 

Les représentations multidimensionnelles doivent tenir compte du fléau de la dimension.

 

 

Résumé : La visualisation de données de grande dimension se fait généralement par projection dans un espace bi- ou tri-dimensionnel. Une représentation de ce type ne peut que rarement être parfaite, et est donc souvent le fruit d’un « point de vue » selon lequel on considère les données. Par exemple on peut maximiser l’inertie du nuage projeté (Analyse en Composantes Principales), chercher les axes qui permettent de discriminer les données selon des classes connues au préalable (analyse discriminante), etc.  Suivant le point de vue que l’on considère, il peut être important de prendre en compte les propriétés singulières des espaces de grande dimension, en particulier le phénomène de concentration de la mesure. Nous nous intéressons ici à deux points de vue. Le premier est classique, il s’agit de visualiser les distances entre voisins : les contraintes sur les distances les plus longues sont relâchées pour maximiser la préservation des distances courtes. Dans ce cadre, nous proposons DD-HDS (Data-Driven High Dimensional Scaling) : une méthode de représentation des données originale tenant compte de la concentration de la mesure, et pénalisant à la fois les « faux voisinages » (données éloignées représentées comme proches) et les « déchirements » (données proches représentées comme éloignées). Le second point de vue ne se base pas sur la préservation des distances courtes, mais sur la préservation des rangs de voisinage faibles. La méthode de représentation RankVisu s’attache à conserver cette caractéristique essentielle du jeu de données.

 

.

 

Séminaire Samos :

 

Vendredi 30 mars 2007 à 11 heures

 

Salle C2013, 20ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Aurélie Muller (ENS Cachan Bretagne)

 

Comportement asymptotique de la distribution des pluies extrêmes en

France

 

Résumé : Je présente une analyse du comportement des valeurs extrêmes de pluie en France, via l'étude de variables locales telles que les maxima annuels ou saisonniers de pluies mesurées sur différents pas de temps entre l'heure et la journée, les valeurs supérieures à un seuil élevé, ou la série temporelle de succession d'averses. Je présente différents modèles, issus de la théorie des valeurs extrêmes uni-variée et bi-variée ou de générateurs stochastiques de pluie, pour étudier le comportement asymptotique de ces variables aléatoires. Dans le cas des séries temporelles d'averses, je modélise en particulier la persistance dans le temps des valeurs fortes, à l'aide d'une chaîne de Markov. Je présente également une analyse des incertitudes associées aux différents modèles, avec des méthodes bayésiennes ou fréquentielles. J'ai pu valider ces modèles avec de longues séries de mesures pluviométriques, avec des chroniques de pluies horaires et avec des chroniques d'événements pluvieux décrits par des averses fournis par Météo-France et le Cemagref. Dans de nombreux cas, j'ai en particulier noté que la distribution des extrêmes est non bornée, et de queue plus lourde qu'une loi Gumbel ou exponentielle.

 

à 12 heures

 

Salle C2013, 20ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Mélanie Zetlaoui (Université d’Evry)

 

Titre à préciser

 

 

 

 

Séminaire Samos :

 

Vendredi 23 mars 2007 à 11 heures

 

Salle C2013, 20ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

David Coupier (Université Lille 1)

 

Etude des configurations locales dans le modèle d'Ising

 

 

Résumé : Sur un graphe $d$-dimensionnel, à bords périodiques et dont la structure de graphe est locale et invariante par translation, on considère le modèle d'Ising associé au champ magnétique (ou externe) $a$ et au potentiel de paire (ou d'interaction) $b$. La taille du graphe $n$ est destinée à tendre vers l'infini et les potentiels $a=a(n)$ et $b=b(n)$ pourront dépendre de $n$. Une  configuration locale est un motif déterministe formé de spins $+$ et $-$, et local (i.e. de taille indépendante de $n$). Des conditions portant sur les potentiels $a(n)$ et $b(n)$ seront établies afin de d’écrire la probabilité d'apparition et le nombre d'occurrences dans le graphe d'une configuration locale donnée (fonctions seuils, approximations poissonniennes, inégalités exponentielles), ainsi que les distances séparant de tels objets.

 

 

 

Séminaire Samos :

 

Vendredi 16 mars 2007 à 11 heures

 

Salle C2013, 20ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Noel Cressie (Ohio State University, USA)

 

Spatial Prediction for Massive Datasets

 

Résumé : Environmental datasets obtained from satellites are typically massive in size. The massiveness causes problems in computing optimal spatial (kriging) predictors. In this talk, a flexible  family of nonstationary covariance functions is constructed  using a set of basis functions that is fixed in number. This results in computational simplications in deriving the kriging predictor and its kriging variance. We call the methodology fixed  rank kriging (FRK) and we apply it to a large dataset of remotely sensed Total Column Ozone (TCO) data, observed over the entire globe. This talk represents joint research with Gardar Johannesson.

 

 

 

Séminaire Samos :

 

Vendredi 9 mars 2007 à 11 heures

 

Salle C2013, 20ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Sophie Donnet (Université Paris XI, Orsay)

 

Estimation dans des modèles définis par équations différentielles

ordinaires et stochastiques. Applications biostatistiques

 

Résumé : Les modèles statistiques à données non-observées dont la fonction de régression est solution d'une équation différentielle ordinaire (EDO) sont largement utilisés en biostatistiques (Imagerie par Résonnance Magnétique fonctionnelle, pharmacocinétique, pharmacodynamie...).  L'EDO n'ayant pas de solution analytique en général, les paramètres de ces modèles sont estimés sur un modèle statistique approché dont la fonction de régression est évaluée par une méthode numérique d'intégration. Sur ce modèle approché, nous proposons une méthode d'estimation par maximum de vraisemblance par une version stochastique de l'algorithme EM (SAEM). La convergence de l'algorithme d'estimation sur le modèle approché est démontrée et l'erreur induite par la méthode de résolution numérique sur la vraisemblance des observations est quantifiée. Cette méthode est appliquée dans le cadre de l'Imagerie par résonnance magnétique sur données réelles.  Nous étendons ces modèles aux modèles définis par équations différentielles stochastiques (EDS). De la même façon, nous proposons une méthode d'estimation fondée sur une approximation numérique de la solution de l'EDS, démontrons  des résultats de convergence et quantifions l'erreur induite par l'approximation de la solution de l'EDS sur la  vraisemblance.  Nous appliquons cette méthode sur  données réelles issues de la pharmacocinétique.

 

 

 

Séminaire Samos :

 

Vendredi 23 février 2007 à 11 heures

 

Salle C2013, 20ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Michel Verleysen (Université catholique de Louvain, Belgique)

 

Sélection de variables par information mutuelle et rééchantillonnage

 

Résumé : Face à des problèmes de classification ou de régression où le nombre de variables est important, il est souvent essentiel d'adopter une stratégie efficace de sélection de ces variables, dans deux buts: d'une part améliorer les propriétés des modèles construits sur les variables, pour diminuer les effets de la "malédiction de la dimensionnalité", et d'autre part pour aider à l'interprétation des modèles construits, afin d'identifier les variables responsables des phénomènes modélisés. Dans le cas d'une modélisation non-linéaire, l'information mutuelle est souvent utilisée comme critère de pertinence de variables. L'information mutuelle est un critère qui mesure une relation de façon non-linéaire, sans faire d'hypothèse paramétrique, et peut facilement être étendu à des groupes de variables, ce qui est essentiel dans des procédures de sélection de type "greedy" (procédures itératives "forward", "forward-backward", etc.). Malheureusement, l'information mutuelle n'est pas aisée à estimer sur des échantillons de taille finie, surtout lorsque le nombre de variables augmente. Des estimateurs plus robustes que de simples histogrammes ou noyaux ont été proposés, en se basant sur des approches de plus proches voisins. Néanmoins, ils requièrent l'ajustement délicat d'hyper-paramètres.  Cet exposé présentera d'abord la technique de sélection de variables par information mutuelle. La spectroscopie infrarouge illustrera l'intérêt d'une telle approche, dans le cas de données fonctionnelles, aussi bien dans un but de performance que pour accroître l'interprétabilité des modèles. Ensuite, des méthodes de rééchantillonnage (validation croisée et test de permutation) seront utilisées afin de déterminer de façon automatique les hyper-paramètres des estimateurs.

 

 

Séminaire Samos :

 

Vendredi 9 février 2007 à 11 heures

 

Salle C2013, 20ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Philippe Besse (Université Toulouse III)

 

Des techniques d'apprentissage statistique face à la complexité

des données d'expression génomiques ou industrielles

 

Résumé : Les données industrielles et biologiques, notamment en post génomique  (transcriptomique, protéomique...), posent des défis difficiles à la  Statistique, essentiellement pour des questions de très grande dimension  au regard de la taille des échantillons : des centaines voire milliers  de variables observées sur quelques dizaines ou au mieux centaines de  cas. Dans cette situation, les techniques usuelles de modélisation, très sensibles au sur ajustement, se montrent inutilisables lorsqu'il s'agit  de contrôler la complexité du modèle par des procédures de sélection.Celles par régularisation (ridge) ou par projection (PLS) peuvent  conduire à des résultats mais pas toujours très efficaces. On se propose d'introduire des approches alternatives relativement  récentes, proposées en terme d'agrégation de modèles (bagging,  boosting), et d'en illustrer l'utilisation dans des situations plus ou  moins complexes afin d'en comparer les performances. Une approche  heuristique est donc ici préférée bien que de nombreux travaux théoriques en cours cherchent à justifier le bon comportement de ces algorithmes.

 

Séminaire Samos :

 

Vendredi 2 février 2007 à 11 heures

 

Salle C2013, 20ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Carlos Bouza (Université La Havane, Cuba)

 

1/ Sampling using Ranked Sets: some results in finite population inference (exposé 1)

 

2/ Some experiences with Simulated Annealing in the solution of statistical problems (exposé 2)

 

Titre : Sampling using Ranked Sets: some results in finite population inference

 

Résumé : Traditionally simple random sampling is considered as the token for selecting samples. During the last decade Ranked Set Sampling has been considered as an alternative to purely random selection.  This design is based on the use of a two-stage model.  Random samples are selected under the with replacement mechanism. The selected units are ordered (ranked). Each order statistic is observed once. This process can be repeated or not.  The measurement of the random variable is made considering the order statistics of the samples.We present a review of the most significant results in this theme and some open problems related with this sampling design are quoted.   We discuss in detail results in the use of ranked set sampling for estimating ratios and difference of means (Bouza, C. N.  (2001b): Model assisted ranked survey sampling. Biometrical J., 43, 249-259 and Bouza, C. N.  (2001c): Ranked set sampling for estimating the differences of means.  Investigación Operacional, 22, 154-162.), for solving the problems present under missing observations (Bouza, C. N.  (2001a): Random set sampling with non-responses. Rev. Mat. Est. S. Paulo, 19, 297-308, Bouza , C. N.  (2002a): Estimation of the mean in ranked set sampling with non-responses.  Metrika, 56, 171-179.)  and the study of the gains in accuracy due to this design when we deal with randomized mechanisms for reducing the response bias in sensitive questions.

 

Titre : Some experiences with Simulated Annealing in the solution of Statistical problems

 

Résumé : We present some experiences in the solution of different optimization problems that arise in Statistics. They are:

·       Optimum Multivariate stratification for maximizing the accuracy of estimation in sample surveys.Simulated annealing is used for constructing strata that minimize a variance function and the different approaches used in this study are presented (El. modelo de regresión lineal : algunas soluciones para su ajuste. IO, 20, & [1999]. 115-40., ; Optimum allocation and weighting in stratified sampling using Stochastic Programming. RT 96-03 CESMA-USB.Venezuela.;. Model selection of the convex combination of LS and LAV: a simulated anneeling approach. RT.96-09 CESMA-USB.Venezuela; Multiple linear regression curve fitting: a quadratic programming solution.[1995] In Approximation & Optimization” P. Lang Verlag, Frankfurt. 1-3, &?!; Interaction between Optimization and Statistics: Regression equation fitting and estimating the approximation error in Stochastic Programming. (2002), Proceedings of the Applied Mathematics Summer School, Humboldt University Berlin)

·       The study of inventory problems under random demandsSome applications of heuristics for solving the determination of an optimal inventory policy when random demands are present.  The approach suggested has been developed in a series of papers (Bounds of the expected appoximation error in optimal inventory policies. [1998], 3rd. International Conf. on Approximation and Optimization in the  Caribbean. &%+, 47-54. México; Investigation of Burn-in-time problems with unknown failure time distribution . [2001]: J. of Statistics and     Management Sc.37, 1-7. India.$;. A Study of the Optimum Lot Size and the Newsboy problem under Random Demands. (2003) Economic  Analysis Working Papers, 3. Spain.; Convergence of estimated optimal inventory levels in models with probabilistic demands. (2003),     YUJOR 13, 217-227. Serbia  Montenegro)

·       The solution of robust regression fitting and variable selectionSimulated annealing is used for solving problems related with the use   of robust alternatives for LS regression.  It allows to select variables without relying in the normality of the errors. The use of statistical models for studying the behavior of heuristics is also considered. Different algorithms and computational experiences are presented.

 

 

Séminaire Marin Mersenne et Samos :

 

Vendredi 19 janvier 2007 à 11 heures : Annulé

 

Salle C2013, 20ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Sanjeeb Dash (Research Staff Member, New-York)

 

Mixed-integer rounding cutting planes for integer programming problems

 

Résumé : Cutting planes, or linear inequalities satisfied by all integral points in a polyhedron, are very useful in solving integer programming problems. In this talk, we discuss two aspects of the most important class of general cutting planes, namely mixed-integer rounding (MIR) cutting planes. We describe recent results on the separation problem for MIR cutting planes - given a point contained in a polyhedron, test if there exists an MIR cutting plane violated by this point or prove that none exists - and discuss their use in solving integer programs. This is joint work with Oktay Gunluk, and Andrea Lodi. An important aspect of MIR cuts is the following: any integer program, and therefore any problem in NP, can be solved by generating a sequence of MIR cuts. We show that exponentially many MIR cuts are needed in the worst case.

 

 

Séminaire Samos (CES-Matisse) :

 

Vendredi 15 décembre 2006 à 11 heures

 

Salle C2013, 20ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Jean-Marc Lasgouttes (INRIA Roquencourt)

 

Processus de naissance et de mort sur sur certains arbres aléatoires

 

Résumé : On donne la classification et le taux de croissance d'une famille d'arbres aléatoires. Dans le modèle de base, des feuilles sont ajoutées à l'arbre selon un processus de Poisson (avec taux $\lambda$ à chaque noeud), et retirées avec un taux $\mu$. Les résultats mettent en valeur le fameux nombre $e$. Une classification complète du processus est donnée en fonction de $\rho=\lambda/\mu$: il est ergodique si $\rho\leq e$ et transient si $\rho>e$. Il y a donc un phénomène de transition de phase :  la région usuelle de  récurrence nulle n'existe pas, ce qui est rare pour des chaînes de Markov dénombrables avec des sauts exponentiellement distribués. On calcule quelques lois stationnaires de grandeurs de base comme le volume de l'arbre ou sa hauteur. On donne aussi différentes bornes, lois limite et théorèmes de type ergodique pour les régimes ergodiques et transients. Enfin, on étend une partie de ces résultats à un cas à plusieurs classes de noeuds.

 

 

Séminaire Samos (CES-Matisse) :

 

Vendredi 1 décembre 2006 à 11 heures

 

Salle C2013, 20ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Carlo Gaetan (Université de Venizia, Italie)

 

Spatio-temporal modelling of epidemiological processes

 

Résumé : The aim of this talk is to discuss the potential of the varying coefficient modelling approach for tackling the modelling tasks typically encountered in epidemiology. Epidemiological processes exhibit complicated behavior over an extensive range of spatial and temporal scales of variability, giving rise to complex dynamics. The usual statistical approaches try to simplify complexity of such systems by setting up models which either ignore the multivariate interaction, or assume spatial/temporal stationarity, linearity, and Gaussianity. However, it is increasingly the case that the scientific questions of interest are becoming sufficiently complex that one can no longer justify such assumptions.To address some of the issues raised by such problems, we shall describe the use of regression models (not necessarily Gaussian) where where the regression coefficients are allowed to change in space or in time. We will discuss an parameter-driven approach through latent Gaussian Markov random fields. In the last stage the hierarchical model is completed by specifying a prior distribution for the hyperparameters. Bayesian inference is approximated by drawing samples from the posterior distribution by means of an MCMC algorithm. The resulting models are very powerful in that relatively simple spatial and temporal dependence assigned to subprocesses and parameters can lead to very complicated joint spatio-temporal dependence. Results are illustrated with a real dataset.

 

Jeudi 23 et Vendredi 24 novembre 2006

 

Journées Modélisation Spatio-Temporelle sur Graphe et Approximation

http://carlit.toulouse.inra.fr/MSTGA/

 

Jeudi et vendredi matin : Salle C2204, 22ième étage

Vendredi après midi : Salle C2013, 20ième étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

 

Séminaire Samos (CES-Matisse) :

 

Vendredi 10 novembre 2006 à 11 heures

 

Salle C2013, 20ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Olivier Wintenberger (Université Paris 1)

 

Estimation adaptative de la densité pour des observations dépendantes

 

Résumé : Nous étudions la convergence de l'estimateur par ondelettes à seuillage dur au-delà du cadre classique de données iid. Pour cela, nous introduisons un paramètre $\gamma$ dans le niveau de seuillage. Ce degré de liberté supplémentaire permet de prendre en compte des données dépendantes pour lesquelles il existe des versions affaiblies de l'inégalité de Bernstein classique. Le paramètre $\gamma$ optimal dépend de la dépendance des observations. Nous proposons de l'estimer par Cross-Validation. Des résultats numériques sont donnés à partir de simulations. (En collaboration avec Irène Gannaz).

 

 

Séminaire Samos (CES-Matisse) :

 

Vendredi 20 octobre 2006 à 11 heures

 

Salle C2013, 20ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Aurélien Garivier (Université Paris 11),

 

Approche MDL pour les chaînes de Markov cachées à émission gaussienne ou poissonnienne. Application à l'identification d'ordre.

 

Résumé : La théorie de l'information, en fournissant un critère objectif de longueur de code pour un message donné, permet de donner un sens concret au précepte MDL : "Choisis le modèle qui donne la plus courte description des données."Après avoir rappelé quelques notions de théorie du codage qui motivent ces travaux, nous montrerons ici comment des inégalités de mélange (analogues à celles qui sont utilisés pour la compression) peuvent être prouvées pour les chaînes de Markov cachées à émission dans un alphabet infini, et nous montrerons comment elles conduisent à des estimateurs d'ordre consistants.

 

 

Séminaire Marin Mersenne et Samos :

 

Vendredi 13 octobre 2006 à 11 heures

 

Salle C-20-13, 20ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Jean-Michel Poggi (Université Paris 11-Orsay et Paris 5)

 

Boosting Itéré pour la Detection de Donnees Aberrantes

 

Résumé :  Une procédure de détection de valeurs aberrantes dans les problèmes de régression est proposée. Basée sur l'information fournie par le boosting d'arbres de régression CART, l'idée maîtresse consiste à sélectionner l'observation la plus fréquemment rééchantillonnée au cours des itérations du boosting puis de recommencer après l'avoir retirée. Le critère de sélection est basée sur l'application de l'inégalité de Tchebychev au maximum, au cours des itérations du boosting, du nombre moyen d'apparitions dans les échantillons bootstrap. En particulier, la procédure ne fait pas d'hypothèse sur la distribution du bruit et sélectionne les valeurs aberrantes comme des observations particulièrement difficiles à prévoir. On considère un grand nombre de jeux de données réelles ou artificielles et une étude comparative avec des méthodes éprouvées en montre l'intérêt.

Cet exposé est issu de :

- Cheze N., Poggi J-M., "Outlier Detection by Boosting  Regression Trees", Preprint Orsay, 2005-17, 23 p.

- Cheze N., Poggi J-M., "Iterated boosting for outlier  detection", Data Science and Classification, Proceedings IFCS06, Springer, 213-221, 2006

 

 

Séminaire Samos :

 

Vendredi 23 juin 2006 à 11 heures

 

Salle C2204, 22ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Zahra Hamou Mamar (LIMOS, Université Clermont-Ferrand II)

 

Représentation temps-échelle pour la surveillance préventive du système du guidage d’un tramway sur pneumatiques «le Translohr»

 

Résumé : Un tramway sur pneus de type Translohr est guidé par un rail central unique. Les pièces essentielles du système de guidage sont des galets qui assurent le contact avec le rail. L'usure des galets peut être à l’ origine de vibrations génératrices de bruits audibles. Nous travaillons à partir de signaux vibratoires issus d’accéléromètres fixés sur la semelle du rail et qui enregistrent les vibrations du rail provoquées par les galets lors du passage du tramway. A partir des signaux vibratoires, le système de diagnostic doit à la fois localiser les galets endommagés et identifier la nature de leur usure, ce qui nécessite une information à la fois temporelle et fréquentielle. Pour avoir une information temps-fréquence, nous avons utilisé la représentation temps-échelle grâce à une transformée en ondelettes continue. Nous présentons les différents traitements effectués sur le signal vibratoire: l'application de la transformée en ondelettes continue en donnant quelques définitions théoriques, le découpage temporel ainsi que le découpage fréquentiel pour récupérer la matrice des coefficients d’ondelettes correspondante à chaque galet. L'identification de l’état d’un galet (neuf, usé) devient alors une tâche de classification.

 

 

Séminaire Samos :

 

Vendredi 16 juin 2006 à 11 heures

 

Salle C2204, 22ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Istvan Gyongy (Edinburgh University, Grande Bretagne)

 

Cauchy problems with periodic controls

 

Résumé : The talk is based on a recent joint work with N.V. Krylov. A parametrized family of Cauchy problems is considered  for linear evolution equations in Banach spaces. For the solutions an expansion in powers of the parameter is obtained. Applications to numerical solutions of a large class of PDEs and (nonlinear) ODEs are presented. In particular, it is shown that the order of accuracy of finite difference and splitting-up approximations can be made as high as wanted by an implementation of Richardson's idea.

 

Séminaire Samos :

 

Vendredi 9 juin 2006 à 11 heures

 

Salle C2204, 22ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Paul Doukhan (CREST et Samos-Matisse)

 

Dépendance faible, modèles et quelques utilisations

        

Résumé : Revenant sur les notions de dépendance faible introduites avec Sana Louhichi en 1999, nous présentons quelques modèles de séries chronologiques stationnaires et non linéaires qui semblent nouveaux. Leurs propriétés de dépendance faible sont examinées. Des applications de la méthode de Lindeberg sont alors envisagées dans ce cadre.

 

 

Séminaire Samos :

 

Vendredi 2 juin 2006 à 11 heures

 

Salle C2204, 22ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Joseph Rynkiewicz (Université Paris 1, Samos-Matisse)

 

Identification de l'architecture de perceptrons multicouches

 

 

Abstract : On considère des modèles de régression impliquant des perceptrons multicouches (MLP) avec une couche cachée et un bruit gaussien. On suppose ici qu'il existe un vrai modèle MLP qui a généré les observations. L'estimation des paramètres du MLP peut être faite en maximisant la vraisemblance du modèle. Dans ce cadre, il est difficile de déterminer le vrai nombre d'unités cachées parce que la matrice d'information de Fisher n'est pas inversible si ce nombre est surestimé. Ainsi, si les paramètres du MLP ne sont pas bornés à priori, Fukumizu (Annals of stat. 2003) a montré que la statistique du rapport de vraisemblance tendait vers l'infini. Cependant, il est courant de supposer que les paramètres du modèle sont bornés. Dans ce cadre en utilisant des techniques introduites notamment par E. Gassiat, nous montrons que la statistique du rapport de vraisemblance est tendue. Ainsi, un critère d'information convenablement choisi, comme le BIC, est consistant, c'est-à-dire qu'il conduit asymptotiquement à choisir le modèle avec la bonne architecture.

 

Séminaire Samos :

 

Vendredi 19 mai 2006 à 11 heures

 

Salle C2204, 22ème étage

Université Paris 1

Centre Pierre Mendes France,

90 rue de Tolbiac,  75013 Paris

 

Richard Emilion (Université d'Orléans) 

 

Distributions aléatoires en analyse d'images (Random distributions in image analysis)

 

Abstract : Une distribution aléatoire est une variable aléatoire dont chaque valeur est une mesure de probabilité.  Deux exemples : le processus de Dirichlet et celui de Kraft, ce dernier étant une ondelette de Haar à coefficients aléatoires. Nous proposons un modèle hiérarchique en images plus riche que les modèles habituels : on part d'un mélange de distributions aléatoires, chacune des composantes du mélange correspond à une zone bien spécifique de l'image et génère des densités qui à leur tour génère les pixels. On propose une méthode d'estimation de tels modèles ainsi qu'un algorithme de segmentation expérimentée sur une image d'empreinte digitale.

 

Travail en collaboration avec Denis Pasquignon.

 

 

Séminaire Marin Mersenne et Samos :

 

Vendredi 7 avril 2006 à 12 heures

 

Université Paris 1

MSE

Maison des Sciences Economiques

106-112 Bld de l’Hopital, 75013 Paris

(métro Campo-Formio ou Place d’Italie)

Salle 314

 

Annick Lesne (LPTMC, Université Paris 6)

 

 

Dynamique de réseaux complexes: approximation de champ moyen et équations de corrélations

 

Abstract : La dynamique d'éléments couplés a été abondamment étudiée dans deux situations extrêmes:  celle où le réseau d'interaction est une grille régulière, les éléments étant alors couplés uniquement à leurs proches voisins, et celle ou au contraire tous les éléments sont couplés les uns aux autres. Peu d'études ont par contre été menées dans le cas, pourtant réaliste, où le réseau d'interaction présente une grande hétérogénéité dans sa connectivité, par exemple une distribution des degrés en loi de puissance (`réseaux sans degré caractéristique' , `scale-free' en anglais). Sur l'exemple d'un réseau d'éléments excitables (modélisant par exemple un réseau de neurones) je présenterai comment il est possible d'adapter les méthodes de `champ moyen' (approximation de découplage) de la physique statistique pour prendre en compte la distribution hétérogène des degrés. Une approximation moins brutale consiste ensuite à décrire l'évolution des corrélations de paire. On peut en fait écrire toute une hiérarchie d'équations de corrélation, que l'on tronque au niveau d'approximation le plus adéquat.

 

Séminaire Samos :

 

Vendredi 31 mars 2006 à 12 heures

 

Université Paris 1

MSE

Maison des Sciences Economiques

106-112 Bld de l’Hopital, 75013 Paris

(métro Campo-Formio ou Place d’Italie)

Salle 314

 

Donatas SURGAILIS (membre de l'Académie des Sciences de Lituanie)

 

Time-varying fractionnally integrated processes with discrete and continuous argument

 

Abstract : Extending the works Philippe  et al. (2005, 2006) on time-varying fractionally integrated operators  $ A({\bf d}), B({\bf d}) $ with discrete argument depending  on an arbitrary sequence ${\bf d} = (d_t, t \in {\Z}) $ of real numbers, we introduce nonhomogenous generalizations $I^{\alpha (·)} $ and $D^{\alpha (·)} $ of the Liouville fractional integral and derivative operators on the real line, where $\alpha (u), u\in {\R} $ a general function taking values in $(0,1)$ and satisfying some regularity conditions. The proof of $D^{\alpha (·)} I^{\alpha (·)}f = f$ relies on a surprising integral identity. We also discuss small and large scale limits of white noise integrals $X_t = \int_0^t (I^{\alpha (·)} \dot B)(s) {\d}s $ and  $Y_t = \int_0^t (D^{\alpha (·)} \dot B)(s) {\d}s $. In the second part of the talk we extend the results of  Philippe et al. (2005, 2006) on discrete time filtered processes $A({\bf d}) \veps_t$ and  $B({\bf d}) \veps_t $ in two directions: (1) when ${\bf d} = (d_t, t \in {\Z}) $ is deterministic and almost periodic at $+\infty $ and $-\infty$, and (2) when ${\bf d} = (d_t, t \in {\Z}) $ is  random i.i.d.

 

Part of the results were obtained in collaboration with Anne Philippe, Marie-Claude Viano, Paul Doukhan, Gabriel Lang, Kristina Bruzaite and Marijus Vaiciulis.

 
 

 

 

Séminaire Samos :

 

Vendredi 24 mars 2006 à 12 heures

 

Université Paris 1

MSE

Maison des Sciences Economiques

106-112 Bld de l’Hopital, 75013 Paris

(métro Campo-Formio ou Place d’Italie)

Salle 314

 

Donatas SURGAILIS (membre de l'Académie des Sciences de Lituanie)

 

Random coefficient AR(1) process with heavy-tailed renewal-switching coefficient and heavy-tailed noise

 
 

Abstract: We discuss limit behavior of the partial sums process of stationary solution of AR(1) equation $X_t = a_t X_{t-1} + \veps_t$, with random (renewal-reward) coefficient $a_t$, taking iid\ values $A_j \in [0,1]$ on consecutive intervals of a stationary renewal process with heavy-tailed interrenewal distribution, and with iid\ innovations $\veps_t$ belonging to the domain of attraction of an $\alpha-$stable law $(0<\alpha\le 2,\alpha \ne 1)$. Under suitable conditions on the tail parameter of the interrenewal distribution and the singularity parameter of the distribution of $A_j$ near unit root $a=1$, we show that the partial sums process of $X_t$ converges to a $\lambda-$stable Lévy process with index $\lambda<\alpha$. The paper extends the result of Leipus and Surgailis (2003) from finite variance to infinite variance $X_t$.

 

 

Séminaire Samos :

 

Vendredi 17 mars 2006 à 11 heures

 

Université Paris 1

90 rue de Tolbiac, 75013 Paris

Salle C15-02, 15ème étage

 

Thomas Villmann (Université de Leipzig)

 

Information optimum vector quantization

 
 

Abstract: Information optimum data processing is an important task in data analysis and data mining. We consider actual approaches for information optimal vector quantization. These approaches include methods which optimize information theoretic measures like Kullback-Leibler-divergence directly. Further, we show that for neural vector quantizer like self-organizing maps (SOMs) and neural gas (NG) information optimal data processing is possible by magnification control. Thereby, magnification is a property of the vector quantizer which is closely related to the description error by the law discovered by Zador. The effect of information control is demonstrated for several examples.

 
 
 

Séminaire Samos :

 

Vendredi 10 mars 2006 à 11 heures

 

Université Paris 1

90 rue de Tolbiac, 75013 Paris

Salle C15-02, 15ème étage

 

Thomas Villmann (Université de Leipzig)

 

Prototype based fuzzy classification

 

Abstract: Classification is an important field in data analysis. Prototype based methods like learning vector quantization (LVQ) and other provide an intuitive method which allows an understanding of the classification scheme, in contrast to multilayer perceptrons (MLPs) which work as a black box. Further, crisp classification some times in inadequate or impossble. Here fuzzy methods can help. We introduce extensions for supervised learning to the originally unsupervised prototype based neural vector quantizer self-organizing map (SOM) and neural gas (NG). Both approaches utilize neighbourhood cooperativness for improved convergence which is preserved in the supervised scheme, too. We demonstrate the approach for several examples including real world applications in bioinformatics.

 
 
 

Séminaire Samos :

 

Vendredi 3 mars 2006 de 12 heures à 14 heures

 

Maison des Sciences Economiques

Université Paris 1

106-112 Bld de l’Hopital, 75013 Paris

Métro Campo-Formio, Métro 5

Salle 314, 3ième étage

 
Thomas Villmann (Université de Leipzig)

 

Application of topology preserving mapping using SOMs for medical data analysis

 

Abstract: Neural Maps are special artificial neural networks which are adapted from the cortex in real brains. The cortex processes the sensoric information at a first level. Thereby, the information flow is optimized by data driven adaptation of the several cortex areas responsible for different stimuli. Neural maps transfer these functional views into a technical context of artificial neural networks for data mining and representation. We will consider several properties and variants of neural maps for faithful data analysis. In particular we will concentrate on the self-organizing map model (SOM), which generates under certain conditions a topology preserving map, i.e. a low-dimensional representation of high- dimensional data can be achieved. We discuss useful extensions of the basic SOM, such as growing variants and information optimum coding for faithful data modeling. We provide tools to assess the quality of topology preservation of the map, which is necessary for correct interpretation. The highlighted features are presented in the context of data analysis and visualization in medical application, ranging from psychotherapy process data to genomic profiling.

 

 

 

Séminaire co-organisé par les équipes Marin Mersenne et Samos

Mathématiques des Systèmes Complexes

(en liaison avec l'Institut de la Complexité)

 

Vendredi 24 février 2006 à 11h00

 

Université Paris 1

90 rue de Tolbiac, 75013 Paris

Salle C15-02, 15ème étage

 

Annick Lesne (LPTMC, Université Paris 6),

 

Dynamique de réseaux complexes:

approximation de champ moyen et équations de corrélations

 

Résumé : La dynamique d'éléments couplés a été abondamment étudiée dans deux situations extrêmes:  celle où le réseau d'interaction est une grille régulière, les éléments étant alors couplés uniquement à leurs proches voisins, et celle ou au contraire tous les éléments sont couplés les uns aux autres. Peu d'études ont par contre été menées dans le cas, pourtant réaliste, où le réseau d'interaction présente une grande hétérogénéité dans sa connectivité, par exemple une distribution des degrés en loi de puissance (`réseaux sans degré caractéristique' , `scale-free' en anglais). Sur l'exemple d'un réseau d'éléments excitables (modélisant par exemple un réseau de neurones) je présenterai comment il est possible d'adapter les méthodes de `champ moyen' (approximation de découplage) de la physique statistique pour prendre en compte la distribution hétérogène des degrés. Une approximation moins brutale consiste ensuite à décrire l'évolution des corrélations de paire. On peut en fait écrire toute une hiérarchie d'équations de corrélation, que l'on tronque au niveau d'approximation le plus adéquat.

 

 

 

Séminaire co-organisé par les équipes Marin Mersenne et Samos

Mathématiques des Systèmes Complexes

(en liaison avec l'Institut de la Complexité)

 

Vendredi 6 janvier 2005 à 11h00

 

Université Paris 1

90 rue de Tolbiac, 75013 Paris

Salle C22-04 (Salle des Thèses), 22ème étage

 

Jean-Luc Schwartz (CNRS, I.N.P. Grenoble)

 

La parole naissant des interactions perceptuo-motrices :

cadre théorique, données expérimentales et éléments de modélisation computationnelle

 

Résumé : Il s'agira de tenter de montrer que c'est au sein des interactions perceptuo-motrices que se construit la parole, ses processus, ses représentations, au cours du développement ; dans ces interactions que la parole s'est bricolée au cours de l'évolution ; dans ces interactions que le chercheur trouvera le cadre adéquat pour comprendre et modéliser les processus de communication orale. Il s'agit donc de mettre au net, le mieux possible, les contraintes et capacités de production et de perception ainsi que les mécanismes développementaux de co-maturation de ces deux systèmes, et de tenter d'intégrer cet ensemble au sein d'un scénario évolutionniste.

 

 

 

Séminaire Samos :

 

Vendredi 9 décembre 2005 à 11h00

 

Université Paris 1

90 rue de Tolbiac, 75013 Paris

Salle C22-04 (Salle des Thèses), 22ème étage

 

Szymon Peszat (Université de Cracovie et Paris 13)

 

Régularité de convolutions stochastiques

 

Résumé : La notion de convolution stochastique apparaît en dimension infinie dans la formulation de type semi-groupe ("mild") des solutions d'EDP stochastiques semi-linéaires; en dimension finie, elle est présente dans les modèles de taux court pour les mathématiques financières. L'exposé portera en grande partie sur la régularité en temps (continuité, existence de versions càdlàg) des trajectoires.

 

 

 

Séminaire co-organisé par les équipes Marin Mersenne et Samos

Mathématiques des Systèmes Complexes

(en liaison avec l'Institut de la Complexité)

Vendredi 25 novembre 2005 à 11h00

 

Université Paris 1

90 rue de Tolbiac, 75013 Paris

Salle C22-04 (Salle des Thèses), 22ème étage

 

Paul Bourgine (CREA, Ecole Polytechnique)

 

Reconstruction des dynamiques des systèmes complexes

 


SAMOS (Statistique Appliquée et MOdélisation Stochastique) et Marin Mersenne

Université Paris 1