Le séminaire du Samos
et
Le séminaire co-organisé par les
équipes Marin
Mersenne et Samos
Mathématiques
des Systèmes Complexes
(en liaison avec l'Institut de
Se tiennent habituellement à l’Université Paris
1
90, rue de Tolbiac
75013 Paris
Métro : Place d’Italie, Tolbiac ou
Bibliothèque François Mitterand
Séminaire
Samos :
Vendredi 6 avril
2007 à 11 heures
Salle C2013, 20ème
étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
Sylvain
Lespinat (INSERM unité U722)
Les représentations
multidimensionnelles doivent tenir compte du fléau de la dimension.
Résumé : La visualisation de données de grande dimension se
fait généralement par projection dans un espace bi- ou tri-dimensionnel.
Une représentation de ce type ne peut que rarement être parfaite, et est donc
souvent le fruit d’un « point de vue » selon lequel on considère les
données. Par exemple on peut maximiser l’inertie du nuage projeté
(Analyse en Composantes Principales), chercher les axes qui permettent de
discriminer les données selon des classes connues au préalable (analyse
discriminante), etc. Suivant le point de
vue que l’on considère, il peut être important de prendre en compte les
propriétés singulières des espaces de grande dimension, en particulier le
phénomène de concentration de la mesure. Nous nous intéressons ici à deux
points de vue. Le premier est classique, il s’agit de visualiser les
distances entre voisins : les contraintes sur les distances les plus longues
sont relâchées pour maximiser la préservation des distances courtes. Dans ce
cadre, nous proposons DD-HDS (Data-Driven High Dimensional Scaling) : une
méthode de représentation des données originale tenant compte de la
concentration de la mesure, et pénalisant à la fois les « faux voisinages »
(données éloignées représentées comme proches) et les « déchirements » (données
proches représentées comme éloignées). Le second point de vue ne se base pas
sur la préservation des distances courtes, mais sur la préservation des rangs
de voisinage faibles. La méthode de représentation RankVisu
s’attache à conserver cette caractéristique essentielle du jeu de
données.
.
Séminaire
Samos :
Vendredi 30 mars
2007 à 11 heures
Salle C2013, 20ème
étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
Aurélie Muller (ENS Cachan
Bretagne)
Comportement asymptotique de la
distribution des pluies extrêmes en
France
Résumé : Je présente une analyse du comportement des valeurs
extrêmes de pluie en France, via l'étude de variables locales telles que les
maxima annuels ou saisonniers de pluies mesurées sur différents pas de temps
entre l'heure et la journée, les valeurs supérieures à un seuil élevé, ou la
série temporelle de succession d'averses. Je présente différents modèles, issus
de la théorie des valeurs extrêmes uni-variée et bi-variée ou de générateurs
stochastiques de pluie, pour étudier le comportement asymptotique de ces
variables aléatoires. Dans le cas des séries temporelles d'averses, je modélise
en particulier la persistance dans le temps des valeurs fortes, à l'aide d'une
chaîne de Markov. Je présente également une analyse des incertitudes associées
aux différents modèles, avec des méthodes bayésiennes
ou fréquentielles. J'ai pu valider ces modèles avec de longues séries de
mesures pluviométriques, avec des chroniques de pluies horaires et avec des
chroniques d'événements pluvieux décrits par des averses fournis par
Météo-France et le Cemagref. Dans de nombreux cas,
j'ai en particulier noté que la distribution des extrêmes est non bornée, et de
queue plus lourde qu'une loi Gumbel ou exponentielle.
à 12 heures
Salle C2013, 20ème
étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
Mélanie
Zetlaoui (Université d’Evry)
Titre à préciser
Séminaire
Samos :
Vendredi 23 mars
2007 à 11 heures
Salle C2013, 20ème
étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
David Coupier
(Université Lille 1)
Etude des configurations locales dans
le modèle d'Ising
Résumé : Sur un graphe $d$-dimensionnel, à bords périodiques et
dont la structure de graphe est locale et invariante par translation, on
considère le modèle d'Ising associé au champ
magnétique (ou externe) $a$ et au potentiel de paire (ou d'interaction) $b$. La
taille du graphe $n$ est destinée à tendre vers l'infini et les potentiels
$a=a(n)$ et $b=b(n)$ pourront dépendre de $n$. Une configuration locale est un motif
déterministe formé de spins $+$ et $-$, et local (i.e. de taille indépendante
de $n$). Des conditions portant sur les potentiels $a(n)$ et $b(n)$ seront
établies afin de d’écrire la probabilité d'apparition et le nombre
d'occurrences dans le graphe d'une configuration locale donnée (fonctions
seuils, approximations poissonniennes, inégalités
exponentielles), ainsi que les distances séparant de tels objets.
Séminaire
Samos :
Vendredi 16 mars
2007 à 11 heures
Salle C2013, 20ème
étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
Noel Cressie (
Spatial
Prediction for Massive Datasets
Résumé : Environmental datasets
obtained from satellites are typically massive in size. The massiveness causes
problems in computing optimal spatial (kriging)
predictors. In this talk, a flexible family of nonstationary
covariance functions is constructed
using a set of basis functions that is fixed in number. This results in
computational simplications in deriving the kriging predictor and its kriging
variance. We call the methodology fixed rank kriging
(FRK) and we apply it to a large dataset of remotely sensed Total Column Ozone
(TCO) data, observed over the entire globe. This talk represents joint research
with Gardar Johannesson.
Séminaire Samos :
Vendredi 9 mars 2007
à 11 heures
Salle C2013, 20ème
étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
Sophie Donnet
(Université Paris XI, Orsay)
Estimation dans des modèles définis
par équations différentielles
ordinaires
et stochastiques. Applications biostatistiques
Résumé : Les modèles statistiques à données non-observées dont
la fonction de régression est solution d'une équation différentielle ordinaire
(EDO) sont largement utilisés en biostatistiques
(Imagerie par Résonnance Magnétique fonctionnelle, pharmacocinétique,
pharmacodynamie...). L'EDO n'ayant pas
de solution analytique en général, les paramètres de ces modèles sont estimés
sur un modèle statistique approché dont la fonction de régression est évaluée
par une méthode numérique d'intégration. Sur ce modèle approché, nous proposons
une méthode d'estimation par maximum de vraisemblance par une version
stochastique de l'algorithme EM (SAEM). La convergence de l'algorithme
d'estimation sur le modèle approché est démontrée et l'erreur induite par la
méthode de résolution numérique sur la vraisemblance des observations est
quantifiée. Cette méthode est appliquée dans le cadre de l'Imagerie par
résonnance magnétique sur données réelles.
Nous étendons ces modèles aux modèles définis par équations
différentielles stochastiques (EDS). De la même façon, nous proposons une
méthode d'estimation fondée sur une approximation numérique de la solution de
l'EDS, démontrons des résultats de
convergence et quantifions l'erreur induite par l'approximation de la solution
de l'EDS sur la vraisemblance. Nous appliquons cette méthode sur données réelles issues de la
pharmacocinétique.
Séminaire
Samos :
Vendredi 23 février
2007 à 11 heures
Salle C2013, 20ème
étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
Michel Verleysen
(Université catholique de Louvain, Belgique)
Sélection de variables par
information mutuelle et rééchantillonnage
Résumé : Face à des problèmes de classification ou de
régression où le nombre de variables est important, il est souvent essentiel
d'adopter une stratégie efficace de sélection de ces variables, dans deux buts:
d'une part améliorer les propriétés des modèles construits sur les variables,
pour diminuer les effets de la "malédiction de la dimensionnalité",
et d'autre part pour aider à l'interprétation des modèles construits, afin
d'identifier les variables responsables des phénomènes modélisés. Dans le cas
d'une modélisation non-linéaire, l'information mutuelle est souvent utilisée
comme critère de pertinence de variables. L'information mutuelle est un critère
qui mesure une relation de façon non-linéaire, sans faire d'hypothèse
paramétrique, et peut facilement être étendu à des groupes de variables, ce qui
est essentiel dans des procédures de sélection de type "greedy" (procédures itératives "forward", "forward-backward", etc.). Malheureusement, l'information
mutuelle n'est pas aisée à estimer sur des échantillons de taille finie,
surtout lorsque le nombre de variables augmente. Des estimateurs plus robustes
que de simples histogrammes ou noyaux ont été proposés, en se basant sur des
approches de plus proches voisins. Néanmoins, ils requièrent l'ajustement
délicat d'hyper-paramètres. Cet exposé
présentera d'abord la technique de sélection de variables par information
mutuelle. La spectroscopie infrarouge illustrera l'intérêt d'une telle
approche, dans le cas de données fonctionnelles, aussi bien dans un but de
performance que pour accroître l'interprétabilité des
modèles. Ensuite, des méthodes de rééchantillonnage
(validation croisée et test de permutation) seront utilisées afin de déterminer
de façon automatique les hyper-paramètres des estimateurs.
Séminaire
Samos :
Vendredi 9 février
2007 à 11 heures
Salle C2013, 20ème
étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
Philippe Besse (Université Toulouse
III)
Des techniques d'apprentissage
statistique face à la complexité
des
données d'expression génomiques ou industrielles
Résumé : Les données industrielles et biologiques, notamment en
post génomique (transcriptomique,
protéomique...), posent des défis difficiles à
Séminaire
Samos :
Vendredi 2 février
2007 à 11 heures
Salle C2013, 20ème
étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
Carlos Bouza
(Université
1/
Sampling using Ranked Sets: some results in finite population inference (exposé
1)
2/
Some experiences with Simulated Annealing in the
solution of statistical problems (exposé 2)
Titre : Sampling using Ranked Sets: some results in finite
population inference
Résumé : Traditionally
simple random sampling is considered as the token for selecting samples. During
the last decade Ranked Set Sampling has been considered as an alternative to
purely random selection. This design is
based on the use of a two-stage model.
Random samples are selected under the with replacement mechanism. The
selected units are ordered (ranked). Each order statistic is observed once.
This process can be repeated or not. The
measurement of the random variable is made considering the order statistics of
the samples.We present a review of the most
significant results in this theme and some open problems related with this
sampling design are quoted. We discuss
in detail results in the use of ranked set sampling for estimating ratios and
difference of means (Bouza, C. N. (2001b): Model assisted ranked survey
sampling. Biometrical J., 43, 249-259 and Bouza,
C. N. (2001c): Ranked set
sampling for estimating the differences of means. Investigación Operacional, 22, 154-162.), for solving the problems
present under missing observations (Bouza, C. N. (2001a): Random set sampling with
non-responses. Rev. Mat. Est. S. Paulo, 19, 297-308, Bouza , C. N. (2002a): Estimation of the mean in ranked set
sampling with non-responses. Metrika, 56, 171-179.)
and the study of the gains in accuracy due to
this design when we deal with randomized mechanisms for reducing the response
bias in sensitive questions.
Titre : Some experiences with Simulated Annealing in the
solution of Statistical problems
Résumé : We present some
experiences in the solution of different optimization problems that arise in
Statistics. They are:
· Optimum Multivariate
stratification for maximizing the accuracy of estimation in sample surveys.Simulated annealing is used for constructing strata
that minimize a variance function and the different approaches used in this
study are presented (El. modelo de regresión lineal : algunas soluciones para su ajuste. IO,
20, & [1999]. 115-40., ; Optimum allocation
and weighting in stratified sampling using Stochastic Programming. RT 96-03
CESMA-USB.Venezuela.;. Model
selection of the convex combination of LS and LAV: a simulated anneeling approach. RT.96-09 CESMA-USB.Venezuela;
Multiple linear regression curve fitting: a quadratic programming solution.[1995] In Approximation & Optimization” P. Lang Verlag,
· The study of inventory
problems under random demandsSome applications of
heuristics for solving the determination of an optimal inventory policy when
random demands are present. The approach
suggested has been developed in a series of papers (Bounds of the expected appoximation error in optimal inventory policies. [1998],
3rd. International Conf. on Approximation and Optimization in the
· The solution of robust
regression fitting and variable selectionSimulated
annealing is used for solving problems related with the use of robust alternatives for LS
regression. It allows to
select variables without relying in the normality of the errors. The use
of statistical models for studying the behavior of
heuristics is also considered. Different
algorithms and computational
experiences are presented.
Séminaire Marin
Mersenne et Samos :
Vendredi 19 janvier
2007 à 11 heures : Annulé
Salle C2013, 20ème
étage
Université
Paris 1
Centre
90 rue
Sanjeeb Dash (Research Staff Member, New-York)
Mixed-integer
rounding cutting planes for integer programming problems
Résumé : Cutting planes, or
linear inequalities satisfied by all integral points in a polyhedron, are very
useful in solving integer programming problems. In this talk, we discuss two
aspects of the most important class of general cutting planes, namely
mixed-integer rounding (MIR) cutting planes. We describe recent results on the
separation problem for MIR cutting planes - given a point contained in a
polyhedron, test if there exists an MIR cutting plane
violated by this point or prove that none exists - and discuss their use in
solving integer programs. This is joint work with Oktay
Gunluk, and Andrea Lodi. An important aspect of MIR
cuts is the following: any integer program, and therefore any problem in NP,
can be solved by generating a sequence of MIR cuts. We show that exponentially
many MIR cuts are needed in the worst case.
Séminaire Samos (CES-Matisse)
:
Vendredi 15 décembre
2006 à 11 heures
Salle C2013, 20ème
étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
Jean-Marc Lasgouttes
(INRIA Roquencourt)
Processus de naissance et de mort sur
sur certains arbres aléatoires
Résumé : On
donne la classification et le taux de croissance d'une famille d'arbres
aléatoires. Dans le modèle de base, des feuilles sont ajoutées à l'arbre selon
un processus de Poisson (avec taux $\lambda$ à chaque noeud),
et retirées avec un taux $\mu$. Les résultats mettent en valeur le fameux
nombre $e$. Une classification complète du processus est donnée en fonction de
$\rho=\lambda/\mu$: il est ergodique si $\rho\leq e$ et transient
si $\rho>e$. Il y a donc un phénomène de
transition de phase :
la région usuelle de
récurrence nulle n'existe pas, ce qui est rare pour des chaînes de
Markov dénombrables avec des sauts exponentiellement distribués. On calcule
quelques lois stationnaires de grandeurs de base comme le volume de l'arbre ou
sa hauteur. On donne aussi différentes bornes, lois limite et théorèmes de type
ergodique pour les régimes ergodiques et transients.
Enfin, on étend une partie de ces résultats à un cas à plusieurs classes de noeuds.
Séminaire
Samos (CES-Matisse) :
Vendredi 1 décembre
2006 à 11 heures
Salle C2013, 20ème
étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
Carlo Gaetan
(Université de Venizia, Italie)
Spatio-temporal
modelling of epidemiological processes
Résumé : The aim of this
talk is to discuss the potential of the varying coefficient modelling approach
for tackling the modelling tasks typically encountered in epidemiology.
Epidemiological processes exhibit complicated behavior
over an extensive range of spatial and temporal scales of variability, giving
rise to complex dynamics. The usual statistical approaches try to simplify
complexity of such systems by setting up models which either ignore the
multivariate interaction, or assume spatial/temporal stationarity,
linearity, and Gaussianity. However, it is
increasingly the case that the scientific questions of interest are becoming
sufficiently complex that one can no longer justify such assumptions.To
address some of the issues raised by such problems, we shall describe the use
of regression models (not necessarily Gaussian) where where
the regression coefficients are allowed to change in space or in time. We will
discuss an parameter-driven approach through latent
Gaussian Markov random fields. In the last stage the hierarchical model is
completed by specifying a prior distribution for the hyperparameters.
Bayesian inference is approximated by drawing samples from the posterior
distribution by means of an MCMC algorithm. The resulting models are very
powerful in that relatively simple spatial and temporal dependence assigned to subprocesses and parameters can lead to very complicated
joint spatio-temporal dependence. Results are illustrated with a real dataset.
Jeudi 23 et Vendredi
24 novembre 2006
Journées Modélisation Spatio-Temporelle sur Graphe et Approximation
http://carlit.toulouse.inra.fr/MSTGA/
Jeudi et vendredi
matin : Salle C2204, 22ième étage
Vendredi après
midi : Salle C2013, 20ième étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
Séminaire
Samos (CES-Matisse) :
Vendredi 10 novembre
2006 à 11 heures
Salle C2013, 20ème
étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
Olivier Wintenberger (Université
Paris 1)
Estimation adaptative de la densité
pour des observations dépendantes
Résumé :
Nous étudions la convergence de l'estimateur par ondelettes à seuillage dur
au-delà du cadre classique de données iid. Pour cela,
nous introduisons un paramètre $\gamma$ dans le niveau de seuillage. Ce degré
de liberté supplémentaire permet de prendre en compte des données dépendantes
pour lesquelles il existe des versions affaiblies de l'inégalité de Bernstein
classique. Le paramètre $\gamma$ optimal dépend de la dépendance des
observations. Nous proposons de l'estimer par Cross-Validation. Des résultats
numériques sont donnés à partir de simulations. (En collaboration avec Irène Gannaz).
Séminaire
Samos (CES-Matisse) :
Vendredi 20 octobre
2006 à 11 heures
Salle C2013, 20ème
étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
Aurélien Garivier
(Université Paris 11),
Approche MDL pour les chaînes de Markov cachées à
émission gaussienne ou poissonnienne. Application à
l'identification d'ordre.
Résumé : La
théorie de l'information, en fournissant un critère objectif de longueur de code
pour un message donné, permet de donner un sens concret au précepte MDL :
"Choisis le modèle qui donne la plus courte description des
données."Après avoir rappelé quelques notions de théorie du codage qui
motivent ces travaux, nous montrerons ici comment des inégalités de mélange
(analogues à celles qui sont utilisés pour la compression) peuvent être
prouvées pour les chaînes de Markov cachées à émission dans un alphabet infini,
et nous montrerons comment elles conduisent à des estimateurs d'ordre consistants.
Séminaire Marin
Mersenne et Samos :
Vendredi 13 octobre
2006 à 11 heures
Salle C-20-13, 20ème
étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
Jean-Michel Poggi (Université Paris
11-Orsay et Paris 5)
Boosting
Itéré pour
Résumé : Une procédure de
détection de valeurs aberrantes dans les problèmes de régression est proposée.
Basée sur l'information fournie par le boosting d'arbres
de régression CART, l'idée maîtresse consiste à sélectionner l'observation la
plus fréquemment rééchantillonnée au cours des
itérations du boosting puis de recommencer après
l'avoir retirée. Le critère de sélection est basée sur l'application de l'inégalité
de Tchebychev au maximum, au cours des itérations du boosting,
du nombre moyen d'apparitions dans les échantillons bootstrap.
En particulier, la procédure ne fait pas d'hypothèse sur la distribution du
bruit et sélectionne les valeurs aberrantes comme des observations
particulièrement difficiles à prévoir. On considère un grand nombre de jeux de
données réelles ou artificielles et une étude comparative avec des méthodes
éprouvées en montre l'intérêt.
Cet exposé est issu de :
- Cheze N., Poggi J-M.,
"Outlier Detection by Boosting Regression Trees", Preprint Orsay, 2005-17, 23 p.
- Cheze N., Poggi
J-M., "Iterated boosting for outlier
detection", Data Science and Classification, Proceedings IFCS06,
Springer, 213-221, 2006
Séminaire
Samos :
Vendredi 23 juin
2006 à 11 heures
Salle C2204, 22ème
étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
Zahra Hamou Mamar (LIMOS, Université Clermont-Ferrand II)
Représentation temps-échelle pour la surveillance
préventive du système du guidage d’un tramway sur pneumatiques «le Translohr»
Résumé : Un
tramway sur pneus de type Translohr est guidé par un
rail central unique. Les pièces essentielles du système de guidage sont des
galets qui assurent le contact avec le rail. L'usure des galets peut être à
l’ origine de vibrations génératrices de bruits audibles. Nous
travaillons à partir de signaux vibratoires issus d’accéléromètres fixés
sur la semelle du rail et qui enregistrent les vibrations du rail provoquées
par les galets lors du passage du tramway. A partir des signaux vibratoires, le
système de diagnostic doit à la fois localiser les galets endommagés et
identifier la nature de leur usure, ce qui nécessite une information à la fois
temporelle et fréquentielle. Pour avoir une information temps-fréquence, nous
avons utilisé la représentation temps-échelle grâce à une transformée en
ondelettes continue. Nous présentons les différents traitements effectués sur
le signal vibratoire: l'application de la transformée en ondelettes continue en
donnant quelques définitions théoriques, le découpage temporel ainsi que le
découpage fréquentiel pour récupérer la matrice des coefficients
d’ondelettes correspondante à chaque galet. L'identification de
l’état d’un galet (neuf, usé) devient alors une tâche de
classification.
Séminaire
Samos :
Vendredi 16 juin
2006 à 11 heures
Salle C2204, 22ème
étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
Istvan Gyongy (
Cauchy problems
with periodic controls
Résumé : The talk is based
on a recent joint work with N.V. Krylov. A parametrized family of Cauchy problems is considered for linear
evolution equations in Banach spaces. For the
solutions an expansion in powers of the parameter is obtained. Applications to
numerical solutions of a large class of PDEs and
(nonlinear) ODEs are presented. In particular, it is
shown that the order of accuracy of finite difference and splitting-up
approximations can be made as high as wanted by an implementation of
Séminaire
Samos :
Vendredi 9 juin 2006
à 11 heures
Salle C2204, 22ème
étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
Paul Doukhan (CREST et Samos-Matisse)
Dépendance faible, modèles et
quelques utilisations
Résumé :
Revenant sur les notions de dépendance faible introduites avec Sana Louhichi en 1999, nous présentons quelques modèles de
séries chronologiques stationnaires et non linéaires qui semblent nouveaux.
Leurs propriétés de dépendance faible sont examinées. Des applications de la
méthode de Lindeberg sont alors envisagées dans ce
cadre.
Séminaire
Samos :
Vendredi 2 juin 2006
à 11 heures
Salle C2204, 22ème
étage
Université
Paris 1
Centre Pierre Mendes
France,
90
rue de Tolbiac, 75013 Paris
Joseph Rynkiewicz (Université Paris
1, Samos-Matisse)
Identification de l'architecture de
perceptrons multicouches
Abstract : On considère des modèles de régression impliquant des
perceptrons multicouches (MLP) avec une couche cachée et un bruit gaussien. On
suppose ici qu'il existe un vrai modèle MLP qui a généré les observations.
L'estimation des paramètres du MLP peut être faite en maximisant la
vraisemblance du modèle. Dans ce cadre, il est difficile de déterminer le vrai
nombre d'unités cachées parce que la matrice d'information de Fisher n'est pas
inversible si ce nombre est surestimé. Ainsi, si les paramètres du MLP ne sont
pas bornés à priori, Fukumizu (Annals
of stat. 2003) a montré que la statistique du rapport de vraisemblance tendait
vers l'infini. Cependant, il est courant de supposer que les paramètres du
modèle sont bornés. Dans ce cadre en utilisant des techniques introduites
notamment par E. Gassiat, nous montrons que la
statistique du rapport de vraisemblance est tendue. Ainsi, un critère
d'information convenablement choisi, comme le BIC, est consistant, c'est-à-dire
qu'il conduit asymptotiquement à choisir le modèle avec la bonne architecture.
Séminaire
Samos :
Vendredi 19 mai 2006
à 11 heures
Salle
C2204, 22ème étage
Université
Paris 1
Centre
Pierre Mendes France,
90
rue de Tolbiac, 75013 Paris
Richard Emilion (Université d'Orléans)
Distributions
aléatoires en analyse d'images (Random distributions
in image analysis)
Abstract : Une distribution aléatoire est une variable aléatoire
dont chaque valeur est une mesure de probabilité. Deux exemples : le processus de Dirichlet et
celui de Kraft, ce dernier étant une ondelette de Haar
à coefficients aléatoires. Nous proposons un modèle hiérarchique en images plus
riche que les modèles habituels : on part d'un mélange de distributions
aléatoires, chacune des composantes du mélange correspond à une zone bien
spécifique de l'image et génère des densités qui à leur tour génère les pixels.
On propose une méthode d'estimation de tels modèles ainsi qu'un algorithme de
segmentation expérimentée sur une image d'empreinte digitale.
Travail
en collaboration avec Denis Pasquignon.
Séminaire Marin
Mersenne et Samos :
Vendredi 7 avril 2006
à 12 heures
Université
Paris 1
MSE
Maison
des Sciences Economiques
106-112
Bld de l’Hopital,
75013 Paris
(métro Campo-Formio ou Place
d’Italie)
Salle 314
Annick Lesne (LPTMC, Université Paris 6)
Dynamique de réseaux complexes:
approximation de champ moyen et équations de corrélations
Abstract : La dynamique d'éléments couplés a été abondamment
étudiée dans deux situations extrêmes: celle où le réseau d'interaction est une
grille régulière, les éléments étant alors couplés uniquement à leurs proches
voisins, et celle ou au contraire tous les éléments sont couplés les uns aux
autres. Peu d'études ont par contre été menées dans le cas, pourtant réaliste,
où le réseau d'interaction présente une grande hétérogénéité dans sa
connectivité, par exemple une distribution des degrés en loi de puissance
(`réseaux sans degré caractéristique' , `scale-free'
en anglais). Sur l'exemple d'un réseau d'éléments excitables (modélisant par exemple
un réseau de neurones) je présenterai comment il est possible d'adapter les
méthodes de `champ moyen' (approximation de découplage) de la physique
statistique pour prendre en compte la distribution hétérogène des degrés. Une
approximation moins brutale consiste ensuite à décrire l'évolution des
corrélations de paire. On peut en fait écrire toute une hiérarchie d'équations
de corrélation, que l'on tronque au niveau d'approximation le plus adéquat.
Séminaire
Samos :
Vendredi 31 mars
2006 à 12 heures
Université
Paris 1
MSE
Maison
des Sciences Economiques
106-112
Bld de l’Hopital,
75013 Paris
(métro Campo-Formio ou Place
d’Italie)
Salle 314
Donatas SURGAILIS (membre de l'Académie des Sciences de Lituanie)
Time-varying fractionnally integrated processes
with discrete and continuous argument
Abstract
:
Extending the works Philippe et al.
(2005, 2006) on time-varying fractionally integrated operators $ A({\bf d}), B({\bf d}) $ with discrete
argument depending on an arbitrary sequence
${\bf d} = (d_t, t \in {\Z}) $ of real numbers, we
introduce nonhomogenous generalizations $I^{\alpha
(·)} $ and $D^{\alpha (·)} $ of the Liouville
fractional integral and derivative operators on the real line, where $\alpha
(u), u\in {\R} $ a general function taking values in $(0,1)$ and satisfying
some regularity conditions. The proof of $D^{\alpha
(·)} I^{\alpha (·)}f = f$ relies on a surprising integral identity. We also
discuss small and large scale limits of white noise integrals $X_t = \int_0^t (I^{\alpha (·)}
\dot B)(s) {\d}s $ and $Y_t = \int_0^t (D^{\alpha (·)} \dot B)(s) {\d}s $. In the
second part of the talk we extend the results of Philippe et al. (2005, 2006) on discrete time
filtered processes $A({\bf d}) \veps_t$ and $B({\bf d}) \veps_t
$ in two directions: (1) when ${\bf d} = (d_t, t \in
{\Z}) $ is deterministic and almost periodic at $+\infty
$ and $-\infty$, and (2) when ${\bf d} = (d_t, t \in {\Z}) $ is
random i.i.d.
Part of the results
were obtained in collaboration with Anne Philippe, Marie-Claude Viano, Paul Doukhan, Gabriel
Lang, Kristina Bruzaite and Marijus
Vaiciulis.
Séminaire
Samos :
Vendredi 24 mars
2006 à 12 heures
Université
Paris 1
MSE
Maison
des Sciences Economiques
106-112
Bld de l’Hopital,
75013 Paris
(métro Campo-Formio ou Place
d’Italie)
Salle 314
Donatas SURGAILIS (membre de l'Académie des Sciences de Lituanie)
Random coefficient AR(1) process with
heavy-tailed renewal-switching coefficient and heavy-tailed noise
Abstract: We discuss limit behavior of the partial sums process of stationary solution
of AR(1) equation $X_t = a_t
X_{t-1} + \veps_t$, with random (renewal-reward)
coefficient $a_t$, taking iid\
values $A_j \in [0,1]$ on consecutive intervals of a
stationary renewal process with heavy-tailed interrenewal
distribution, and with iid\ innovations $\veps_t$ belonging to the domain of attraction of an
$\alpha-$stable law $(0<\alpha\le 2,\alpha \ne
1)$. Under suitable conditions on the tail parameter of the interrenewal
distribution and the singularity parameter of the distribution of $A_j$ near unit root $a=1$, we show that the partial sums
process of $X_t$ converges to a $\lambda-$stable Lévy process with index $\lambda<\alpha$. The paper
extends the result of Leipus and Surgailis
(2003) from finite variance to infinite variance $X_t$.
Séminaire
Samos :
Vendredi 17 mars
2006 à 11 heures
Université
Paris 1
90
rue de Tolbiac, 75013 Paris
Salle C15-02, 15ème étage
Thomas Villmann (Université de Leipzig)
Information optimum vector quantization
Abstract: Information
optimum data processing is an important task in data analysis and data mining.
We consider actual approaches for information optimal vector quantization.
These approaches include methods which optimize information theoretic measures
like Kullback-Leibler-divergence directly. Further,
we show that for neural vector quantizer like
self-organizing maps (SOMs) and neural gas (NG)
information optimal data processing is possible by magnification control.
Thereby, magnification is a property of the vector quantizer
which is closely related to the description error by the law discovered by Zador. The effect of information control is demonstrated
for several examples.
Séminaire
Samos :
Vendredi 10 mars
2006 à 11 heures
Université
Paris 1
90
rue de Tolbiac, 75013 Paris
Salle C15-02, 15ème étage
Thomas Villmann (Université de Leipzig)
Prototype based fuzzy classification
Abstract: Classification is
an important field in data analysis. Prototype based methods like learning
vector quantization (LVQ) and other provide an intuitive method which allows an
understanding of the classification scheme, in contrast to multilayer perceptrons (MLPs) which work as
a black box. Further, crisp classification some times in
inadequate or impossble. Here fuzzy methods
can help. We introduce extensions for supervised learning to the originally
unsupervised prototype based neural vector quantizer
self-organizing map (SOM) and neural gas (NG). Both approaches utilize
neighbourhood cooperativness for improved convergence
which is preserved in the supervised scheme, too. We demonstrate the approach
for several examples including real world applications in bioinformatics.
Séminaire
Samos :
Vendredi 3 mars 2006
de 12 heures à 14 heures
Maison des Sciences
Economiques
Université Paris 1
106-112 Bld de l’Hopital, 75013
Paris
Métro Campo-Formio, Métro 5
Salle 314, 3ième
étage
Thomas Villmann (Université de Leipzig)
Application of topology preserving mapping using SOMs
for medical data analysis
Abstract: Neural Maps are
special artificial neural networks which are adapted from the cortex in real
brains. The cortex processes the sensoric information
at a first level. Thereby, the information flow is optimized by data driven
adaptation of the several cortex areas responsible for different stimuli.
Neural maps transfer these functional views into a technical context of
artificial neural networks for data mining and representation. We will consider
several properties and variants of neural maps for faithful data analysis. In
particular we will concentrate on the self-organizing map model (SOM), which
generates under certain conditions a topology preserving map, i.e. a
low-dimensional representation of high- dimensional data can be achieved. We
discuss useful extensions of the basic SOM, such as growing variants and
information optimum coding for faithful data modeling.
We provide tools to assess the quality of topology preservation of the map,
which is necessary for correct interpretation. The highlighted features are
presented in the context of data analysis and visualization in medical
application, ranging from psychotherapy process data to genomic profiling.
Séminaire co-organisé
par les équipes Marin Mersenne et Samos
Mathématiques des
Systèmes Complexes
(en liaison
avec l'Institut de
Vendredi 24 février
2006 à 11h00
Université
Paris 1
90
rue de Tolbiac, 75013 Paris
Salle C15-02, 15ème étage
Annick Lesne (LPTMC, Université Paris 6),
Dynamique de réseaux
complexes:
approximation
de champ moyen et équations de corrélations
Résumé : La dynamique d'éléments couplés a été abondamment
étudiée dans deux situations extrêmes: celle où le réseau d'interaction est
une grille régulière, les éléments étant alors couplés uniquement à leurs
proches voisins, et celle ou au contraire tous les éléments sont couplés les
uns aux autres. Peu d'études ont par contre été menées dans le cas, pourtant
réaliste, où le réseau d'interaction présente une grande hétérogénéité dans sa
connectivité, par exemple une distribution des degrés en loi de puissance
(`réseaux sans degré caractéristique' , `scale-free'
en anglais). Sur l'exemple d'un réseau d'éléments excitables (modélisant par
exemple un réseau de neurones) je présenterai comment il est possible d'adapter
les méthodes de `champ moyen' (approximation de découplage) de la physique
statistique pour prendre en compte la distribution hétérogène des degrés. Une
approximation moins brutale consiste ensuite à décrire l'évolution des
corrélations de paire. On peut en fait écrire toute une hiérarchie d'équations
de corrélation, que l'on tronque au niveau d'approximation le plus adéquat.
Séminaire co-organisé
par les équipes Marin Mersenne et Samos
Mathématiques des
Systèmes Complexes
(en liaison
avec l'Institut de
Vendredi 6 janvier
2005 à 11h00
Université
Paris 1
90
rue de Tolbiac, 75013 Paris
Salle C22-04 (Salle des Thèses), 22ème étage
Jean-Luc Schwartz
(CNRS, I.N.P. Grenoble)
La parole naissant des
interactions perceptuo-motrices :
cadre
théorique, données expérimentales et éléments de modélisation computationnelle
Résumé : Il s'agira de tenter de montrer que c'est au sein des interactions perceptuo-motrices que se construit la parole, ses processus, ses représentations, au cours du développement ; dans ces interactions que la parole s'est bricolée au cours de l'évolution ; dans ces interactions que le chercheur trouvera le cadre adéquat pour comprendre et modéliser les processus de communication orale. Il s'agit donc de mettre au net, le mieux possible, les contraintes et capacités de production et de perception ainsi que les mécanismes développementaux de co-maturation de ces deux systèmes, et de tenter d'intégrer cet ensemble au sein d'un scénario évolutionniste.
Séminaire Samos :
Vendredi 9 décembre
2005 à 11h00
Université
Paris 1
90
rue de Tolbiac, 75013 Paris
Salle C22-04 (Salle des Thèses), 22ème étage
Szymon
Peszat (Université de Cracovie et Paris 13)
Régularité de
convolutions stochastiques
Résumé : La notion de convolution stochastique apparaît en
dimension infinie dans la formulation de type semi-groupe ("mild") des solutions d'EDP stochastiques
semi-linéaires; en dimension finie, elle est présente dans les modèles de taux
court pour les mathématiques financières. L'exposé portera en grande partie sur
la régularité en temps (continuité, existence de versions càdlàg)
des trajectoires.
Séminaire co-organisé
par les équipes Marin Mersenne et Samos
Mathématiques des
Systèmes Complexes
(en liaison
avec l'Institut de
Vendredi 25 novembre
2005 à 11h00
Université
Paris 1
90
rue de Tolbiac, 75013 Paris
Salle C22-04 (Salle des Thèses), 22ème étage
Paul Bourgine (CREA, Ecole Polytechnique)
Reconstruction des
dynamiques des systèmes complexes
SAMOS (Statistique Appliquée et MOdélisation Stochastique) et Marin Mersenne
Université Paris 1