Séminaire du SAMM

On trouvera ci-dessous les annonces du Séminaire SAMM : Statistique, Analyse et Modélisation Multidisciplinaire qui a lieu (sauf exception) au Centre PMF de l’Université Paris 1, 90, rue de Tolbiac, 75013 Paris, salle C2013, 20ème étage (ascenseurs rouges), les vendredis à 11h30.

Certaines séances sont organisées conjointement avec le CAMS (CNRS / EHESS).

La liste et les résumés des séminaires d’avant 2012 sont disponibles ici.


Philippe Naveau (CEA), le 17 mars 2023 à 11h30

Evaluation of binary classifiers for environmental extremes
Co-auteurs : Juliette Legrand1 and Marco Oesting2
Résumé : Machine learning classification methods usually assume that all possible classes are sufficiently present within the training set. Due to their inherent rarities, extreme events are always under-represented and classifiers tailored for predicting extremes need to be carefully designed to handle this under-representation. In this talk, we address the question of how to (...)

François-Xavier Vialard (UPEM), le 17 février 2023 à 11h30

Around the Gromov-Wasserstein problem.
Résumé : Après une introduction au problème de Gromov-Wasserstein (GW) qui fournit une distance entre espaces métriques mesurés, on présentera deux types de contributions. La première est l’étude de l’existence d’application optimale à la Brenier pour le problème de GW dans le cas de deux coût particuliers sur l’espace euclidien. Dans un cas, il y a toujours existence d’applications optimales qui ont une structure particulière et dans l’autre cas, on montre un (...)

Laetitia Della Maestra (De Vinci), le 3 février 2023, à 11h30

Laetitia Della Maestra : Estimation non-paramétrique pour un système de particules en interaction de champ moyen et son équation limite de type McKean-Vlasov.
Dans ce travail, effectué en collaboration avec Marc Hoffmann dans le cadre de ma thèse sous sa direction, nous avons proposé un estimateur à noyau de la solution d’une EDS de type McKean-Vlasov (MKV) via la mesure empirique du système de particules en interaction (IPS) de champ moyen associé.
Nous avons ensuite établi une inégalité de (...)

Florian LALANDE (Okinawa) le 20 janvier 2023 à 11h30

Numerical data imputation algorithms consist in replacing missing values by estimates to allow extensive use of incomplete datasets. Current imputation methods seek to minimize the error between the unobserved ground truth and the imputed values. We will see how this strategy can create artifacts leading to poor imputation in the presence of multimodal distributions. To tackle this problem, we introduce the kNNxKDE algorithm : a hybrid method tailored for numerical data imputation using (...)

Etienne Roquain (Sorbonne Univ.), le 13 janvier 2023 à 11h30

Classical false discovery rate (FDR) controlling procedures offer strong and interpretable guarantees but often lack flexibility to work with complex data. By contrast, machine learning-based classification algorithms have superior performances on modern datasets but typically fall short of error-controlling guarantees. In this paper, we make these two meet by introducing a new adaptive novelty detection procedure with FDR control, called AdaDetect. We illustrate our approach with (...)

Nicolas Marie (Nanterre), le 6 janvier 2023, à 11h30

Nicolas Marie (Nanterre, Modal’X). De la régression non-paramétrique à la statistique des diffusions non-ergodiques.
Résumé : L’objectif de cet exposé est de présenter, en général, une approche récente de l’estimation dans les équations différentielles stochastiques basée sur des copies de la solution, puis de présenter des résultats sur un estimateur non-paramétrique en particulier ; l’estimateur des moindres carrés en projection de la fonction de (...)

Maxime Laborde (Paris Cité), le 16 décembre 2022, à 11h30

Maxime Laborde, Université Paris Cité : Wasserstein gradient flow of optimal transport problems : Application to city dynamics
Résumé : In 1998, Jordan, Kinderlehrer and Otto introduced gradient flows in the Wasserstein space to prove existence and uniqueness of parabolic equations under very weak assumptions on the initial condition. In this talk, we show that this method provides a good framework to study well-posedness and the long time behavior of systems of parabolic equations coupled via (...)

Noufel Frikha (CES), le 2 décembre 2022, à 11h30

Equations différentielles stochastiques de McKean-Vlasov, EDP de Kolmogorov sur l’espace de Wasserstein et quelques estimées quantitatives pour la propagation du chaos.
Résumé : Dans cette présentation, j’exposerai quelques résultats récents sur le caractère bien posé d’EDS non-linéaire au sens de McKean-Vlasov, sous des hypothèses de régularité sur les coefficients plus faibles que celles issues de la théorie Cauchy-Lipschitz. Un point important est le phénomène de régularisation par le bruit sur l’espace (...)

Jonas Tölle (Aalto University), vendredi 25 novembre 2022, à 11h30

Jonas Tölle, Variability of paths and differential equations with BV-coefficients
Abstract :
In stochastic analysis, it is well-established to interpret stochastic differential equations (SDEs) in integrated form, a viewpoint conceptually strongly related to the distributional formulation of partial differential equations. However, there are many situations, where even the concept of the integral is subtle. Several powerful theories have emerged to treat these situations, such as rough (...)

Xavier BACON (thèse au SAMM et ATER au CEREMADE) vendredi 21 octobre à 11h30

In this talk I will present a spatial Pareto maximization problem which takes transport costs into account. The existence of an integrable equilibrium distribution of goods is non trivial and will be presented. Duality techniques will help us to establish a strong duality result which can be interpreted in economics terms. Finally, I will discuss numerical simulations and present an algorithm à la Sinkhorn. This is a joint work with Guillaume Carlier and Bruno (...)

Luca Nenna (Université Paris-Saclay), le 14 octobre 2022, à 11h30

Luca Nenna (Université Paris-Saclay) : Risk management via optimal transport.
Abstract : In a variety of problems in operations research, a variable of interest $b=b(x_1,x_2,\dots,x_d)$ depends on several underlying random variables, whose individual distributions are known but whose joint distribution is not. A natural example arises in finance, when one considers the payout of a derivative depending on several underlying assets. An estimate of the distribution of the asset values (...)

Ayoub BELHADJI (Postdoc ENS Lyon), le 7 octobre 2022 à 11h30

Subsampling is the cornerstone of approximation theory. This paradigm has many applications in data analysis, signal processing, machine learning, and statistics. Recently, many works tackled the use of kernel-based approximations in these fields. In a nutshell, a kernel-based approximation requires the definition of nodes and weights, and it is up to the practitioner to design their configuration. We study two settings where the choice of the design is crucial to obtain good reconstruction (...)

Dasha Loukianova, Evry, le 30 septembre 2022 à 11h30

Théorème ergodique « en loi » pour l’environnement vu de la particule.
Abtract : Pour la marche aléatoire en milieu aléatoire de Sinaï nous montrons que la mesure empirique de l’environnement vu de la particule (\bar \omega_k) converge en loi vers une certaine mesure aléatoire.
Comme conséquence nous avons le théorème érgodique « en loi » pour les fonctionnelles additives de la chaîne de l’environnement vu de la particule, permettant de trouver les limites en distribution de
$1/n\ sum_k=0^n (...)

Guilherme Ost (IM-UFRJ, Rio de Janeiro), le 3 juin 2022

Sparse Markov Models for High-Dimensional Inference
Abstract : Consider a sample of size n of a finite order Markov chain. In this full generality, we can only estimate the parameters of the Markov chain (the order d and the transition probabilities) in the regime d=O(log (n)), limiting the practical application of these chains to small orders only. In this talk, we will discuss a way to overcome this constraint in a large subclass of Markov chains, namely the Mixture of Transition (...)

James Larrouy (Université des Antilles), le 27 mai 2022, à 11h30

Titre (Français) : Quand l’(ω,c)-pseudo presque périodicité rencontre la théorie de la mesure.
Abstract : Dans ces travaux, nous introduisons une nouvelle classe de fonctions appelée μ-(ω,c)-pseudo presque périodiques. Via la Théorie de la Mesure, nous généralisons certains travaux récents et étudions les propriétés de cette nouvelle classe de fonctions incluant deux nouveaux théorèmes de composition qui jouent un rôle crucial quand il s’agit d’établir l’existence de solutions μ-(ω,c)-pseudo presque (...)

Vincent Rivoirard (Dauphine), le 13 mai 2022 à 11h30

Bien que l’utilisation des estimateurs à noyau soit très répandue, la sélection du paramètre de lissage (la fenêtre) demeure un défi pour combiner à la fois efficacité algorithmique et pertinence statistique. En particulier, les performances théoriques et numériques de ces estimateurs dépendent fortement de la calibration des hyperparamètres, autrement dit des constantes qui interviennent dans la fenêtre. Dans le cadre de l’estimation de densité multivariée, l’objectif de cet exposé est de présenter (pour (...)

Guillaume CARLIER (CEREMADE), le 22 avril à 11h30

Inégalité de Fenchel-Young avec reste et applications
Résumé : Dans cet exposé je commencerai par donner une inégalité de Fenchel-Young quantitative dans le cadre Hilbertien puis j’en donnerai trois applications. La première est une démonstration élémentaire et constructive du théorème de Bronstend-Rockafellar dans le cadre Hilbertien. La seconde concerne un résultat d’existence de solutions primales et duales pour des perturbations de problèmes convexes en dualité. Enfin, je donnerai un résultat de (...)

Bruno Nazaret (SAMM), le 8 avril 2022, à 11h30

Stabilité dans les inégalités de Gagliardo-Nirenberg-Sobolev.
Résumé : Après une brève introduction consacrée aux inégalités
fonctionnelles dans les espaces de Sobolev, je montrerai comment
exploiter les méthodes d’entropie dans l’analyse d’équations de
diffusion non linéaires pour obtenir des estimations de stabilité
constructives pour certaines d’entre elles.

Alice Le Brigant (SAMM), vendredi 1er avril 2022 à 11h30

La géométrie riemannienne fournit un cadre adapté pour généraliser les statistiques usuelles à des objets qui n’appartiennent pas à un espace vectoriel. Nous verrons comment munir l’ensemble des lois de Dirichlet d’une structure de variété riemanienne et comment utiliser cette géométrie pour faire du clustering d’histogrammes.

Emilien Manent (ENS Rennes), le 25 mars 2022, à 11h30

Propriétés probabilistes du processus spatial de birth-death-move.
Résumé :Les processus spatiaux de naissance et de mort, introduits par Preston (1975), sont des processus de sauts à temps continu qui permettent de modéliser le moment et le lieu de chaque naissance dans une population, ainsi que le moment de la mort de chaque individu existant. Cependant, les individus de ce processus ne peuvent pas se déplacer au cours de leur vie, ce qui limite les applications à des phénomènes réalistes en (...)

Abdellatif Jouini, le 18 mars 2022, à 11h30.

Wavelet bases on bounded domains and applications.
Résumé : The object of this work is to construct on bounded domains multiresolution analyses and associated wavelet bases which are regular and are adapted to scale. These bases are easy to implement and allow the study of some functional spaces (Lp, Hs...).

Guillemette MAROT (MCF, Univ. de Lille), le 11 mars 2022 à 11h30

Despite the number of algorithms developed to inform clinical care, there has been no evidence that scores are routinely used in practice. This talk will present the main steps to build a score for clinical practice. Then, it will focus on a use case to predict heart failure after myocardial infarction from proteomic data. The analysis of the dataset presents two main challenges : 1) high dimension with much more variables than individuals 2) repeated measurements (4 timepoints). Some (...)

Michel Davydov (INRIA Paris), le 25 février 2022, 11h30

Replica mean-field limits of fragmentation-interaction-aggregation processes
Résumé :
Network dynamics with point-process-based interactions are of paramount modeling interest. Unfortunately, most relevant dynamics involve complex graphs of interactions for which an exact computational treatment is impossible. To circumvent this difficulty, the replica-mean-field approach focuses on randomly interacting replicas of the networks of interest. In the limit of an infinite number of replicas, (...)

Fabienne COMTE (MAP5), 4 février à 11h30

In a regression model, we write the Nadaraya-Watson estimator of the regression function as the quotient of two kernel estimators, and propose a bandwidth selection method for both the numerator and the denominator based on the new PCO strategy. We prove risk bounds for both data driven estimators and for the resulting ratio. The simulation study confirms that both estimators have good performances, compared to the ones obtained by cross-validation selection of the bandwidth. However, (...)

Yoan TARDY (LPSM), le 28 janvier 2022, 11h30

Collisions du système de particules de Keller-Segel surcritique.
Nous étudions un système de particules naturellement associé à l’équation de Keller-Segel 2-D. Il est constitué de N particules browniennes dans le plan, interagissant par une attraction en 1/r, où r représente la distance entre deux particules. Lorsque l’intensité de cette attraction, qui est un paramètre de l’équation, est supérieure à 2, ce système de particules explose en temps fini. Nous étudions en détail ce qu’il se passe à proximité (...)

Branda Goncalves (LPTM Cergy et SAMM), le 21 janvier 2022

Un réseau de neurones en interaction avec inhibition : analyse théorique et simulation parfaite
Nous étudions un modèle de réseau de neurones purement inhibiteur où les neurones sont représentés par leur état d’inhibition. L’étude que nous présentons ici est partiellement basée sur les travaux de Cottrell [1] et Fricker et al. [2] où le taux de spike d’un neurone ne dépend que de son état d’inhibition. Nous trouvons une condition locale de Doeblin qui implique l’existence d’une mesure invariante pour le (...)

Claire Brécheteau, vendredi 14 janvier 2022,11h30

Je vais introduire des substituts pour la fonction distance au support d’une mesure, dont les sous-niveaux sont des unions de boules ou des unions d’ellipsoïdes. J’énoncerai plusieurs résultats. En particulier, je parlerai des vitesses d’approximation de ces substituts par leurs versions empiriques, construites à partir d’échantillons de points. J’expliquerai aussi comment mettre à profit de tels estimateurs pour partitionner des données qui ont une structure géométrique particulière. Les résultats (...)

Pierre Gabriel (Versailles) le 17 décembre 2021 à 11h30

Ergodicité des semi-groupes positifs et applications en EDP
Nous présenterons des résultats de contraction pour des opérateurs
positifs, dont les preuves reposent sur des méthodes d’inspiration
probabiliste. Nous verrons comment en découle l’ergodicité de
semi-groupes positifs, puis comment cela permet d’obtenir des résultats
nouveaux sur le comportement en temps long de certaines équations aux
dérivées partielles qui apparaissent en dynamique des (...)

Cristina BUTUCEA (CREST-ENSAE), 3 décembre 2021 à 11H30

Local differential privacy has prevailed as the most convenient formalism to randomize sensitive data via privacy mechanisms (that are Markov kernels) submitted to some constraints. We address the problem of support recovery of the sparse mean of a $d-$dimensional Gaussian vector, observed independently $n$ times, under the additional constraints that we have to produce and use only $\alpha-$locally differentially private data for inference. We provide lower and upper bounds on the rate of (...)

Laurent Mazliak (LPSM) le 26 Novembre 2021 à 11H30

Quelques éléments sur Borel et la théorie des jeux

Nicolas Grislain (Sarus Techno.) 19 Novembre 2021 à 11H30

L’intensification de la collecte de données et la montée en puissance des outils pour les traiter fondent la promesse de nombreux progrès dans la gestion des transports, de l’énergie, la finance ou la santé.
Ces nouveaux moyens rendent toutefois les questions du respect de la vie privée et de la protection des données personnelles d’autant plus importantes.
Sarus Technologies développe des outils pour travailler sur de la donnée lorsque celle ci n’est pas accessible pour des raisons de (...)

Haifa Ben Fredj, le 12 novembre 2021 (Ecole Supérieure des sciences et de Technologie de Hammam Sousse (ESSTHS))

Etude qualitative et numérique des systèmes différentiels modélisant la Covid 19

Aurélien Bellet (Inria Lille) le 22 octobre 2021 à 11h30

Personal data is being collected at an unprecedented scale by businesses and public organizations, driven by the progress of data science and AI. While such data can be turned into useful knowledge about the global population by computing aggregate statistics or training machine learning models, this can also lead to undesirable (sometimes catastrophic) disclosure of sensitive information. We must therefore deal with two conflicting objectives : maximizing the utility of data while (...)

Laetitia Colombani (Toulouse), 15 octobre 2021 à 11h30

Résumé :
Les processus de Hawkes sont des processus stochastiques étudiés depuis les années 70. Ils ont d’abord modélisé l’apparition des séismes et de leurs répliques et sont maintenant utilisés en finance et en neuroscience. Les processus de Hawkes dits linéaires et « auto-excitants » ont été particulièrement étudiés ces dernières décennies et de nombreux résultats asymptotiques sont connus.
Je présenterai ici mon travail sur des processus (non-linéaires) « auto-inhibants » (ou mixtes). Ces derniers (...)

Nicolas Guigui (thèse, Inria) le 1er octobre 2021 à 11h30

L’étude de la forme anatomique et du mouvement est au cœur des préoccupations en cardiologie, où des pathologies telles que l’arythmie ou l’hypertension pulmonaire entraînent des anomalies, telles qu’une contraction plus lente ou le grossissement du myocarde, et dont la caractérisation en forme, et en déformation permet d’évaluer la gravité de la maladie ou l’impact d’un traitement. Cette caractérisation nécessite un cadre mathématique prenant en compte les non-linéarités et les invariances propres aux (...)

Robin Genuer (Univ. Bordeaux) le 8 octobre 2021 11h30

Random forests are a statistical learning method widely used in many areas of scientific research essentially for its ability to learn complex relationships between input and output variables and also its capacity to handle high-dimensional data. However, current random forest approaches are not flexible enough to handle heterogeneous data such as curves, images and shapes. In this talk, we present Fréchet trees and Fréchet random forests, which allow to manage data for which input and output (...)

Fabien Navarro, Univ. Paris 1 le 24 septembre 2021 à 11h30

Graph signal processing focuses on extending the theory and methodologies of standard signal processing to signals defined on the vertices of a graph. Increasingly popular because of the flexibility of the underlying structure, this research area can be applied in many contexts (such as telecommunications networks, social networks, organic chemistry, or neurology). In this talk, we consider the case of signal denoising on graphs. The proposed methodology consists in applying a data-driven (...)

Emmanuelle Clément (Univ. Gustave Eiffel Marne la Vallée) le 11 juin 2021 à 11h30

Titre : Approximation en variation totale d’une EDS dirigée par un processus localement stable
Résumé : On considère une équation différentielle stochastique dirigée par un processus de Lévy et on s’intéresse à l’approximation de cette équation par un schéma de discrétisation. En supposant que le processus qui dirige l’équation est localement stable, nous obtenons un contrôle de la distance de Hellinger en temps petit, et nous déduisons des vitesses de convergence, dépendantes de l’indice d’activité des (...)

Michel Benaïm (Université de Neuchâtel), le 4 juin 11h30

We investigate certain properties of degenerate Feller processes that are killed when exiting a relatively compact set. Our main result provides general conditions ensuring that such a process possesses a (possibly non unique) quasi stationary distribution. Conditions ensuring uniqueness and exponential convergence are discussed. The results are applied to stochastic differential (...)

Kamila Kare (SAMM), ce vendredi 21 mai à 11h30

This paper is about the one-step ahead prediction of the future of observations drawn from an infinite-order autoregressive AR($\infty$) process.It aims to design penalties (completely data driven) ensuring that the selected model verifies the efficiency property but in the non asymptotic framework. We present an oracle inequality with a leading constant equal to one. Moreover, we also show that the excess risk of the selected estimator enjoys the best bias-variance trade-off over the (...)

Patricia Reynaud-Bouret (Nice), le 7 mai à 11h30

Résumé :
Apres un petit résumé des connaissances à avoir sur les réseaux de neurones biologiques, j’expliquerai pourquoi les neurobiologistes s’intéressent autant à la connectivité fonctionnelle, qui peut se voir mathématiquement comme un graphe d’indépendance locale entre neurones ou entre aires cérébrales. En particulier, ils pensent que cela peut contribuer à décoder le code neural. Je montrerai comment on peut reconstruire ce graphe et comment on peut obtenir des garanties mathématiques sur cette (...)

Lorenzo Rosasco, MIT, le 16 avril 2021

We study the learning properties of nonparametric minimum norm interpolating estimators. In particular, we consider estimators defined by so called Matern kernels, and focus on the role of the kernels scale and smoothness. While common ML wisdom suggests estimators defined by large function classes might be prone to overfit the data, here we suggest that they can often be more stable.
Our analysis uses a mix of results from interpolation theory and probability theory. Extensive (...)

Anna Korba, UCL/ENSAE, le 2 avril 2021

We study the Stein Variational Gradient Descent (SVGD) algorithm, which optimises a set of particles to approximate a target probability distribution π∝exp(−V) on ℝ^d. In the population limit, SVGD performs gradient descent in the space of probability distributions on the KL divergence with respect to π, where the gradient is smoothed through a kernel integral operator. In this paper, we provide a novel finite time analysis for the SVGD algorithm.
We provide a descent lemma establishing that (...)

Noé Cunéo (LPSM, Université de Paris), le 26 mars à 11h30

Noé Cuneo (LPSM) : Grandes déviations pour la production d’entropie (likelihood ratio) par la méthode de Ruelle-Lanford.
Résumé. Nous introduirons de façon élémentaire la méthode des fonctions de Ruelle-Lanford et l’appliquerons aux grandes déviations de la production d’entropie (likelihood ratio) pour des mesures invariantes sur des shifts avec alphabet fini. Le principe des grandes déviations (PGD) obtenu joue un rôle important en thermodynamique ainsi que pour le test d’hypothèse. Le PGD est obtenu (...)

Marc Hoffmann (Dauphine) le 19 mars 2021

Inférence statistique pour des diffusions avec interaction de type McKean-Vlasov

Abstract : On considère un système de N particules en interaction dont la dynamique stochastique est conduite par une diffusion de type McKean-Vlasov. A partir de l’observation du système sur un horizon de temps fixe, on étudie l’inférence statistique des paramètres du modèle dans une limite de champ moyen. En particulier, on aborde le problème de l’estimation non-paramétrique (ou du test de présence) du potentiel d’interaction du système. On construit des estimateurs de la dérive et de la solution de l’équation aux dérivées partielles limite. Ceci permet de poser les premiers jalons d’une théorie minimax lorsque les paramètres vivent dans des classes de régularité hölderienne anisotrope. En fonction du temps, on discutera aussi de modèles avec bruit commun utilisés dans les théorie des MFG, de problèmes non-paramétriques bayésiens associés et d’estimation de la distance d’interaction pour des modèles avec interaction modérée.

Frédéric Paccaut, LAMFA, Amiens, le 12 mars

Les g-mesures sont des généralisation des mesures de Markov sur
0,1^Z, où le passé infini tout entier peut être nécessaire pour
prédire le symbole suivant. J’exposerai dans ce séminaire des
conditions assez générales pour avoir existence de telles mesures,
lorsque la fonction de transition g est donnée. Ces résultats sont
notamment valables pour des fonctions g discontinues. Si le temps le
permet, je spécifierai au cas particulier des chaînes à mémoire de
longueur variable où dans (...)

Nicole Mücke, Berlin, le 5 mars 2021 (TU Berlin)

Stochastic gradient descent (SGD) provides a simple and efficient way to solve a broad range of machine learning problems. Here, we focus on distribution regression (DR), involving two stages of sampling : Firstly, we regress from probability measures to real-valued responses. Secondly, we sample bags from these distributions for utilizing them to solve the overall regression problem.
Recently, DR has been tackled by applying kernel regularized least-squares and the learning properties of (...)

Adeline Fermanian, LPSM, le 12 février 2021

Sequential or temporal data arise in many fields of research, such as quantitative finance, medicine or computer vision. We will be concerned with a novel approach for sequential learning, called the signature method, and rooted in rough path theory. Its basic principle is to represent multidimensional paths by a graded feature set of their iterated integrals, called the signature. After a general overview of signatures in machine learning, we will focus on one specific problem. In order to (...)

Xavier Erny (LaMME Evry), le 5 février 2021

Titre : Propagation du chaos conditionnelle pour des sytèmes de neurones en interaction en champ moyen
Résumé : Nous étudions un système stochastique de neurones en interaction dans une normalisation diffusive. Le système est constitué de N neurones, chacun envoie des décharges aléatoirement avec un taux qui dépend de son potentiel de membrane. A chaque instant de décharge, le potentiel du neurone correspondant est réinitialisé à 0 et tous les autres neurones reçoivent une quantité de potentiel (...)

Navigation

Mots-clés de la rubrique