Welcome
The LPSM is a research unit jointly supported by CNRS, Sorbonne Université and Université Paris Cité. The unit hosts about 200 members (about 90 faculty) and is located at two sites (Campus P. et M. Curie of Sorbonne Université et Campus Paris Rive Gauche of Université Paris Cité).
The LPSM research activities cover a broad spectrum in Probability and Statistics, from the most fundamental aspects (which, in particular, include Stochastic Analysis, Random Geometry, Numerical Probabilities and Dynamical Systems) to applications in the Modelling in various disciplines (Physics, Biology, Data Sciences, Finance, Insurance, etc). Applications involve partnerships with the non-academic sector.
While the unit LPSM is relatively recent, its components have deep roots in the rich history of the “mathematics of randomness” that has unfolded in Paris during the 20th century (see here for more details).
NB: This website is largely inspired by the one of IRIF.
News

19.9.2023
Piet Lammers est lauréat 2023-24 du prix et cours Claude-Antoine Peccot du Collège de France. Félicitations Piet!

4.6.2023
Conference Mathematics of disordered systems: a tribute to Francis Comets organized by Thierry Bodineau, Bernard Derrida, Giambattista Giacomin and Dasha Loukianova, Paris 5-7 June 2023.
(Ces actualités sont présentées selon un classement mêlant priorité et aléatoire.)
Events
Soutenances de thèse
Jeudi 30 novembre 2023, 10 heures, Salle Paul Lévy, 16-26 209 et Zoom
Iqraa Meah (LPSM) Controlling false discovery proportion in structured data sets
Les probas du vendredi
Vendredi 1 décembre 2023, 11 heures, Jussieu, Salle Paul Lévy, 16-26 209
Nicolas Forien (Paris Dauphine) Sur la transition de phase du modèle des marches aléatoires activées
Groupe de travail Statistique et Probabilités : Réseaux de neurones
Vendredi 1 décembre 2023, 10 heures 15, SG1016
Max Fathi Introduction au calcul différentiel sur les espaces de mesures
Soutenances de thèse
Lundi 4 décembre 2023, 14 heures, 15-16 201 et visioconférence
Sébastien Farkas (LPSM) Mathématiques appliquées à l'assurance des risques numériques
Groupe de Travail Modélisation Stochastique
Mercredi 6 décembre 2023, 14 heures, Sophie Germain 1013
Orphée Colin, Léo Daures, Pablo López-Rivera (LPSM) Séance spéciale doctorants-doctorantes (1/2)
Orphée Colin :
La chaîne d'Ising avec champ aléatoire,
Le modèle d'Ising est un modèle classique de physique statistique, décrivant le comportement de moments ferromagnétiques (spins) sur un réseau, interagissant via une interaction site-à-site. Lorsque le réseau est unidimensionnel et dans le cas d'interactions au plus proche voisin homogènes, le modèle est exactement soluble (et simple). Néanmoins, une version désordonnée du modèle d'Ising unidimensionnel, dans laquelle la chaîne interagit avec un environnement i.i.d., est d'analyse plus ardue. Une description des configurations typiques de la chaîne, lorsque l'intensité Gamma de l'interaction interne est grande, apparaît dans la littérature en physique. Nous présenterons le modèle de chaîne d'Ising désordonnée, et montrerons que, en accord avec la description des physiciens, les configurations typiques sont proches de la configuration déterminée par le processus des Gamma-extremas du potentiel associé à l'environnement, lorsque Gamma est grand.
Léo Daures
A weak large deviation principle for the empirical measure of a discrete, possibly reducible Markov chain
In this talk, I will introduce the questions I have been trying to answer in the first year of my PhD. The object of interest is the empirical measure of a Markov chain X, that is the random probability measure L_n = \frac1n\sum_1^n \delta_{X_i}. Our goal is to show a large deviation principle (LDP) for L_n, which roughly speaking means understanding the exponential rate of decay of the probability of rare events involving L_n. The behaviour and the large deviations of the empirical measure is well known in “good” cases, e.g. in irreducible setups. Those properties do not extend easily to reducible setups, as it is not sufficient to study independently the irreducible classes to derive a LDP on the whole chain. In this talk, I will present my current work on a method based on subadditivity, to derive a weak LDP when X is reducible. The usual subadditive method has to be consequentially reworked to fit the context of reducible Markov chains, and notably provides a non-convex rate function.
Principe des grandes déviations faible pour la mesure empirique d’une chaîne de Markov discrète et possiblement réductible. Dans cet exposé, je compte développer les questions auxquelles j’ai essayé de répondre pendant la première année de ma thèse. On s’intéresse à la mesure empirique d’une chaîne de Markov X, c’est-à-dire la mesure de probabilité aléatoire L_n = \frac1n\sum_1^n \delta_{X_i}. Notre objectif est de démontrer un principe de grandes déviations (LDP) pour L_n, ce qui signifie comprendre le taux de décroissance exponentiel de la probabilité d’évènement rares impliquant L_n. Le comportement et les grandes déviations de L_n sont bien connus dans les “bons” cas, i.e. quand la chaîne de Markov est irréductible. Mais ces propriétés ne se prolongent pas facilement aux cas réductibles, car il ne suffit pas d’étudier indépendamment chaque classe d’irréductibilité pour obtenir un LDP sur la chaîne toute entière. Dans cet exposé, je présenterai mon travail sur une méthode fondée sur la sous-additivité pour obtenir un LDP faible quand X est réductible. La méthode sous-additive habituelle doit être considérablement remaniée pour s’adapter au cas des chaînes de Markov réductibles, et elle mène notamment à une fonction de taux non-convexe.
Pablo López-Rivera
Préservation des inégalités fonctionnelles sous des perturbations log-Lipschitz
Étant donné une mesure de probabilité satisfaisant certaines inégalités fonctionnelles (Poincaré, log-Sobolev, etc.), il est naturel de se demander si celles-ci restent valables pour une perturbation de la mesure. En particulier, s'il existe une application globalement Lipschitz qui pousse en avant la mesure source vers sa perturbation, alors il est facile de transporter certaines inégalités fonctionnelles. Par exemple, le théorème de contraction de Caffarelli dit que le transport optimal entre la mesure gaussienne et une perturbation log-concave est 1-Lipschitz.
Dans cet exposé, je montrerai comment une telle application existe si l'on considère des perturbations log-lipschitz d'une mesure sur une variété riemannienne, via l'interpolation donnée par la diffusion de Langevin associée à la mesure source (dite l’application de transport du flot de la chaleur, due à Kim et Milman), en supposant également des bornes sur la courbure de la variété au premier et au second ordre au sens de Bakry-Émery-Ricci.
Séminaire de statistique
Vendredi 8 décembre 2023, 9 heures 30, Jussieu en salle 16-26-209
Pierre Alquier (ESSEC) Robust estimation and regression with MMD
In the second part of this talk, I will discuss the extension of this method to the estimation of conditional distributions, which allows to use MMD-estimators in various regression models. On the contrary to mean embeddings, very technical conditions are required for the existence of a conditional mean embedding that allows defining an estimator. In most papers, these conditions are often assumed, but rarely checked. It turns out that, in most generalized linear regression models, we proved that these conditions can be met, at the cost of more restrictions on the kernel choice.
This is based on joint works with: Badr-Eddine Chérief-Abdellatif (CNRS, Paris), Mathieu Gerber (University of Bristol), Daniele Durante (Bocconi University), Sirio Legramanti (University of Bergamo), Jean-David Fermanian (ENSAE Paris), Alexis Derumigny (TU Delft), Geoffrey Wolfer (RIKEN-AIP, Tokyo).
Les probas du vendredi
Vendredi 8 décembre 2023, 11 heures, Jussieu, Salle Paul Lévy, 16-26 209
Lucile Laulin (Paris Nanterre) Une équation de point fixe pour la marche aléatoire de l’éléphant super-diffusive
Séminaire de Probabilités
Mardi 12 décembre 2023, 14 heures, Jussieu, Salle Paul Lévy, 16-26 209
Piet Lammers (LPSM, Sorbonne Université) Non encore annoncé.
Soutenances de thèse
Mardi 12 décembre 2023, 14 heures, Visioconférence Zoom
Ibrahim Merad (LPSM) Algorithmes robustes et autres contributions à l'apprentissage statistique
—
Abstract: This thesis deals with theoretical and methodological aspects of machine learning. This discipline has found numerous applications thanks to the availability of vast amounts of data. However, empirical evidence suggests that heavy-tailed distributions and corruption can often emerge in training datasets and may compromise the performances of machine learning models. This has motivated the development of robust statistics which seek more dependable methods when data assumptions are weakened. In this thesis, we propose computationally efficient robust learning algorithms and back them up with theoretical analyses establishing their optimization convergence and the statistical properties of their estimates. In our first contribution, we propose to use coordinate gradient descent (CGD) with robust scalar estimators of the partial derivatives in order to perform robust learning. This allows to avoid the computational cost of robust vector mean estimation by using only scalar estimates. The resulting procedure is robust to heavy-tails and corruption as attested by the generalization error bounds we show for smooth convex objectives. Moreover, computational overhead is minimal since the complexity is the same as non robust methods. We efficiently implement this method in a Python library called linlearn and confirm the advantages of robust CGD through extensive numerical experiments. Our next contribution deals with robust learning in the high-dimensional setting where optimization is carried out using non-Euclidean methods. We develop a robust high-dimensional learning framework suitable for smooth and non-smooth objectives which uses robust gradient estimation methods tailored to problem-specific non-Euclidean metrics. For the particular case of Vanilla sparse estimation, we obtain an efficient solution algorithm with strong robustness properties. Besides the theoretical analysis establishing these properties, we implement this algorithm in the linlearn library and demonstrate its performance through experiments on real data. The third contribution brings a solution for the streaming data setting where samples are only seen once in a sequential fashion. We propose a clipped SGD algorithm for stochastic optimization using gradient norm quantiles as thresholds. Using Markov chain tools, we prove that the iteration is robust to heavy tails and corrupted data and converges to a limit distribution concentrated around an optimum. In another chapter, we leverage similar tools to study the convergence and concentration properties of standard SGD. In particular, we obtain a non asymptotic concentration bound for Polyak-Ruppert averaging of a tail SGD sequence. Our contributions also include a new random forest algorithm called WildWood. The latter adds an aggregation mechanism within each tree of a forest which uses out-of-bag samples to compute average predictions over all subtrees. This computation is precise and efficient thanks to the context tree weighting algorithm. As we show theoretically, this allows to nearly match the performance of the best subtree. We propose an efficient implementation in the Python library wildwood and experimentally demonstrate the algorithm’s competitiveness with popular ensemble methods such as classical random forests and boosting algorithms. Finally, we present an efficient non Bayesian algorithm for online logistic regression which may achieve optimal regret and provide a preliminary analysis for it.
Séminaire de Probabilités
Mardi 19 décembre 2023, 14 heures, Jussieu, Salle Paul Lévy, 16-26 209
Anna Ben-Hamou (LPSM, Sorbonne Université) Inférence statistique sur des arbres aléatoires récursifs à communautés