Laboratoire de Probabilités, Statistique et Modélisation (LPSM, UMR 8001)




Le LPSM est une unité mixte de recherche (UMR 8001) dépendant du CNRS, de Sorbonne Université et de l’Université Paris Cité. Le laboratoire compte environ 200 personnes (dont env. 90 permanents), répartis sur deux sites (Campus P. et M. Curie de Sorbonne Université et Campus Paris Rive Gauche de l’Université Paris Cité).

Les activités de recherche du LPSM couvrent un large spectre en Probabilités et Statistique, depuis les aspects les plus fondamentaux (qui incluent notamment l'Analyse Stochastique, la Géométrie Aléatoire, les Probabilités Numériques et les Systèmes Dynamiques) jusqu’aux applications à la Modélisation dans diverses disciplines (Physique, Biologie, Sciences des Données, Finance, Actuariat, etc), applications qui incluent des partenariats en dehors du monde académique.

Le LPSM est un laboratoire relativement récent. Cependant, ses composantes sont anciennes et proviennent du développement des « mathématiques du hasard » dans le centre de Paris, depuis le premier quart du 20ième siècle (voir ici pour plus de détails).

NB: Site largement inspiré de celui de l'IRIF (merci à eux pour la mise à disposition de leur maquette).

livre-pages.jpg

1.2.2024
Le livre Marginal and Functional Quantization of Stochastic Process, écrit par Harald Luschgy et Gilles Pagès, vient d'être publié.

6.6.2024
Félicitations Gérard Biau et Cyril Labbé, nouveaux membres de l'IUF !

Huyên Pham

10.1.2024
Huyên Pham a été élu vice-président de la Bachelier Finance Society. Félicitations Huyên!

SORBONNE_FAC_SCIENCES_CMJN

12.3.2024
Arrêté portant report des élections au conseil de l'UFR 929 de Mathématiques: arrêté.

SORBONNE_FAC_SCIENCES_CMJN

12.2.2024
Arrêté électoral portant sur les élections du conseil de l'UFR de Mathématiques: arrêté.

baladi.jpg

27.2.2024
Viviane Baladi est lauréate du prix "Teubner Foundation Science Prize for the Promotion of Mathematical Sciences". Félicitations Viviane!


(Ces actualités sont présentées selon un classement mêlant priorité et aléatoire.)

Séminaire de Probabilités
Mardi 25 juin 2024, 14 heures, Jussieu, Salle Paul Lévy, 16-26 209
Mikhail Basok (Université d'Helsinki) Dimers on a Riemann surface and compactified free field

In this talk I will be speaking about the dimer model sampled on a general Riemann surface. In this setup, the dimer height function becomes additively multivalued with a random monodromy. Given a sequence of graphs approximating the conformal structure of the surface in a suitable way, the underlying sequence of height functions is expected to converge to the compactified free field on the surface. Recently, this problem was addressed by Berestycki, Laslier and Ray in the case when a Riemann surface is approximated by Temperley graphs. Using various probabilistic methods, they obtained the following universal result: given that the random walk associated with these graphs converges to the Brownian motion on the surface (in an appropriate sense), the limit of height functions exists, is conformally invariant and does not depend on a particular sequence of graphs. However, the identification of the limit with the compactified free field was missing in this result. In my recent work I attempt to fill this gap by studying the same problem from the perspective of discrete complex analysis. For this purpose, I consider graphs embedded into locally flat Riemann surfaces with conical singularities and satisfying certain local geometric conditions. In this setup I obtain an analytic description of the limit which allows to identify it with a suitable version of the compactified free field; I also prove the convergence in some non-Temperleyan cases when the surface is generic. A core part of this approach is the regularity theory on t-embeddings recently developed by Chelkak, Laslier and Russkikh, as well as an analytic technique linking the problem with Quillen determinant of a family of Cauchy-Riemann operators developed by Dubédat.

Séminaire de Théorie Ergodique
Mardi 25 juin 2024, 10 heures 30, Jussieu, Salle Paul Lévy, 16-26 209
Rafael Ruggiero (PUC) Sur la conjecture de stabilité pour les flots géodésiques sans points conjugués

Nous démontrons la conjecture de stabilité du point de vue de Mañé pour le flot géodésique d´une variété compacte sans points conjugués à revêtement universel quasi-convexe et rayons géodésiques divergents. Ce résultat en dimension quelconque avec Rafael Potrie du Centro de Matemática, UDELAR, étend des résultats antérieurs en dimension jusqu'à 3.

Soutenances de thèse
Lundi 1 juillet 2024, 14 heures 30, Salle Paul Lévy, 16-26 209
Francesco Bonacina (LPSM) Advanced statistical approaches for the global analysis of influenza virus circulation

Abstract: The mitigation of human Influenza remains a challenge due to the complexities characterizing its spread. Multiple types and subtypes of influenza viruses co-circulate globally, with a dynamic characterized by annual epidemics and occasional shifts due to major epidemiological events. This thesis develops statistical tools to study some key aspects of influenza spatiotemporal ecological dynamics, proposing unconventional approaches in epidemiology. The analyses are based on data from FluNet, a comprehensive dataset provided by the World Health Organization that includes weekly counts of influenza samples from over 150 countries, categorized by type and subtype. The first two research projects included in the thesis have an applied focus, while the third study is theoretically oriented, although it includes an application to influenza surveillance data. The first study examines the decline of influenza during the COVID-19 pandemic, assessing the magnitude of the decline by country globally and using regression tree-based techniques to identify country-level factors associated with the decline. The second study examines the coupled dynamics of influenza (sub)types, focusing on their relative abundance across countries and years through the lens of Compositional Data Analysis. It provides evidence of the changes in (sub)type mixing during the COVID-19 pandemic and develops probabilistic forecasting algorithms to predict (sub)type composition one year in advance. The third study formulates a conditional copula model to describe the dependencies of multivariate data conditionally upon certain covariates. The asymptotic consistency of the model is then investigated. Finally, the model is used to classify countries and years characterized by similar dependencies in the relative abundances of influenza (sub)types.

Soutenances de thèse
Vendredi 12 juillet 2024, 9 heures, 15-25 102
Camila Fernandez (LPSM) Contributions and applications to survival analysis

Résumé: L’analyse de survie a suscité l’intérêt de diverses disciplines, allant de la médecine et de la maintenance prédictive à diverses applications industrielles. Sa popularité croissante peut être attribuée aux avancées significatives en matière de puissance de calcul et à la disponibilité accrue des données. Des approches variées ont été développées pour répondre au défi des données censurées, allant des outils statistiques classiques aux techniques contemporaines d’apprentissage automatique. Cependant, il reste encore une marge considérable pour l’amélioration. Cette thèse vise à introduire des approches innovantes qui fournissent des insights plus profonds sur les distributions de survie et à proposer de nouvelles méthodes avec des garanties théoriques qui améliorent la précision des prédictions. Il est notamment remarquable de constater l’absence de modèles capables de traiter les données séquentielles, une configuration pertinente en raison de sa capacité à s’adapter rapidement à de nouvelles informations et de son efficacité à gérer de grands flux de données sans nécessiter d’importantes ressources mémoire. La première contribution de cette thèse est de proposer un cadre théorique pour la modélisation des données de survie en ligne. Nous modélisons la fonction de risque comme une exponentielle paramétrique qui dépend des covariables, et nous utilisons des algorithmes d’optimisation convexe en ligne pour optimiser la vraisemblance de notre modèle, une approche qui est novatrice dans ce domaine. Nous proposons un nouvel algorithme adaptatif de second ordre, SurvONS, qui assure une robustesse dans la sélection des hyperparamètres tout en maintenant des bornes de regret rapides. De plus, nous introduisons une approche stochastique qui améliore les propriétés de convexité pour atteindre des taux de convergence plus rapides. La deuxième contribution de cette thèse est de fournir une comparaison détaillée de divers modèles de survie, incluant les modèles semi-paramétriques, paramétriques et ceux basés sur l’apprentissage automatique. Nous étudions les caractéristiques des ensembles de données qui influencent la performance des méthodes, et nous proposons une procédure d’agrégation qui améliore la précision et la robustesse des prédictions. Enfin, nous appliquons les différentes approches discutées tout au long de la thèse à une étude de cas industrielle : la prédiction de l’attrition des employés, un problème fondamental dans le monde des affaires moderne. De plus, nous étudions l’impact des caractéristiques des employés sur les prédictions d’attrition en utilisant l’importance des caractéristiques par permutation et les valeurs de Shapley.

Abstract: Survival analysis has attracted interest from a wide range of disciplines, spanning from medicine and predictive maintenance to various industrial applications. Its growing popularity can be attributed to significant advancements in computational power and the increased availability of data. Diverse approaches have been developed to address the challenge of censored data, from classical statistical tools to contemporary machine learning techniques. However, there is still considerable room for improvement. This thesis aims to introduce innovative approaches that provide deeper insights into survival distributions and to propose new methods with theoretical guarantees that enhance prediction accuracy. Notably, we notice the lack of models able to treat sequential data, a setting that is relevant due to its ability to adapt quickly to new information and its efficiency in handling large data streams without requiring significant memory resources. The first contribution of this thesis is to propose a theoretical framework for modeling online survival data. We model the hazard function as a parametric exponential that depends on the covariates, and we use online convex optimization algorithms to minimize the negative log-likelihood of our model, an approach that is novel in this field. We propose a new adaptive second-order algorithm, SurvONS, which ensures robustness in hyperparameter selection while maintaining fast regret bounds. Additionally, we introduce a stochastic approach that enhances the convexity properties to achieve faster convergence rates. The second contribution of this thesis is to provide a detailed comparison of diverse survival models, including semi-parametric, parametric, and machine learning models. We study the dataset characteristics that influence the methods performance, and we propose an aggregation procedure that enhances prediction accuracy and robustness. Finally, we apply the different approaches discussed throughout the thesis to an industrial case study: predicting employee attrition, a fundamental issue in modern business. Additionally, we study the impact of employee characteristics on attrition predictions using permutation feature importance and Shapley values.