Laboratoire de Probabilités, Statistique et Modélisation (LPSM, UMR 8001)




Le LPSM est une unité mixte de recherche (UMR 8001) dépendant du CNRS, de Sorbonne Université et de l’Université Paris Cité. Le laboratoire compte environ 200 personnes (dont env. 90 permanents), répartis sur deux sites (Campus P. et M. Curie de Sorbonne Université et Campus Paris Rive Gauche de l’Université Paris Cité).

Les activités de recherche du LPSM couvrent un large spectre en Probabilités et Statistique, depuis les aspects les plus fondamentaux (qui incluent notamment l'Analyse Stochastique, la Géométrie Aléatoire, les Probabilités Numériques et les Systèmes Dynamiques) jusqu’aux applications à la Modélisation dans diverses disciplines (Physique, Biologie, Sciences des Données, Finance, Actuariat, etc), applications qui incluent des partenariats en dehors du monde académique.

Le LPSM est un laboratoire relativement récent. Cependant, ses composantes sont anciennes et proviennent du développement des « mathématiques du hasard » dans le centre de Paris, depuis le premier quart du 20ième siècle (voir ici pour plus de détails).

NB: Site largement inspiré de celui de l'IRIF (merci à eux pour la mise à disposition de leur maquette).

zambotti.jpg

5.6.2025
Lorenzo Zambotti vient d'être nommé membre Senior de L'Institut Universitaire de France à compter du 1er octobre: https://www.enseignementsup-recherche.gouv.fr/fr/bo/2025/Hebdo23/MENS2514954A

Félicitations Lorenzo !

fischer.jpg

31.3.2025
Le projet SEEDLING, porté par Aurélie Fischer a été sélectionné pour un financement du PEPR “Maths-VivES”. Félicitations Aurelie!


(Ces actualités sont présentées selon un classement mêlant priorité et aléatoire.)

Les probas du vendredi
Vendredi 26 septembre 2025, 11 heures, Jussieu, Salle Jaques Neveu, 16-26 113
Éric Luçon (Université d'Orléans) à venir

Soutenances de thèse
Vendredi 26 septembre 2025, 10 heures, Salle Paul Lévy
Romain Lacoste (LPSM) Inférence et classification pour les processus de Hawkes : d'une application en écologie à une étude théorique en grande dimension, en passant par l'implémentation

Résumé: Cette thèse de doctorat rassemble plusieurs contributions statistiques à l'analyse des processus de Hawkes, suivant une trajectoire allant de l'application à la théorie, en passant par l'implémentation. L'application porte sur le suivi du comportement des chauves-souris à l'échelle de la France, en utilisant les données de cris d'écholocation collectées dans le cadre du projet de science participative Vigie-Chiro. Pour distinguer les comportements de chasse et de transit, nous modélisons les séquences de cri à l'aide de processus de Hawkes, en exploitant la structure temporelle des données. En utilisant avantageusement cette modélisation, une procédure de classification basée sur la minimisation du risque empirique est proposée. La méthodologie globale est évaluée à l'aide d'un test d'adéquation et des résultats sur des données réelles sont présentés. Ces résultats sont concluants et montrent la pertinence de notre approche, qui pourrait contribuer à une meilleure compréhension des déterminants comportementaux. Cette application motive une étude théorique de reconstruction du support de processus de Hawkes multivariés en grande dimension. En supposant des observations répétées sur de courtes périodes et une structure parcimonieuse de la matrice d'interactions, nous développons un estimateur des moindres carrés pénalisé de type Lasso. Sous des hypothèses standards, nous établissons la consistance de la reconstruction du support lorsque le nombre de répétitions augmente. En nous appuyant sur cet estimateur, nous proposons une méthode de classification dans le cadre de l'apprentissage supervisé, pour laquelle nous établissons des taux de convergence. Une étude numérique approfondie, menée sur des jeux de données synthétiques et réels, vient appuyer nos résultats théoriques, tant pour la récupération du support que pour la classification supervisée. Afin de faire le lien entre théorie et pratique, une librairie Python en libre accès nommé Sparklen a été développé dans le cadre de cette thèse. Elle offre une suite complète d'outils pour l'analyse des processus de Hawkes exponentiels, avec un accent particulier mis sur le cadre de la grande dimension. Reposant sur un cœur codé en C++, Sparklen allie simplicité d'utilisation et efficacité computationnelle. Cette approche bi-langage fait de Sparklen une solution pertinente pour les applications réelles exigeantes en ressources. Nous en présentons l'architecture ainsi que des exemples d'utilisation concrets.

Abstract: This PhD thesis brings together several statistical contributions to the analysis of Hawkes processes, following a trajectory from application to theory, bridged by implementation. The application concerns bat behavior monitoring across France, using echolocation call data collected through the Vigie-Chiro citizen science project. To distinguish between foraging and commuting behaviors, we model call sequences with Hawkes processes, leveraging the temporal structure of the data. Taking advantage of this modelling, a classification procedure based on empirical risk minimization is proposed. The overall methodology is evaluated with a goodness-of-fit test and results on real data are presented. The results are convincing and show the relevance of our method, which could contribute to a better understanding of behavioural determinants. This application motivates a theoretical investigation into support recovery in high-dimensional multivariate Hawkes processes. Assuming repeated short-time observations and sparse structure of the interaction matrix, we develop a Lasso-penalized least-squares estimator. Under standard assumptions, we establish support recovery consistency as the number of repetitions increases. Leveraging this estimator, we derive a classification method within the framework of supervised learning for which we establish rates of convergence. An in-depth numerical study, using both synthetic and real-world datasets, corroborates our theoretical findings, both for support recovery and for supervised classification. To bridge theory and practice, an open-source Python package named Sparklen, was developed as part of this thesis. It provides a comprehensive suite for the analysis of exponential Hawkes processes, with a focus on high-dimensional settings. Powered by a C++ core code, Sparklen combines ease-of-use with computational efficiency. This dual-language approach makes Sparklen a powerful solution for computationally demanding real-world applications. We present its design and demonstrate its use through practical examples.

Séminaire de Probabilités
Mardi 30 septembre 2025, 14 heures, Jussieu, Salle Paul Lévy, 16-26 209
Wendelin Werner (Université de Cambridge) Questions de parité pour les amas de lacets browniens

Un processus de Poisson ponctuel particulier de lacets Browniens sur un graphe métrique (parfois appelé soupe brownienne) est étroitement relié au champ libre Gaussien sur ce graphe (qui est la généralisation naturelle du pont brownien quand on remplace le segment [0,1] par un graphe métrique général).

Nous allons revisiter et généraliser certains résultats de Pitman et Yor sur les ponts de processus de Bessel à ces graphes métriques, et en déduire des propriétés surprenantes de ces amas de lacets browniens. Par exemple, conditionner les modéle à relier deux points donnés x et y revient à ajouter un nombre impair de trajectoires browniennes reliant x et y à une soupe de lacets indépendante.

Séminaire Modélisation et Probabilités
Mercredi 1 octobre 2025, 14 heures 15, Sophie Germain 1013
Brune Massoulié (CEREMADE) From the lifted TASEP to true self-avoiding walks

The lifted TASEP is a variant of the totally asymmetric exclusion process where at each time-step, a marked particle tries to move forward then may pass the marker to another particle. It was introduced by physicists as a toy model for non-reversible event-chain Monte-Carlo algorithms, which are expected to reach their invariant measure faster than reversible dynamics. We will study the behaviour of this system on the integer line by evidencing a connexion with true self-avoiding walks, yielding timescales of the dynamics. Based on joint works with Clément Erignoux, Werner Krauth, François Simenhaus and Cristina Toninelli.

Séminaire Modélisation aléatoire du vivant
Mercredi 1 octobre 2025, 11 heures, 16-26.209
Bixuan Liu (LPSM) Identifiability of VAR(1) model in a stationary setting

Soutenances de thèse
Mercredi 1 octobre 2025, 17 heures, Salle Paul Lévy, 16-26 209
Moria Grâce Mayala (LPSM) Étude asymptotique des methodes d'ensemble pour la classification déséquilibrée

Résumé: Cette thèse est consacrée à l’étude asymptotique des méthodes d’ensemble, avec un accent particulier sur les forêts aléatoires infinies et les plus proches voisins baggés, entraînés sur des sous-échantillons tirés sans remise, dans le cadre de la classification binaire. Dans la première partie de la thèse, nous établissons un Théorème Central Limite (TCL) pour les forêts aléatoires infinies entraînées sur de tels sous-échantillons. Dans le cadre de la classification déséquilibrée, ces estimateurs souffrent d’une mauvaise représentation de la classe minoritaire dans les données d’entraînement. Pour remédier à ce problème, nous proposons une stratégie de rééchantillonnage pour rééquilibrer la distribution des classes. Bien que l’estimateur résultant satisfasse un TCL, il n’est pas consistant. Pour atténuer son biais, nous introduisons une procédure de débiasage basée sur le rapport de cotes, et démontrons que l’estimateur résultant est consistant et satisfait toujours un TCL. Nous appliquons nos résultats théoriques aux plus proches voisins baggés et montrons que l’estimateur 1-NN baggé débiasé correspond au taux de convergence de son homologue sous-échantillonné tout en atteignant une variance asymptotique plus faible dans la plupart des cas. Dans la deuxième partie de la thèse, nous appliquons nos résultats théoriques aux Forêts Aléatoires Centrées Infinies sous-échantillonnées (ICRF) pour lesquelles nous prouvons un TCL avec des taux de convergence et des constantes explicites. De plus, nous montrons que l’ICRF débiasée atteint une réduction de variance par rapport à l’ICRF standard entraînée sur les données originales. Dans l’ensemble, notre analyse théorique met en évidence les avantages de l’entraînement des forêts aléatoires sur des ensembles de données rééquilibrés suivis d’une étape de débiasage, par opposition à l’entraînement sur les données originales. Enfin, nous illustrons la validité empirique de ces résultats à travers une étude appliquée à un ensemble de données réel d’une compagnie d’assurance non-vie danoise dans le contexte de la détection de fraude.

Les probas du vendredi
Vendredi 3 octobre 2025, 11 heures, Jussieu, Salle Paul Lévy, 16-26 209
Alberto Bonicelli (LPSM) à venir

Événements du LPSM
Mercredi 8 octobre 2025, 9 heures 30, Amphi 25 (Jussieu)
Journée de Rentrée 2025

Les probas du vendredi
Vendredi 10 octobre 2025, 11 heures, Jussieu, Salle Paul Lévy, 16-26 209
Francesca Cottini (LPSM) à venir

Séminaire de Probabilités
Mardi 14 octobre 2025, 14 heures, Jussieu, Salle Paul Lévy, 16-26 209
Ivailo Hartarsky (CNRS, Lyon 1) Catalan percolation

In Catalan percolation, one declares the edges {i,i+1} for i in Z occupied and each edge {i,j} in Z with j >= i+2 open independently with probability p. For k >= i+2, we recursively define {i,k} to be occupied if {i,k} is open and both {i,j} and {j,k} are occupied for some j in {i+1,…,k-1}. The model was introduced by Gravner and Kolesnik in the context of polluted bootstrap percolation, but is tightly linked with Catalan structures and oriented percolation. We establish that the critical parameter of the model is strictly between the natural lower and upper bounds given by 1/4 and the critical probability of oriented site percolation on Z^2 respectively. The most challenging part of the proof is a strict inequality for the critical parameter of an oriented percolation model with non-decaying infinite range dependencies, not relying on the Aizenman-Grimmett argument for essential enhancements. The talk is based on joint work with Eleanor Archer, Brett Kolesnik, Sam Olesker-Taylor, Bruno Schapira and Daniel Valesin available at https://arxiv.org/abs/2404.19583.

Séminaire sur les processus de Hawkes
Mardi 14 octobre 2025, 14 heures, Salle 16-26-127
Raphael Romero simHawnet: a modified Hawkes process for temporal network simulation

Séminaire doctoral du LPSM
Jeudi 16 octobre 2025, 17 heures 30, Jussieu - Salle Paul Lévy (16-26 209)
Non Encore Annoncé Non encore annoncé

Les probas du vendredi
Vendredi 17 octobre 2025, 11 heures, Jussieu, Salle Paul Lévy, 16-26 209
Paul Thevenin à venir