Year 2022

PHD defences
Monday July 11, 2022, 1:30PM, salle 1009 à Sophie Germain
Sothea Has Modèles prédictifs par agrégation consensuelle et applications

This work aims at combining supervised and unsupervised information of data for prediction. Three important projects are presented. The first project is “KFC : a clusterwise supervised learning procedure based on aggregation of distances”. It is a three-step procedure for constructing prediction in supervised statistical learning problems. KFC stands for K-means/Fit/Combining. Several performances of the method are illustrated in this part on several synthetic and real energy data. The second project is “A kernel-based consensual aggregation method for regression”, which is inspired by the numerical experiments of the previous project. The method is a generalization of consensual aggregation method introduced by Biau et al. (2016) to regular kernel-based setting. The consistency inheritance property of the method is derived, and is confirmed through many numerical experiments on simulated and real datasets. Lastly, the third project is a study of consensual aggregation method on randomly projected high-dimensional features of predictions. The aggregation scheme is composed of two steps: the high-dimensional features of predictions are randomly projected into a small subspace in the first step, then the aggregation method is applied on the projected features in the second step. We numerically show that the consensual aggregation method upholds its performance on very large and highly correlated features of predictions. Moreover, we theoretically show that the performance of the method is almost preserved in much smaller subspaces of projection, with high probability. This shows the robustness of the method in a sense that several types of predictive models can be plainly constructed and directly combined without model selection or cross-validation technique.

PHD defences
Thursday July 7, 2022, 9:30AM, Par Zoom
Hiroshi Horii Large-time asymptotics of anomalous fluctuations in heavy-tailed renewal-reward processes

For example, how many times do we have to change the light bulb in a room in 10 years? Each light bulb has different lifetimes and they are distributed randomly according to, for example, the gamma distribution. Knowing this distribution, one can estimate not only how many light bulbs are needed on average during 10 years, but also the range of the number of required light bulbs with 95% probability.

This kind of random phenomenon can be explained using a renewal-reward process and by constructing the model, we can estimate the expected value and the fluctuations of the interested stochastic process. Also, this stochastic process becomes the generalization of Markov jump processes and it can contain memory effects. Thus, this is a useful model because the process can describe a broad spectrum of phenomena in physics and other fields, including a melt-up of the stock market and a super spreader in epidemics, where memory effects are known to be important.

In this thesis, our main motivation is to clarify the finite-time behavior of anomalous fluctuations. For studying the topic, we start by introducing the definition of a renewal-reward process and the large deviation theory. Afterward, we show the result of anomalous fluctuations behavior, especially the fluctuations of the renewal-reward process with memory effects, in renewal-reward processes with heavy-tailed waiting time distributions.

In the first work, we study the large time asymptotic of renewal-reward processes with a heavy-tailed waiting time distribution. It is known that the heavy tail of the distribution produces extremely slow dynamics, resulting in a singular large deviation function. This amounts to a “flattened” bottom of the large deviation function, manifesting anomalous fluctuations of the renewal-reward processes.

In the second work, we re-visit the flat part in the cumulant generating function by using a variational principle and a numerical simulation technique developed in large deviation theory. These techniques have been applied to study a singularity appearing in the large deviation function in, among others, kinetically constrained models and active matters. These models are defined using Markov processes, because of which the large deviation function of time-averaged quantities does not have any singularity whenever the system size (not the averaging time) is finite. Our focus is on how the same methodology can be extended to our non-Markovian problem to derive the flat part.

In the third work, by using the renewal theory, we discuss anomalous scaling of the cumulants with memory effects in a renewal-reward process instead of focusing on the probability of rare events. In particular, we analyze the variance of heavy waiting time distributions.

PHD defences
Wednesday June 22, 2022, 2PM, Tour 15/25 salle 104 et par zoom
Joseph De Vilmarest Modèles espace-état pour la prévision de séries temporelles. Application aux marchés électriques

L'électricité étant difficile à stocker, prévoir la demande est un enjeu majeur pour maintenir l'équilibre entre la production et la consommation. L'évolution des usages de l'électricité, le déploiement des énergies renouvelables, et plus récemment la crise du coronavirus, motivent l'étude de modèles qui évoluent au cours du temps, pour tenir compte des changements de comportements. L'objectif de ce travail est de proposer des méthodes adaptatives de prévision, et nous nous sommes intéressés tout spécialement au cadre des modèles espace-état. Dans ce paradigme, on représente l'environnement (ou le contexte) par un état caché. À chaque instant, la demande dépend de cet état que nous cherchons donc à estimer grâce aux observations dont nous disposons, et selon les hypothèses que l'on effectue sur la dynamique du système. L'estimation de l'état nous permet ensuite de prévoir la demande.

Un premier objectif de la thèse est de contribuer au lien entre l'optimisation et l'estimation dans les modèles espace-état. Nous interprétons en effet les méthodes que nous utilisons comme diverses façons de paramétrer un algorithme de descente de gradient de second ordre, et nous avons détaillé ce lien dans un cas particulier. Une seconde contribution de la thèse est de proposer différentes méthodes d'estimation dans les modèles espace-état. Le principal enjeu nous semble être de définir la dynamique avec lequel évolue l'état, et nous proposons deux méthodes dans ce but. Le troisième apport de ce manuscrit est d'appliquer ces méthodes espace-état à la prévision de consommation d'électricité. Nos prévisions s'appuient sur des modèles de prévision existants, par exemple le modèle additif généralisé, que nous cherchons à adapter. Ainsi, nous tirons parti de certaines dépendances complexes capturées par les modèles existants, par exemple la sensibilité de la consommation d'électricité à la température, tout en profitant de la faculté d'adaptation des modèles espace-état.

PHD defences
Monday June 20, 2022, 3:30PM, Bat Sophie Germain - salle 1003 et par zoom
Maximilien Germain Machine learning for stochastic control and partial differential equations in high dimension

This thesis studies several machine learning numerical schemes to solve nonlinear PDEs and mean-field control in moderate to high dimension and is divided in two parts.

The first part focuses on the resolution of parabolic nonlinear PDEs. We describe a multistep neural network scheme which improves existing methods from the literature. One of our contributions is the study of its approximation error together with the ones of existing methods in the semilinear case where the equation is linear with respect to the second order derivative. By using Lipschitz GroupSort neural networks, we are able to link the error to the number of layers and neurons of the approximating network. We also develop one-step and multistep schemes in the more challenging case of fully nonlinear PDEs, based on Malliavin weights and automatic differentiation. All the numerical schemes are tested on numerical examples to demonstrate their relevance.

The second part of this work is dedicated to mean-field control and McKean-Vlasov equations. We prove by probabilistic arguments a rate of convergence for the finite dimensional approximation of a PDE on the Wasserstein space. We then use symmetric DeepSet neural networks to solve symmetric PDEs in high dimension. Hence we are able to approximate numerically mean-field control problems by solving their optimality conditions in the form of a Master Bellman PDE in infinite dimension. We then consider mean-field control with probabilistic state constraints on the law of the controlled state. We represent the problem by an auxiliary unconstrained problem with exact penalisation which can be solved by the modification of an existing brute force deep learning scheme.

PHD defences
Tuesday May 31, 2022, 9AM, Salle 15/25 104 et par Zoom
Gloria Buritica Borda Assessing the time dependence of multivariate extremes for heavy rainfall modeling

Nowadays, it is common in environmental sciences to use extreme value theory to assess the risk of natural hazards. In hydrology, rainfall amounts reach high-intensity levels frequently, which suggests modeling heavy rainfall from a heavy-tailed distribution. In this setting, risk management is crucial for preventing the outrageous economic and societal consequences of flooding or landsliding. Furthermore, climate dynamics can produce extreme weather lasting numerous days over the same region. However, even in the stationary setting, practitioners often disregard the temporal memories of multivariate extremes. This thesis is motivated by the case study of fall heavy rainfall amounts from a station’s network in France. Its main goal is twofold. First, it proposes a theoretical framework for modeling time dependencies of multivariate stationary regularly varying time series. Second, it presents new statistical methodologies to thoughtfully aggregate extreme recordings in space and time.

To achieve this plan, we consider consecutive observations, or blocks, and analyze their extreme behavior as their lp-norm reaches high levels, for p > 0. This consideration leads to the theory of p-clusters, which model extremal lp-blocks. In the case p = ∞, we recover the classical cluster (of exceedances). For p < ∞, we built on large deviations principles for heavy-tailed observations. Then, we study in depth two setups where p-cluster theory appears valuable. First, we design disjoint blocks estimators to infer statistics of p-clusters, e.g., the extremal index. Actually, p-clusters are linked through a change of norms functional. This relationship opens the road for improving cluster inference since we can now estimate the same quantity with different choices of p. We show cluster inference based on p < ∞ is advantageous compared to the classical p = ∞ strategy in terms of bias. Second, we propose the stable sums method for high return levels inference. This method enhances marginal inference by aggregating extremes in space and time using the lp-norm, where α > 0 is the (tail) index of the series. In simulation, it appears to be robust for dealing with temporal memories and it is justified by the α-cluster theory.

PHD defences
Wednesday April 6, 2022, 9:30AM, Par Zoom
Yiyang Yu Apprentissage profond en santé publique, et contributions en apprentissage statistique

Le développement d'algorithmes efficaces pour apprendre des représentations appropriées de données structurées, telles que des séquences d'événements datés provenant de la vie réelle, est un défi majeur et central de l’apprentissage automatique. Dans cette optique, l’apprentissage profond est devenu populaire pour modéliser des données structurées, parfois combiné avec des techniques de pré-entraînement. En même temps, d'autres méthodes d'apprentissage statistique plus “classiques”, comme les forêts aléatoires ou la régression, occupent toujours une place importante dans la pratique à cause de leur efficacité. Dans cette thèse, nous apportons quelques contributions à l'étude théorique et numérique de certains problèmes de l'apprentissage statistique, ainsi que l'application de l'apprentissage profond aux données de la santé publique.

La première contribution consiste à introduire un nouveau modèle appelé ZiMM (Zero-inflated Mixture of Multinomial distributions), et une architecture Encodeur-Décodeur (ED) de réseaux de neurones profonds entraînés de-bout-en-bout, modélisant les parcours de soins pour la prédiction des complications post-chirurgicales. ZiMM-ED est appliqué aux données de santé de remboursement de soins provenant du Système National des Données de Santé (SNDS) en France, qui est une base de données non-clinique, contenant seulement les codes de remboursement datés d'achats de médicaments et des diagnostics hospitaliers. En particulier, nous considérons les complications jusqu'au 18e mois après la chirurgie, ce qui correspond à des observations “floues” car seulement observées à partir des achats de médicaments d'une famille spécifique. Nos expériences montrent les améliorations en termes de performance prédictive de ZiMM-ED par rapport à plusieurs modèles de référence. ZiMM-ED ouvre la voie de l'exploitation d'un tel jeu de données avec peu de pré-traitement à grâce aux réseaux de neurones profonds. Cette base de données est jusque-là utilisée principalement pour des raisons administratives (remboursement des soins de santé), et nous montrons le pouvoir prédictif des réseaux de neurones profonds dessus sur une telle base de données avec un cas précis.

La deuxième contribution porte sur l'étude théorique de l'apprentissage contrastif de représentation, une technique récemment devenue populaire et expérimentalement efficace pour l'entraînement auto-supervisé. En se basant sur quelques résultats proposant des cadres d'étude théoriques, nous étendons la garantie pour la qualité des représentations apprises dans la phase pré-entrainement non-supervisé avec une perte contrastive et de multiples échantillons négatifs, la qualité étant mesurée en termes de performance prédictive pour les tâches supervisées en aval. En outre, nous fournissons une garantie de convergence quant à la minimisation de la perte contrastive avec la descente de gradient pour un encodeur de réseaux de neurones sur-paramétré. Ces résultats théoriques, combinant des expériences numériques, ouvrent des portes pour une meilleure compréhension des pratiques de pré-entrainement - affinement très utilisées aujourd'hui en apprentissage profond.

La troisième contribution consiste à introduire un nouvel algorithme de type forêt aléatoire, que nous nommons WildWood. Alors que l'algorithme standard de forêt aléatoire utilise des échantillons bootstrap out-of-bag seulement pour calculer des scores, WildWood utilise ces échantillons pour améliorer les prédictions en calculant l'agrégation de tous les sous-arbres possibles de chaque arbre dans la forêt : ce calcul est exact et efficace grâce à l'algorithme de context tree weighting. Nous montrons que théoriquement, la perte induite par une telle agrégation est comparable à celle du meilleur sous-arbre possible. Nous proposons une implémentation Python open-source de WildWood avec une stratégie d'histogramme qui permet d'accélérer la recherche des coupures impliquées dans la construction des arbres. Notre implémentation est rapide et compétitive en comparaison avec d'autres algorithmes ensemblistes bien connus, par exemple la forêt aléatoire standard et les algorithmes d'extrême gradient boosting.

Enfin, le dernier chapitre de cette thèse est consacré à la régression logistique en ligne et considère le regret par rapport à la boule l2 de rayon B. Alors qu'il est connu que les algorithmes propres avec regret logarithmique en le nombre d'itérations n subissent nécessairement un facteur exponentiel en B dans leur borne de regret, quelques algorithmes impropres, bayésiens et non-bayésiens, ont été introduits récemment avec des meilleures garanties. Dans le but d'obtenir une garantie de regret optimale, nous proposons deux algorithmes impropres et non-bayésiens, OSMP et AOSMP, reposant sur une stratégie “minmax à une étape”, avec la fonction de perte exacte pour OSMP, et une fonction de perte approchée pour AOSMP. Nos analyses de regret s'appuient entre autres sur la propriété de self-concordance généralisée de la fonction logistique. Pour OSMP, malgré une borne supérieure obtenue pour les regrets instantanés, nous expliquons en quoi l'amélioration des bornes de regret est une question difficile, à laquelle AOSMP apporte une réponse comparable à l'état de l'art de la garantie de regret.

Mots clefs : Apprentissage statistique, Apprentissage profond, Données de santé, Apprentissage contrastif, Forêts aléatoires, Régression logistique en ligne

PHD defences
Tuesday March 29, 2022, 10:30AM, Salle 16/26 209 et par Zoom
William Da Silva Processus de croissance-fragmentation multitypes et excursions planaires.

This work is devoted to the study of growth-fragmentation processes, in connection with planar excursions and Liouville quantum gravity. In a seminal paper, Bertoin, Budd, Curien and Kortchemski study the branching structure of these particle systems, as well as a particular family obtained in the scaling limit from a Markov peeling process on large random planar maps. We first construct, on a half-planar excursion whose real part is a stable process, a signed version of the growth-fragmentation processes revealed by Bertoin, Budd, Curien and Kortchemski. We then establish the spinal decomposition of signed growth-fragmentation processes, and generalise this approach to processes with a finite number of types. We also focus on an extension to the spatial isotropic setting, where we see that a remarkable family of such processes appears in excursions away from the half-space. Finally, the last part of this thesis presents some advances towards understanding a certain space-filling SLE exploration of a quantum disc. These considerations are interpreted at the level of planar excursions through the Mating-of-trees. We characterise the growth-fragmentation process for a special parameter of the Liouville measure, called pure gravity.

PHD defences
Thursday March 24, 2022, 3PM, Bat Sophie Germain - salle 1014 et par zoom
Junchao Chen Schémas d’approximation numérique probabiliste en finance: méthodes d’apprentissage pour les EDSRs de grande dimension et algorithmes de Monte Carlo sans biais pour des modèles à volatilité stochastique

Ce manuscrit étudie les solutions des équations différentielles stochastiques rétrogrades (EDSRs) et des applications numériques dans le domaine de la finance avec à la fois l'algorithme SGD traditionnel et la méthode d'apprentissage en profondeur. et la représentation probabiliste des modèles de volatilité stochastique avec dérive non bornée. Mots clé: EDSRs, EDPs semi-linéaires, Sparse grids, Algorithme SGD, Deep learning, Grande dimension, Schémas de Runge-Kutta, Représentation probabiliste, Modèle de volatilité stochastique, Méthode de Monte Carlo.

PHD defences
Monday January 17, 2022, 2PM, Salle 16/26 - 209 et par ZOOM
Alexandra Lefebvre Modèles graphiques probabilistes pour la génétique et l’analyse de survie. Application au syndrome de Lynch

Year 2021

PHD defences
Wednesday December 15, 2021, 5:30PM, Bat Sophie Germain - salle 0013 et par zoom
Médéric Motte Les modèles de grande population contrôlée, les comportements économiques, et la publicité ciblée

Les problématiques sur internet donnent lieu à des mathématiques diverses et variées. Les utilisateurs sont constamment amenés à faire des choix sur Internet, et l’utilité associée à ces choix dépend souvent des choix des autres (théorie des jeu en grande population) où de l’aléa (modèles de choix risqué). De plus, la population sur Internet est contrôlées, du moins influencée, par l’action des agents publicitaires. La publicité digitale est en effet un outil stratégique pour les agents voulant diffuser une information, qui conduit naturellement à étudier des problèmes de contrôle en grande population, des algorithmes de prédiction de clic, et des problèmes d’enchère optimal pour la publicité digitale. La soutenance portera sur différents modèles mathématiques développés durant ma thèse pour chacune de ces applications

PHD defences
Monday December 6, 2021, 9:45AM, Couloir 15/25 salle 104 et par Zoom
Clément Bénard Forêts aléatoires et interprétabilité des algorithmes d’apprentissage

Cette thèse traite de l’interprétabilité des algorithmes d’apprentissage dans un contexte industriel. La production manufacturière et la conception de systèmes industriels sont deux exemples d’application où l’interprétabilité des méthodes d’apprentissage permet de comprendre comment les variables d’entrées influent sur la sortie d’un système et donc d’optimiser son efficacité. Malgré l’absence de consensus sur une définition précise de l’interprétabilité, il est possible d’identifier un certain nombre de notions fondamentales : “simplicité, stabilité, précision”, rarement vérifiées simultanément par les méthodes interprétables existantes. La structure et la stabilité des forêts aléatoires en font une approche particulièrement efficace pour améliorer les performances des algorithmes d’apprentissage interprétables. La première partie de cette thèse est consacrée aux méthodes post-hoc, et en particulier aux mesures d’importance de variables dans les forêts aléatoires. Le premier résultat de convergence du MDA de Breiman est établi, et met en évidence un biais important en s’appuyant sur l’analyse de sensibilité. L’algorithme Sobol-MDA est ensuite introduit pour remédier aux défauts du MDA d’origine, en remplaçant le mécanisme de permutation par des projections. Une extension aux indices de Shapley, une mesure d’importance efficace dans le cas d’entrées dépendantes, est proposée avec l’algorithme SHAFF. La deuxième partie de cette thèse est dédiée aux modèles de règles, des algorithmes simples et fortement prédictifs, très souvent instables vis-à-vis de petites perturbations des données d’apprentissage. L’algorithme SIRUS proposé est construit à partir de l’extraction d’un ensemble de règles d’une forêt aléatoire. SIRUS améliore considérablement la stabilité de la liste de règle par rapport aux méthodes concurrentes de l’état de l’art, tout en préservant leur simplicité et leur prédictivité.

PHD defences
Tuesday November 30, 2021, 2PM, Amphithéâtre 15
Pierre Bertrand Conditions de Monge, Transport Optimal et Pont Relationnel : propriétés, applications et extension du couplage d'indétermination

Le point de départ de cette thèse est la justification de la restriction à deux divergences canoniques dans un problème de projection d’une loi de probabilité sur un espace à marges fixées. La première mène au couplage d’indépendance, la seconde à celui dit d’indétermination. L’objet de la thèse est l’étude du second couplage. Le couplage d’indétermination est d’abord vu comme un équilibre grâce à son codage dit relationnel. En récrivant la propriété des matrices de Monge qu’il vérifie, une décomposition d’un tirage est proposée et mène à une propriété de réduction des collisions entre deux réalisations successives. Elle est appliquée à deux problèmes : celui de l’espion et du partitionnement de tâches. Dans le problème du clustering de graphe, la modularité classique est récrite comme un écart à l’indépendance et une modularité d’indétermination est construite. Les similitudes et différences des deux modularités sont étudiées sur les graphes de Gilbert. Une revue des critères de corrélation montre qu’ils s’écrivent comme un écart à l’un ou l’autre des équilibres canoniques. Une forme générale émerge et fait apparaitre un produit scalaire commun encodant la corrélation. Une distribution théorique de ce produit scalaire est établie. L’indétermination est étendue dans le cadre continu tout comme la notion de collision qui est transposée en vraisemblance moyenne. Il est montré qu’une copule associée ne peut être définie que localement. Enfin, un test statistique pour distinguer les deux équilibres est proposé et analysé.

PHD defences
Friday October 15, 2021, 9AM, Tour 15/25 salle 104
Adeline Fermanian Learning time-dependent data with the signature transform

Les applications modernes de l’intelligence artificielle amènent à travailler avec des données temporelles multivariées de grande dimension qui posent de nombreux défis. Par une approche géométrique des flux de données, la notion de signature, représentation d’un processus en un vecteur infini de ses intégrales itérées, est un outil prometteur. Ses propriétés développées dans le cadre de la théorie des chemins rugueux en font en effet un bon candidat pour jouer le rôle de features, ensuite injectées dans des algorithmes d’apprentissage. Si la définition de la signature remonte aux travaux de Chen (1960), son utilisation en apprentissage est récente et de nombreuses questions théoriques et méthodologiques restent à explorer. Nous nous intéressons donc à l’utilisation de la signature pour développer des algorithmes génériques et performants pour les données temporelles de grande dimension, ainsi que de leur fournir des garanties théoriques. Ce but se déploie principalement dans deux directions : d’une part, développer de nouveaux algorithmes prenant en entrée la signature des données, d’autre part utiliser la signature comme un outil théorique pour étudier les algorithmes existants d’apprentissage profond, via la notion récente de neural ordinary differential equation qui fait le lien entre apprentissage profond et équations différentielles.

PHD defences
Monday September 27, 2021, 9:30AM, Paul Levy
Florian Bechtold Regularization phenomena for stochastic (partial) differential equations via Itô- and pathwise stochastic calculi

In this thesis, we study three instances of regularization phenomena for stochastic (partial) differential equations (SPDEs). We first study semilinear SPDEs with unbounded diffusion terms: By deriving a generalization to the maximal inequality for stochastic convolutions harnessing the regularizing effect of the appearing semigroup, we are able to establish existence of strong solutions in the subcritical regime. We moreover use the associated sequence of subcritical solutions to establish existence of a martingale solution in the critical case via the Flandoli-Gatarek compactness method.

Secondly, we establish a law of large numbers for interacting particle systems without imposing independence or finite moment assumptions on the initial conditions: Towards this end, we establish a non-closed equation satisfied by the associated empirical measure in a mild sense that differs from the expected limiting McKean-Vlasov PDE only by a certain noise term. In treating said noise term, we employ pathwise rough path bounds and arguments based on Itô-calculus in a complementary fashion that allow to establish the desired law of large numbers.

Finally we investigate regularization phenomena through averaging along curves. Based on recent space-time regularity estimates for local times of fractional Brownian motion in one dimension, we study averaged transport equations in passing by their associated regularized characteristics. By employing a fixed point argument on the level of transport equations, we are able to subsequently pass to a Burgers' type equation averaged along paths of fractional Brownian motion. The arguments at each step are conditional on the Hurst parameter satisfying explicitly established conditions.

PHD defences
Thursday September 16, 2021, 2PM, En visio
Alexandre Legrand “Perturbations de la transition d'adsorption dans des modèles de polymères”

Cette thèse étudie deux modèles de polymères, chacun présentant un phénomène de transition de phase d'adsorption. Le premier modèle concerne un polymère interagissant avec son solvant et avec un mur dur. Si l'affinité chimique du polymère avec le solvant est suffisamment faible, le polymère s'effondre sur lui-même pour former un globule compact. Dans ce régime, nous étudions l'interaction entre le globule et le mur, et explicitons un phénomène de transition de surface. Nous donnons également un équivalent asymptotique exact de la fonction de partition du polymère effondré dans le cas où il n'y a pas de mur. Le second est une modélisation du phénomène de dénaturation des brins d'ADN, ou plus généralement de deux polymères pouvant s'accrocher entre eux. Nous étudions l'effet que des inhomogénéités dans la composition des polymères ont sur la transition de dénaturation, en terme de (non)-pertinence d'un champ de désordre fortement corrélé. Nous étudions également la limite d'échelle de désordre intermédiaire de ce modèle.

PHD defences
Friday January 15, 2021, 10:45AM, N/A
Félix Foutel-Rodier Scaling limits of branching and coalescing models arising in population biology