Soutenances



Year 2022

PHD defences
Thursday November 24, 2022, 10AM, Salle Paul Lévy, 16-26 209
Arthur Blanc-Renaudie Limites d'échelles d'arbres et de graphes inhomogènes

Dans cette thèse, on étudie certains modèles d’arbres ( D -arbre, P -arbre, ICRT) et de graphes (modèle de configuration, graphe multiplicatif) à suite de degrés fixés. Pour cela, on développe de nouveaux algorithmes qui construisent ces modèles en collant des branches les unes sur les autres. En analysant ces constructions, on obtient des résultats sur la géométrie de nos modèles.

Pour les analyser, on utilise principalement deux méthodes. Tout d’abord, on modifie nos algorithmes pour étudier les tailles des premières branches et là où elles sont collées. Ensuite, pour prouver que nos modèles sont proches de leurs premières branches, on utilise la méthode de chainage. Plus précisément, on divise nos algorithmes en grandes étapes, et on prouve qu’entre deux grandes étapes les objets que l’on construit ne changent pas beaucoup.

Dans le chapitre 2 , on étudie les ICRT et notamment leur compacité et dimension fractales. Dans le chapitre 3 , on prouve des limites d’échelles des arbres à suite de degrés fixés, et on majore leur hauteur. Dans le chapitre 4 , on prouve des limites d’échelles pour les multigraphes à suites de degrés fixés et surplus fixés, et on précise des connexions entre le modèle de configuration et les graphes multiplicatifs. Dans le chapitre 5 , on invente une théorie d’ R -arbre plan ce qui nous permet de définir et d’étudier les ICRT plans, leurs “arbres-boucles”, et des champs sur ces objets. Ce chapitre a pour but d’être appliqué à l’étude des cartes aléatoires à suite de face-degrés fixés.

PHD defences
Friday October 21, 2022, 2:30PM, 16-26 219
Bouazza Saadeddine Learning From Simulated Data in Finance: XVAs, Risk Measures and Calibration

Résumé français: L'émergence de cadres XVA complexes et de modèles d'évaluation coûteux en temps de calcul a encouragé les chercheurs et les praticiens de la finance à se pencher sur les méthodes d'apprentissage statistique pour accélérer leurs calculs. Cette thèse vise à proposer de nouvelles approches basées sur les réseaux de neurones. Tout d'abord, nous proposons un cadre XVA cohérent et une implémentation pratique utilisant des régressions par moindres carrés et des régressions quantiles/expected shortfall avec des réseaux de neurones et le calcul sur GPU. Notre implémentation évite les simulations Nested Monte Carlo et n'a pas besoin des approximations habituelles utilisées par les praticiens. Ensuite, nous abordons la question de l'apprentissage des espérances ou des mesures de risque conditionnelles en présence d'événements de défaut dans un cadre général. Nous proposons pour cela un nouveau schéma de simulation et fournissons une analyse de convergence statistique et des expériences numériques démontrant son efficacité. Nous étudions également la convergence statistique d'une approche d'apprentissage de quantile et expected shortfall en deux étapes et nous proposons des schémas d'apprentissage basés sur des réseaux de neurones pour les cas à un et plusieurs quantiles. Nous abordons aussi la question du croisement des quantiles. Motivés par le fait que la fongibilité du capital à risque avec la marge de variation dans les calculs XVA donne lieu à des équations différentielles stochastiques rétrogrades anticipées, nous proposons un schéma d'apprentissage explicite pour de telles équations. Enfin, nous proposons une approche de projection pour approximer le prix des options vanilles dans un contexte de calibration de modèles pour accélérer cette dernière. Notre méthode, basée sur la différenciation à pas complexe, enrichit l'apprentissage en cherchant à projeter des dérivées directionnelles stochastiques.

English abstract: The emergence of complex XVA frameworks and time-consuming pricing models has encouraged researchers and finance practitioners to look at statistical learning methods to accelerate their calculations. The present thesis aims to contribute new approaches based on neural networks. First, we propose a consistent XVA framework along with a practical implementation using neural networks least-squares and quantile/expected shortfall regressions and GPU computing. Our implementation avoids Nested Monte Carlo simulations and does not need the usual approximations used by practitioners. Then, we address the issue of learning conditional expectations or risk measures in the presence of default events in a general framework. For this, we propose a new simulation scheme and provide a statistical convergence analysis and numerical experiments demonstrating its effectiveness. We also study the statistical convergence of a two-step quantile and expected shortfall learning approach and provide learning schemes based on neural networks for the single and multiple quantile learning cases. We address the quantile crossing issue as well. Motivated by the fact that the fungibility of the risk capital with variation margin in XVA calculations gives rise to anticipated backward stochastic differential equations, we devise an explicit learning scheme for such equations. Finally, we provide a projection approach to approximate the price of vanilla options in the context of model calibration to accelerate the latter. Our method, based on complex-step differentiation, augments the learning by seeking to project stochastic directional derivatives.

PHD defences
Thursday October 13, 2022, 2PM, 15-16 201
Lucas Broux Sewing, Reconstruction and Schauder in rough analysis and regularity structures

Résumé: Dans cette thèse, nous obtenons des résultats analytiques liés aux théories des chemins rugueux et des structures de régularité, du point de vue des germes, c'est-à-dire des familles d'approximations locales de fonctions ou distributions.

D'abord, nous établissons un lemme de couture dans le régime 0 < gamma ⇐ 1, donnant une construction qui n'est pas unique ni canonique mais tout de même continue. En corollaire, nous exhibons une paramétrisation bicontinue de l'ensemble des chemins rugueux par un produit d'espaces de Hölder, généralisant à la fois le théorème d'extension de Lyons–Victoir et un résultat récent de Tapia–Zambotti.

Ensuite, nous proposons un théorème de reconstruction dans le contexte des espaces de Besov, généralisant des résultats de Hairer–Labbé et Caravenna–Zambotti. En corollaire, nous donnons une nouvelle preuve du théorème de multiplication dans les espaces de Besov, sans utiliser de paraproduits.

Enfin, nous étudions les propriétés régularisantes des noyaux singuliers contre les germes. Un premier résultat est la construction d'une application de convolution qui agit sur les germes cohérents et homogènes. Nous revisitons ensuite les estimées de Schauder multiniveaux de Hairer, donnant une présentation et une preuve qui font référence aussi peu que possible au formalisme des structures de régularité.

Abstract: In this thesis, we derive analytic results related to the theories of Rough Paths and Regularity Structures, with the point of view of germs, that is, families of local approximations of functions or distributions.

We first establish a Sewing Lemma in the regime 0 < gamma ⇐ 1, giving a construction which is non unique nor canonical but still continuous. As a corollary, we exhibit a bicontinuous parametrisation of the set of Rough Paths by a product of Hölder spaces, generalising both the Lyons–Victoir extension theorem and a recent result by Tapia–Zambotti.

Secondly, we propose a Reconstruction Theorem in the context of Besov spaces, generalising results of Hairer–Labbé and Caravenna–Zambotti. As a corollary, we provide a new proof of the multiplication theorem in Besov spaces without relying on paraproducts. Finally, we study the regularising properties of singular kernels against germs. A first result is the construction of a convolution map which acts on general coherent and homogeneous germs. We also revisit Hairer's multilevel Schauder estimates, providing a presentation and a proof which make only minimal references to the formalism of regularity structures.

https://us02web.zoom.us/j/88175681924?pwd=MUE2cDBENkpMaSthK0ZzckVWeGtOQT09

ID de réunion : 881 7568 1924 Code secret : 707015

PHD defences
Monday October 10, 2022, 2PM, À distance
David Lee Le théorème de reconstruction et la technique d’extension

Résumé: Dans cette thèse, nous nous concentrons sur deux problèmes d’analyse et de probabilité. Le premier étant un probléme relatif au théoréme de reconstruction de Martin Hairer et le second relatif à la technique d’extension de Caffarelli et Silvestre.

Nous considérons d’abord la formulation alternative du théorème de reconstruction faite par Caravenna et Zambotti mais nous généralisons ce résultat dans le cadre de Besov.

Deuxiémement, nous développons un calcul fonctionnel en utilisant une généralisation de la technique d’extension grâce à Kwaśnicki et Mucha .

Enfin, nous nous concentrons sur une approche alternative de la technique d’extension de Kwaśnicki et Mucha utilisant la théorie des fonctionnelles additives continues. Profitant de cette approche, nous montrons comment nous pouvons obtenir des exemples explicites de techniques d’extension.

Abstract: In this thesis, we focus on two problems within analysis and probability. The first being a problem relating to the so-called reconstruction theorem due to Martin Hairer and the second relating to the extension technique due to Caffarelli and Silvestre.

We first consider the alternative formulation of the reconstruction theorem done by Caravenna and Zambotti but we generalize this result within the Besov framework.

Secondly, we develop a functional calculus using a generalization of the extension technique due to Kwaśnicki and Mucha.

Lastly, we focus on an alternative approach of the extension technique from Kwaśnicki and Mucha utilizing the theory of continuous additive functionals. Taking advantage of this approach we show how one can obtain explicit examples of extension techniques.

https://us02web.zoom.us/j/84803228873?pwd=T1BhV2ZuWjc4N3BzcjQwelI2K3ZWdz09

ID de réunion : 848 0322 8873 Code secret : 135239

PHD defences
Thursday September 29, 2022, 2PM, Tour 16/26 Salle 113
Nicklas Hasseriis Werge Learning from time-dependent streaming data with online stochastic algorithms

In recent decades, intelligent systems, such as machine learning and artificial intelligence, have become mainstream in many parts of society. However, many of these methods often work in a batch or offline learning setting, where the model is re-trained from scratch when new data arrives. Such learning methods suffer some critical drawbacks, such as expensive re-training costs when dealing with new data and thus poor scalability for large-scale and real-world applications. At the same time, these intelligent systems generate a practically infinite amount of large datasets, many of which come as a continuous stream of data, so-called streaming data. Therefore, first-order methods with low per-iteration computational costs have become predominant in the literature in recent years, in particular the Stochastic Gradient (SG) descent (Robbins and Monro, 1951). These SG methods have proven scalable and robust in many areas ranging from smooth and strongly convex problems to complex non-convex ones, which makes them applicable in many learning tasks for real-world applications where data are large in size (and dimension) and arrive at a high velocity. Such first-order methods have been intensively studied in theory and practice in recent years (Bottou et al., 2018). Nevertheless, there is still a lack of theoretical understanding of how dependence and biases affect these learning algorithms. A central theme in this thesis is to learn from time-dependent streaming data and examine how changing data streams affect learning. To achieve this, we first construct the Stochastic Streaming Gradient (SSG) algorithm, which can handle streaming data; this includes several SG-based methods, such as the well-known SG descent and mini-batch methods, along with their Polyak-Ruppert average estimates (Polyak and Juditsky, 1992; Ruppert, 1988). The SSG combines SG-based methods’ applicability, computational benefits, variance-reducing properties through mini-batching, and the accelerated convergence from Polyak-Ruppert averaging. Our analysis links the dependency and convexity level, enabling us to improve convergence. Roughly speaking, SSG methods can converge using non-decreasing streaming batches, which break long-term and short-term dependence, even using biased gradient estimates. More surprisingly, these results form a heuristic that can help increase the stability of SSG methods in practice. In particular, our analysis reveals how noise reduction and accelerated convergence can be achieved by processing the dataset in a specific pattern, which is beneficial for large-scale learning problems. At last, we propose an online adaptive recursive estimation routine for Generalized AutoRegressive Conditional Heteroskedasticity (GARCH) models called AdaVol. The AdaVol procedure relies on stochastic algorithms combined with Variance Targeting Estimation (VTE); AdaVol has computationally efficient properties, while VTE overcomes some convergence difficulties due to the lack of convexity of the Quasi-Maximum Likelihood (QML) procedure. Empirical demonstrations show favorable trade-offs between AdaVol’s stability and its ability to adapt to time-varying estimates.

PHD defences
Wednesday September 28, 2022, 2PM, Tour 16/26 Salle 209 et sur Google Meet
Thibault Randrianarisoa Contributions à l’analyse théorique de méthodes d’apprentissage statistique et de quantification de l’incertitude

L'analyse moderne des données fournit aux scientifiques des algorithmes statistiques et d'apprentissage automatique aux performances impressionnantes. Face à leur utilisation intensive pour traiter des problèmes dont la complexité ne cesse de croître, il existe un réel besoin de comprendre les conditions dans lesquelles ceux-ci fonctionnent ou sont voués à l'échec. Ainsi, un cadre naturel pour développer une théorie mathématique de ces méthodes est celui de l'inférence non-paramétrique. Ce domaine de la statistique s'intéresse à l'inférence de quantités inconnues sous des hypothèses minimales avec la modélisation statistique en dimension infinie d'une quantité paramétrant la loi des données. Dans cette thèse, nous étudions les problèmes d'estimation de fonctions et de quantification de l'incertitude.

La première classe d'algorithmes que nous considérons est celle des méthodes bayésiennes basée sur des structures d'arbres. Elles reposent sur le principe de 'diviser pour mieux régner', en partitionnant l'espace des données pour estimer le paramètre localement. En régression, ces méthodes incluent BCART et BART, cette dernière étant un ensemble d'arbres ou “forêt“. En estimation de densité, les arbres de Pólya sont un exemple de telles lois a priori et constituent la base d'une myriade de constructions connexes. Nous proposons une nouvelle extension, DPA, qui est une “forêt de Pólya” et permet d'atteindre des vitesses de contraction minimax, de manière adaptative, en distance de Hellinger pour des régularités de Hölder arbitraires. Des vitesses adaptatives dans la norme infinie sont également obtenues pour la loi a priori des arbres de Pólya optionnel (OPT), similaire à BCART en régression, pour des fonctions de régularité Lipschitz.

Les processus gaussiens (GP) sont une autre classe populaire de lois étudiées en statistique bayésienne nonparamétrique et en apprentissage automatique. Motivés par la taille toujours croissante des bases de données, nous proposons un nouveau processus gaussien 'horseshoe' avec une couche de sélection de variables 'soft' pour pouvoir tirer parti d'une dimension des données plus petite que celle de l'espace ambiant. Nous dérivons des vitesses de contraction optimales pour les loi a posteriori tempérées. Les processus gaussiens profonds sont les homologues bayésiens des célèbres réseaux neuronaux profonds. Nous prouvons que, en tant qu'élément de base dans une telle construction, les GP ‘horseshoe' donnent également des vitesses adaptatives sous des hypothèses de structure de composition du paramètre.

En ce qui concerne la quantification de l'incertitude (UQ), les méthodes bayésiennes sont souvent louées pour la solution qu'elles fournissent avec la définition des ensembles de crédibilité. Nous prouvons que ces ensembles construits sous OPT sont des ensembles de confiance avec un niveau de confiance exact et une taille optimale (ou quasi-optimale) en norme infinie sous des conditions qualitatives d'auto-similarité. De plus, nous menons une étude théorique de l'UQ pour les distances de Wasserstein Wp et mettons en lumière un nouveau phénomène. En dimensions inférieures à 4, il est toujours possible de construire des ensembles de confiance dont les rayons en distance Wp, p⇐2, s'adaptent à n'importe quelles régularités (sans hypothèses qualitatives). Cela contraste fortement avec la théorie habituelle en norme Lp, où des concessions doivent toujours être faites.

PHD defences
Monday July 11, 2022, 1:30PM, salle 1009 à Sophie Germain
Sothea Has Modèles prédictifs par agrégation consensuelle et applications

This work aims at combining supervised and unsupervised information of data for prediction. Three important projects are presented. The first project is “KFC : a clusterwise supervised learning procedure based on aggregation of distances”. It is a three-step procedure for constructing prediction in supervised statistical learning problems. KFC stands for K-means/Fit/Combining. Several performances of the method are illustrated in this part on several synthetic and real energy data. The second project is “A kernel-based consensual aggregation method for regression”, which is inspired by the numerical experiments of the previous project. The method is a generalization of consensual aggregation method introduced by Biau et al. (2016) to regular kernel-based setting. The consistency inheritance property of the method is derived, and is confirmed through many numerical experiments on simulated and real datasets. Lastly, the third project is a study of consensual aggregation method on randomly projected high-dimensional features of predictions. The aggregation scheme is composed of two steps: the high-dimensional features of predictions are randomly projected into a small subspace in the first step, then the aggregation method is applied on the projected features in the second step. We numerically show that the consensual aggregation method upholds its performance on very large and highly correlated features of predictions. Moreover, we theoretically show that the performance of the method is almost preserved in much smaller subspaces of projection, with high probability. This shows the robustness of the method in a sense that several types of predictive models can be plainly constructed and directly combined without model selection or cross-validation technique.

PHD defences
Thursday July 7, 2022, 9:30AM, Par Zoom
Hiroshi Horii Large-time asymptotics of anomalous fluctuations in heavy-tailed renewal-reward processes

For example, how many times do we have to change the light bulb in a room in 10 years? Each light bulb has different lifetimes and they are distributed randomly according to, for example, the gamma distribution. Knowing this distribution, one can estimate not only how many light bulbs are needed on average during 10 years, but also the range of the number of required light bulbs with 95% probability.

This kind of random phenomenon can be explained using a renewal-reward process and by constructing the model, we can estimate the expected value and the fluctuations of the interested stochastic process. Also, this stochastic process becomes the generalization of Markov jump processes and it can contain memory effects. Thus, this is a useful model because the process can describe a broad spectrum of phenomena in physics and other fields, including a melt-up of the stock market and a super spreader in epidemics, where memory effects are known to be important.

In this thesis, our main motivation is to clarify the finite-time behavior of anomalous fluctuations. For studying the topic, we start by introducing the definition of a renewal-reward process and the large deviation theory. Afterward, we show the result of anomalous fluctuations behavior, especially the fluctuations of the renewal-reward process with memory effects, in renewal-reward processes with heavy-tailed waiting time distributions.

In the first work, we study the large time asymptotic of renewal-reward processes with a heavy-tailed waiting time distribution. It is known that the heavy tail of the distribution produces extremely slow dynamics, resulting in a singular large deviation function. This amounts to a “flattened” bottom of the large deviation function, manifesting anomalous fluctuations of the renewal-reward processes.

In the second work, we re-visit the flat part in the cumulant generating function by using a variational principle and a numerical simulation technique developed in large deviation theory. These techniques have been applied to study a singularity appearing in the large deviation function in, among others, kinetically constrained models and active matters. These models are defined using Markov processes, because of which the large deviation function of time-averaged quantities does not have any singularity whenever the system size (not the averaging time) is finite. Our focus is on how the same methodology can be extended to our non-Markovian problem to derive the flat part.

In the third work, by using the renewal theory, we discuss anomalous scaling of the cumulants with memory effects in a renewal-reward process instead of focusing on the probability of rare events. In particular, we analyze the variance of heavy waiting time distributions.

PHD defences
Wednesday June 22, 2022, 2PM, Tour 15/25 salle 104 et par zoom
Joseph De Vilmarest Modèles espace-état pour la prévision de séries temporelles. Application aux marchés électriques

L'électricité étant difficile à stocker, prévoir la demande est un enjeu majeur pour maintenir l'équilibre entre la production et la consommation. L'évolution des usages de l'électricité, le déploiement des énergies renouvelables, et plus récemment la crise du coronavirus, motivent l'étude de modèles qui évoluent au cours du temps, pour tenir compte des changements de comportements. L'objectif de ce travail est de proposer des méthodes adaptatives de prévision, et nous nous sommes intéressés tout spécialement au cadre des modèles espace-état. Dans ce paradigme, on représente l'environnement (ou le contexte) par un état caché. À chaque instant, la demande dépend de cet état que nous cherchons donc à estimer grâce aux observations dont nous disposons, et selon les hypothèses que l'on effectue sur la dynamique du système. L'estimation de l'état nous permet ensuite de prévoir la demande.

Un premier objectif de la thèse est de contribuer au lien entre l'optimisation et l'estimation dans les modèles espace-état. Nous interprétons en effet les méthodes que nous utilisons comme diverses façons de paramétrer un algorithme de descente de gradient de second ordre, et nous avons détaillé ce lien dans un cas particulier. Une seconde contribution de la thèse est de proposer différentes méthodes d'estimation dans les modèles espace-état. Le principal enjeu nous semble être de définir la dynamique avec lequel évolue l'état, et nous proposons deux méthodes dans ce but. Le troisième apport de ce manuscrit est d'appliquer ces méthodes espace-état à la prévision de consommation d'électricité. Nos prévisions s'appuient sur des modèles de prévision existants, par exemple le modèle additif généralisé, que nous cherchons à adapter. Ainsi, nous tirons parti de certaines dépendances complexes capturées par les modèles existants, par exemple la sensibilité de la consommation d'électricité à la température, tout en profitant de la faculté d'adaptation des modèles espace-état.

PHD defences
Monday June 20, 2022, 3:30PM, Bat Sophie Germain - salle 1003 et par zoom
Maximilien Germain Machine learning for stochastic control and partial differential equations in high dimension

This thesis studies several machine learning numerical schemes to solve nonlinear PDEs and mean-field control in moderate to high dimension and is divided in two parts.

The first part focuses on the resolution of parabolic nonlinear PDEs. We describe a multistep neural network scheme which improves existing methods from the literature. One of our contributions is the study of its approximation error together with the ones of existing methods in the semilinear case where the equation is linear with respect to the second order derivative. By using Lipschitz GroupSort neural networks, we are able to link the error to the number of layers and neurons of the approximating network. We also develop one-step and multistep schemes in the more challenging case of fully nonlinear PDEs, based on Malliavin weights and automatic differentiation. All the numerical schemes are tested on numerical examples to demonstrate their relevance.

The second part of this work is dedicated to mean-field control and McKean-Vlasov equations. We prove by probabilistic arguments a rate of convergence for the finite dimensional approximation of a PDE on the Wasserstein space. We then use symmetric DeepSet neural networks to solve symmetric PDEs in high dimension. Hence we are able to approximate numerically mean-field control problems by solving their optimality conditions in the form of a Master Bellman PDE in infinite dimension. We then consider mean-field control with probabilistic state constraints on the law of the controlled state. We represent the problem by an auxiliary unconstrained problem with exact penalisation which can be solved by the modification of an existing brute force deep learning scheme.

PHD defences
Tuesday May 31, 2022, 9AM, Salle 15/25 104 et par Zoom
Gloria Buritica Borda Assessing the time dependence of multivariate extremes for heavy rainfall modeling

Nowadays, it is common in environmental sciences to use extreme value theory to assess the risk of natural hazards. In hydrology, rainfall amounts reach high-intensity levels frequently, which suggests modeling heavy rainfall from a heavy-tailed distribution. In this setting, risk management is crucial for preventing the outrageous economic and societal consequences of flooding or landsliding. Furthermore, climate dynamics can produce extreme weather lasting numerous days over the same region. However, even in the stationary setting, practitioners often disregard the temporal memories of multivariate extremes. This thesis is motivated by the case study of fall heavy rainfall amounts from a station’s network in France. Its main goal is twofold. First, it proposes a theoretical framework for modeling time dependencies of multivariate stationary regularly varying time series. Second, it presents new statistical methodologies to thoughtfully aggregate extreme recordings in space and time.

To achieve this plan, we consider consecutive observations, or blocks, and analyze their extreme behavior as their lp-norm reaches high levels, for p > 0. This consideration leads to the theory of p-clusters, which model extremal lp-blocks. In the case p = ∞, we recover the classical cluster (of exceedances). For p < ∞, we built on large deviations principles for heavy-tailed observations. Then, we study in depth two setups where p-cluster theory appears valuable. First, we design disjoint blocks estimators to infer statistics of p-clusters, e.g., the extremal index. Actually, p-clusters are linked through a change of norms functional. This relationship opens the road for improving cluster inference since we can now estimate the same quantity with different choices of p. We show cluster inference based on p < ∞ is advantageous compared to the classical p = ∞ strategy in terms of bias. Second, we propose the stable sums method for high return levels inference. This method enhances marginal inference by aggregating extremes in space and time using the lp-norm, where α > 0 is the (tail) index of the series. In simulation, it appears to be robust for dealing with temporal memories and it is justified by the α-cluster theory.

PHD defences
Wednesday April 6, 2022, 9:30AM, Par Zoom
Yiyang Yu Apprentissage profond en santé publique, et contributions en apprentissage statistique

Le développement d'algorithmes efficaces pour apprendre des représentations appropriées de données structurées, telles que des séquences d'événements datés provenant de la vie réelle, est un défi majeur et central de l’apprentissage automatique. Dans cette optique, l’apprentissage profond est devenu populaire pour modéliser des données structurées, parfois combiné avec des techniques de pré-entraînement. En même temps, d'autres méthodes d'apprentissage statistique plus “classiques”, comme les forêts aléatoires ou la régression, occupent toujours une place importante dans la pratique à cause de leur efficacité. Dans cette thèse, nous apportons quelques contributions à l'étude théorique et numérique de certains problèmes de l'apprentissage statistique, ainsi que l'application de l'apprentissage profond aux données de la santé publique.

La première contribution consiste à introduire un nouveau modèle appelé ZiMM (Zero-inflated Mixture of Multinomial distributions), et une architecture Encodeur-Décodeur (ED) de réseaux de neurones profonds entraînés de-bout-en-bout, modélisant les parcours de soins pour la prédiction des complications post-chirurgicales. ZiMM-ED est appliqué aux données de santé de remboursement de soins provenant du Système National des Données de Santé (SNDS) en France, qui est une base de données non-clinique, contenant seulement les codes de remboursement datés d'achats de médicaments et des diagnostics hospitaliers. En particulier, nous considérons les complications jusqu'au 18e mois après la chirurgie, ce qui correspond à des observations “floues” car seulement observées à partir des achats de médicaments d'une famille spécifique. Nos expériences montrent les améliorations en termes de performance prédictive de ZiMM-ED par rapport à plusieurs modèles de référence. ZiMM-ED ouvre la voie de l'exploitation d'un tel jeu de données avec peu de pré-traitement à grâce aux réseaux de neurones profonds. Cette base de données est jusque-là utilisée principalement pour des raisons administratives (remboursement des soins de santé), et nous montrons le pouvoir prédictif des réseaux de neurones profonds dessus sur une telle base de données avec un cas précis.

La deuxième contribution porte sur l'étude théorique de l'apprentissage contrastif de représentation, une technique récemment devenue populaire et expérimentalement efficace pour l'entraînement auto-supervisé. En se basant sur quelques résultats proposant des cadres d'étude théoriques, nous étendons la garantie pour la qualité des représentations apprises dans la phase pré-entrainement non-supervisé avec une perte contrastive et de multiples échantillons négatifs, la qualité étant mesurée en termes de performance prédictive pour les tâches supervisées en aval. En outre, nous fournissons une garantie de convergence quant à la minimisation de la perte contrastive avec la descente de gradient pour un encodeur de réseaux de neurones sur-paramétré. Ces résultats théoriques, combinant des expériences numériques, ouvrent des portes pour une meilleure compréhension des pratiques de pré-entrainement - affinement très utilisées aujourd'hui en apprentissage profond.

La troisième contribution consiste à introduire un nouvel algorithme de type forêt aléatoire, que nous nommons WildWood. Alors que l'algorithme standard de forêt aléatoire utilise des échantillons bootstrap out-of-bag seulement pour calculer des scores, WildWood utilise ces échantillons pour améliorer les prédictions en calculant l'agrégation de tous les sous-arbres possibles de chaque arbre dans la forêt : ce calcul est exact et efficace grâce à l'algorithme de context tree weighting. Nous montrons que théoriquement, la perte induite par une telle agrégation est comparable à celle du meilleur sous-arbre possible. Nous proposons une implémentation Python open-source de WildWood avec une stratégie d'histogramme qui permet d'accélérer la recherche des coupures impliquées dans la construction des arbres. Notre implémentation est rapide et compétitive en comparaison avec d'autres algorithmes ensemblistes bien connus, par exemple la forêt aléatoire standard et les algorithmes d'extrême gradient boosting.

Enfin, le dernier chapitre de cette thèse est consacré à la régression logistique en ligne et considère le regret par rapport à la boule l2 de rayon B. Alors qu'il est connu que les algorithmes propres avec regret logarithmique en le nombre d'itérations n subissent nécessairement un facteur exponentiel en B dans leur borne de regret, quelques algorithmes impropres, bayésiens et non-bayésiens, ont été introduits récemment avec des meilleures garanties. Dans le but d'obtenir une garantie de regret optimale, nous proposons deux algorithmes impropres et non-bayésiens, OSMP et AOSMP, reposant sur une stratégie “minmax à une étape”, avec la fonction de perte exacte pour OSMP, et une fonction de perte approchée pour AOSMP. Nos analyses de regret s'appuient entre autres sur la propriété de self-concordance généralisée de la fonction logistique. Pour OSMP, malgré une borne supérieure obtenue pour les regrets instantanés, nous expliquons en quoi l'amélioration des bornes de regret est une question difficile, à laquelle AOSMP apporte une réponse comparable à l'état de l'art de la garantie de regret.

Mots clefs : Apprentissage statistique, Apprentissage profond, Données de santé, Apprentissage contrastif, Forêts aléatoires, Régression logistique en ligne

PHD defences
Tuesday March 29, 2022, 10:30AM, Salle 16/26 209 et par Zoom
William Da Silva Processus de croissance-fragmentation multitypes et excursions planaires.

This work is devoted to the study of growth-fragmentation processes, in connection with planar excursions and Liouville quantum gravity. In a seminal paper, Bertoin, Budd, Curien and Kortchemski study the branching structure of these particle systems, as well as a particular family obtained in the scaling limit from a Markov peeling process on large random planar maps. We first construct, on a half-planar excursion whose real part is a stable process, a signed version of the growth-fragmentation processes revealed by Bertoin, Budd, Curien and Kortchemski. We then establish the spinal decomposition of signed growth-fragmentation processes, and generalise this approach to processes with a finite number of types. We also focus on an extension to the spatial isotropic setting, where we see that a remarkable family of such processes appears in excursions away from the half-space. Finally, the last part of this thesis presents some advances towards understanding a certain space-filling SLE exploration of a quantum disc. These considerations are interpreted at the level of planar excursions through the Mating-of-trees. We characterise the growth-fragmentation process for a special parameter of the Liouville measure, called pure gravity.

PHD defences
Thursday March 24, 2022, 3PM, Bat Sophie Germain - salle 1014 et par zoom
Junchao Chen Schémas d’approximation numérique probabiliste en finance: méthodes d’apprentissage pour les EDSRs de grande dimension et algorithmes de Monte Carlo sans biais pour des modèles à volatilité stochastique

Ce manuscrit étudie les solutions des équations différentielles stochastiques rétrogrades (EDSRs) et des applications numériques dans le domaine de la finance avec à la fois l'algorithme SGD traditionnel et la méthode d'apprentissage en profondeur. et la représentation probabiliste des modèles de volatilité stochastique avec dérive non bornée. Mots clé: EDSRs, EDPs semi-linéaires, Sparse grids, Algorithme SGD, Deep learning, Grande dimension, Schémas de Runge-Kutta, Représentation probabiliste, Modèle de volatilité stochastique, Méthode de Monte Carlo.

PHD defences
Monday January 17, 2022, 2PM, Salle 16/26 - 209 et par ZOOM
Alexandra Lefebvre Modèles graphiques probabilistes pour la génétique et l’analyse de survie. Application au syndrome de Lynch


Year 2021

PHD defences
Wednesday December 15, 2021, 5:30PM, Bat Sophie Germain - salle 0013 et par zoom
Médéric Motte Les modèles de grande population contrôlée, les comportements économiques, et la publicité ciblée

Les problématiques sur internet donnent lieu à des mathématiques diverses et variées. Les utilisateurs sont constamment amenés à faire des choix sur Internet, et l’utilité associée à ces choix dépend souvent des choix des autres (théorie des jeu en grande population) où de l’aléa (modèles de choix risqué). De plus, la population sur Internet est contrôlées, du moins influencée, par l’action des agents publicitaires. La publicité digitale est en effet un outil stratégique pour les agents voulant diffuser une information, qui conduit naturellement à étudier des problèmes de contrôle en grande population, des algorithmes de prédiction de clic, et des problèmes d’enchère optimal pour la publicité digitale. La soutenance portera sur différents modèles mathématiques développés durant ma thèse pour chacune de ces applications

PHD defences
Monday December 6, 2021, 9:45AM, Couloir 15/25 salle 104 et par Zoom
Clément Bénard Forêts aléatoires et interprétabilité des algorithmes d’apprentissage

Cette thèse traite de l’interprétabilité des algorithmes d’apprentissage dans un contexte industriel. La production manufacturière et la conception de systèmes industriels sont deux exemples d’application où l’interprétabilité des méthodes d’apprentissage permet de comprendre comment les variables d’entrées influent sur la sortie d’un système et donc d’optimiser son efficacité. Malgré l’absence de consensus sur une définition précise de l’interprétabilité, il est possible d’identifier un certain nombre de notions fondamentales : “simplicité, stabilité, précision”, rarement vérifiées simultanément par les méthodes interprétables existantes. La structure et la stabilité des forêts aléatoires en font une approche particulièrement efficace pour améliorer les performances des algorithmes d’apprentissage interprétables. La première partie de cette thèse est consacrée aux méthodes post-hoc, et en particulier aux mesures d’importance de variables dans les forêts aléatoires. Le premier résultat de convergence du MDA de Breiman est établi, et met en évidence un biais important en s’appuyant sur l’analyse de sensibilité. L’algorithme Sobol-MDA est ensuite introduit pour remédier aux défauts du MDA d’origine, en remplaçant le mécanisme de permutation par des projections. Une extension aux indices de Shapley, une mesure d’importance efficace dans le cas d’entrées dépendantes, est proposée avec l’algorithme SHAFF. La deuxième partie de cette thèse est dédiée aux modèles de règles, des algorithmes simples et fortement prédictifs, très souvent instables vis-à-vis de petites perturbations des données d’apprentissage. L’algorithme SIRUS proposé est construit à partir de l’extraction d’un ensemble de règles d’une forêt aléatoire. SIRUS améliore considérablement la stabilité de la liste de règle par rapport aux méthodes concurrentes de l’état de l’art, tout en préservant leur simplicité et leur prédictivité.

PHD defences
Tuesday November 30, 2021, 2PM, Amphithéâtre 15
Pierre Bertrand Conditions de Monge, Transport Optimal et Pont Relationnel : propriétés, applications et extension du couplage d'indétermination

Le point de départ de cette thèse est la justification de la restriction à deux divergences canoniques dans un problème de projection d’une loi de probabilité sur un espace à marges fixées. La première mène au couplage d’indépendance, la seconde à celui dit d’indétermination. L’objet de la thèse est l’étude du second couplage. Le couplage d’indétermination est d’abord vu comme un équilibre grâce à son codage dit relationnel. En récrivant la propriété des matrices de Monge qu’il vérifie, une décomposition d’un tirage est proposée et mène à une propriété de réduction des collisions entre deux réalisations successives. Elle est appliquée à deux problèmes : celui de l’espion et du partitionnement de tâches. Dans le problème du clustering de graphe, la modularité classique est récrite comme un écart à l’indépendance et une modularité d’indétermination est construite. Les similitudes et différences des deux modularités sont étudiées sur les graphes de Gilbert. Une revue des critères de corrélation montre qu’ils s’écrivent comme un écart à l’un ou l’autre des équilibres canoniques. Une forme générale émerge et fait apparaitre un produit scalaire commun encodant la corrélation. Une distribution théorique de ce produit scalaire est établie. L’indétermination est étendue dans le cadre continu tout comme la notion de collision qui est transposée en vraisemblance moyenne. Il est montré qu’une copule associée ne peut être définie que localement. Enfin, un test statistique pour distinguer les deux équilibres est proposé et analysé.

PHD defences
Friday October 15, 2021, 9AM, Tour 15/25 salle 104
Adeline Fermanian Learning time-dependent data with the signature transform

Les applications modernes de l’intelligence artificielle amènent à travailler avec des données temporelles multivariées de grande dimension qui posent de nombreux défis. Par une approche géométrique des flux de données, la notion de signature, représentation d’un processus en un vecteur infini de ses intégrales itérées, est un outil prometteur. Ses propriétés développées dans le cadre de la théorie des chemins rugueux en font en effet un bon candidat pour jouer le rôle de features, ensuite injectées dans des algorithmes d’apprentissage. Si la définition de la signature remonte aux travaux de Chen (1960), son utilisation en apprentissage est récente et de nombreuses questions théoriques et méthodologiques restent à explorer. Nous nous intéressons donc à l’utilisation de la signature pour développer des algorithmes génériques et performants pour les données temporelles de grande dimension, ainsi que de leur fournir des garanties théoriques. Ce but se déploie principalement dans deux directions : d’une part, développer de nouveaux algorithmes prenant en entrée la signature des données, d’autre part utiliser la signature comme un outil théorique pour étudier les algorithmes existants d’apprentissage profond, via la notion récente de neural ordinary differential equation qui fait le lien entre apprentissage profond et équations différentielles.

PHD defences
Monday September 27, 2021, 9:30AM, Paul Levy
Florian Bechtold Regularization phenomena for stochastic (partial) differential equations via Itô- and pathwise stochastic calculi

In this thesis, we study three instances of regularization phenomena for stochastic (partial) differential equations (SPDEs). We first study semilinear SPDEs with unbounded diffusion terms: By deriving a generalization to the maximal inequality for stochastic convolutions harnessing the regularizing effect of the appearing semigroup, we are able to establish existence of strong solutions in the subcritical regime. We moreover use the associated sequence of subcritical solutions to establish existence of a martingale solution in the critical case via the Flandoli-Gatarek compactness method.

Secondly, we establish a law of large numbers for interacting particle systems without imposing independence or finite moment assumptions on the initial conditions: Towards this end, we establish a non-closed equation satisfied by the associated empirical measure in a mild sense that differs from the expected limiting McKean-Vlasov PDE only by a certain noise term. In treating said noise term, we employ pathwise rough path bounds and arguments based on Itô-calculus in a complementary fashion that allow to establish the desired law of large numbers.

Finally we investigate regularization phenomena through averaging along curves. Based on recent space-time regularity estimates for local times of fractional Brownian motion in one dimension, we study averaged transport equations in passing by their associated regularized characteristics. By employing a fixed point argument on the level of transport equations, we are able to subsequently pass to a Burgers' type equation averaged along paths of fractional Brownian motion. The arguments at each step are conditional on the Hurst parameter satisfying explicitly established conditions.

PHD defences
Thursday September 16, 2021, 2PM, En visio
Alexandre Legrand “Perturbations de la transition d'adsorption dans des modèles de polymères”

Cette thèse étudie deux modèles de polymères, chacun présentant un phénomène de transition de phase d'adsorption. Le premier modèle concerne un polymère interagissant avec son solvant et avec un mur dur. Si l'affinité chimique du polymère avec le solvant est suffisamment faible, le polymère s'effondre sur lui-même pour former un globule compact. Dans ce régime, nous étudions l'interaction entre le globule et le mur, et explicitons un phénomène de transition de surface. Nous donnons également un équivalent asymptotique exact de la fonction de partition du polymère effondré dans le cas où il n'y a pas de mur. Le second est une modélisation du phénomène de dénaturation des brins d'ADN, ou plus généralement de deux polymères pouvant s'accrocher entre eux. Nous étudions l'effet que des inhomogénéités dans la composition des polymères ont sur la transition de dénaturation, en terme de (non)-pertinence d'un champ de désordre fortement corrélé. Nous étudions également la limite d'échelle de désordre intermédiaire de ce modèle.

PHD defences
Friday January 15, 2021, 10:45AM, N/A
Félix Foutel-Rodier Scaling limits of branching and coalescing models arising in population biology