Soutenances



Année 2022

Soutenances de thèse
Jeudi 29 septembre 2022, 14 heures, Tour 16/26 Salle 113
Nicklas Hasseriis Werge Learning from time-dependent streaming data with online stochastic algorithms

In recent decades, intelligent systems, such as machine learning and artificial intelligence, have become mainstream in many parts of society. However, many of these methods often work in a batch or offline learning setting, where the model is re-trained from scratch when new data arrives. Such learning methods suffer some critical drawbacks, such as expensive re-training costs when dealing with new data and thus poor scalability for large-scale and real-world applications. At the same time, these intelligent systems generate a practically infinite amount of large datasets, many of which come as a continuous stream of data, so-called streaming data. Therefore, first-order methods with low per-iteration computational costs have become predominant in the literature in recent years, in particular the Stochastic Gradient (SG) descent (Robbins and Monro, 1951). These SG methods have proven scalable and robust in many areas ranging from smooth and strongly convex problems to complex non-convex ones, which makes them applicable in many learning tasks for real-world applications where data are large in size (and dimension) and arrive at a high velocity. Such first-order methods have been intensively studied in theory and practice in recent years (Bottou et al., 2018). Nevertheless, there is still a lack of theoretical understanding of how dependence and biases affect these learning algorithms. A central theme in this thesis is to learn from time-dependent streaming data and examine how changing data streams affect learning. To achieve this, we first construct the Stochastic Streaming Gradient (SSG) algorithm, which can handle streaming data; this includes several SG-based methods, such as the well-known SG descent and mini-batch methods, along with their Polyak-Ruppert average estimates (Polyak and Juditsky, 1992; Ruppert, 1988). The SSG combines SG-based methods’ applicability, computational benefits, variance-reducing properties through mini-batching, and the accelerated convergence from Polyak-Ruppert averaging. Our analysis links the dependency and convexity level, enabling us to improve convergence. Roughly speaking, SSG methods can converge using non-decreasing streaming batches, which break long-term and short-term dependence, even using biased gradient estimates. More surprisingly, these results form a heuristic that can help increase the stability of SSG methods in practice. In particular, our analysis reveals how noise reduction and accelerated convergence can be achieved by processing the dataset in a specific pattern, which is beneficial for large-scale learning problems. At last, we propose an online adaptive recursive estimation routine for Generalized AutoRegressive Conditional Heteroskedasticity (GARCH) models called AdaVol. The AdaVol procedure relies on stochastic algorithms combined with Variance Targeting Estimation (VTE); AdaVol has computationally efficient properties, while VTE overcomes some convergence difficulties due to the lack of convexity of the Quasi-Maximum Likelihood (QML) procedure. Empirical demonstrations show favorable trade-offs between AdaVol’s stability and its ability to adapt to time-varying estimates.

Soutenances de thèse
Mercredi 28 septembre 2022, 14 heures, Tour 16/26 Salle 209 et sur Google Meet
Thibault Randrianarisoa Contributions à l’analyse théorique de méthodes d’apprentissage statistique et de quantification de l’incertitude

L'analyse moderne des données fournit aux scientifiques des algorithmes statistiques et d'apprentissage automatique aux performances impressionnantes. Face à leur utilisation intensive pour traiter des problèmes dont la complexité ne cesse de croître, il existe un réel besoin de comprendre les conditions dans lesquelles ceux-ci fonctionnent ou sont voués à l'échec. Ainsi, un cadre naturel pour développer une théorie mathématique de ces méthodes est celui de l'inférence non-paramétrique. Ce domaine de la statistique s'intéresse à l'inférence de quantités inconnues sous des hypothèses minimales avec la modélisation statistique en dimension infinie d'une quantité paramétrant la loi des données. Dans cette thèse, nous étudions les problèmes d'estimation de fonctions et de quantification de l'incertitude.

La première classe d'algorithmes que nous considérons est celle des méthodes bayésiennes basée sur des structures d'arbres. Elles reposent sur le principe de 'diviser pour mieux régner', en partitionnant l'espace des données pour estimer le paramètre localement. En régression, ces méthodes incluent BCART et BART, cette dernière étant un ensemble d'arbres ou “forêt“. En estimation de densité, les arbres de Pólya sont un exemple de telles lois a priori et constituent la base d'une myriade de constructions connexes. Nous proposons une nouvelle extension, DPA, qui est une “forêt de Pólya” et permet d'atteindre des vitesses de contraction minimax, de manière adaptative, en distance de Hellinger pour des régularités de Hölder arbitraires. Des vitesses adaptatives dans la norme infinie sont également obtenues pour la loi a priori des arbres de Pólya optionnel (OPT), similaire à BCART en régression, pour des fonctions de régularité Lipschitz.

Les processus gaussiens (GP) sont une autre classe populaire de lois étudiées en statistique bayésienne nonparamétrique et en apprentissage automatique. Motivés par la taille toujours croissante des bases de données, nous proposons un nouveau processus gaussien 'horseshoe' avec une couche de sélection de variables 'soft' pour pouvoir tirer parti d'une dimension des données plus petite que celle de l'espace ambiant. Nous dérivons des vitesses de contraction optimales pour les loi a posteriori tempérées. Les processus gaussiens profonds sont les homologues bayésiens des célèbres réseaux neuronaux profonds. Nous prouvons que, en tant qu'élément de base dans une telle construction, les GP ‘horseshoe' donnent également des vitesses adaptatives sous des hypothèses de structure de composition du paramètre.

En ce qui concerne la quantification de l'incertitude (UQ), les méthodes bayésiennes sont souvent louées pour la solution qu'elles fournissent avec la définition des ensembles de crédibilité. Nous prouvons que ces ensembles construits sous OPT sont des ensembles de confiance avec un niveau de confiance exact et une taille optimale (ou quasi-optimale) en norme infinie sous des conditions qualitatives d'auto-similarité. De plus, nous menons une étude théorique de l'UQ pour les distances de Wasserstein Wp et mettons en lumière un nouveau phénomène. En dimensions inférieures à 4, il est toujours possible de construire des ensembles de confiance dont les rayons en distance Wp, p⇐2, s'adaptent à n'importe quelles régularités (sans hypothèses qualitatives). Cela contraste fortement avec la théorie habituelle en norme Lp, où des concessions doivent toujours être faites.

Soutenances de thèse
Lundi 11 juillet 2022, 13 heures 30, salle 1009 à Sophie Germain
Sothea Has Modèles prédictifs par agrégation consensuelle et applications

This work aims at combining supervised and unsupervised information of data for prediction. Three important projects are presented. The first project is “KFC : a clusterwise supervised learning procedure based on aggregation of distances”. It is a three-step procedure for constructing prediction in supervised statistical learning problems. KFC stands for K-means/Fit/Combining. Several performances of the method are illustrated in this part on several synthetic and real energy data. The second project is “A kernel-based consensual aggregation method for regression”, which is inspired by the numerical experiments of the previous project. The method is a generalization of consensual aggregation method introduced by Biau et al. (2016) to regular kernel-based setting. The consistency inheritance property of the method is derived, and is confirmed through many numerical experiments on simulated and real datasets. Lastly, the third project is a study of consensual aggregation method on randomly projected high-dimensional features of predictions. The aggregation scheme is composed of two steps: the high-dimensional features of predictions are randomly projected into a small subspace in the first step, then the aggregation method is applied on the projected features in the second step. We numerically show that the consensual aggregation method upholds its performance on very large and highly correlated features of predictions. Moreover, we theoretically show that the performance of the method is almost preserved in much smaller subspaces of projection, with high probability. This shows the robustness of the method in a sense that several types of predictive models can be plainly constructed and directly combined without model selection or cross-validation technique.

Soutenances de thèse
Jeudi 7 juillet 2022, 9 heures 30, Par Zoom
Hiroshi Horii Large-time asymptotics of anomalous fluctuations in heavy-tailed renewal-reward processes

For example, how many times do we have to change the light bulb in a room in 10 years? Each light bulb has different lifetimes and they are distributed randomly according to, for example, the gamma distribution. Knowing this distribution, one can estimate not only how many light bulbs are needed on average during 10 years, but also the range of the number of required light bulbs with 95% probability.

This kind of random phenomenon can be explained using a renewal-reward process and by constructing the model, we can estimate the expected value and the fluctuations of the interested stochastic process. Also, this stochastic process becomes the generalization of Markov jump processes and it can contain memory effects. Thus, this is a useful model because the process can describe a broad spectrum of phenomena in physics and other fields, including a melt-up of the stock market and a super spreader in epidemics, where memory effects are known to be important.

In this thesis, our main motivation is to clarify the finite-time behavior of anomalous fluctuations. For studying the topic, we start by introducing the definition of a renewal-reward process and the large deviation theory. Afterward, we show the result of anomalous fluctuations behavior, especially the fluctuations of the renewal-reward process with memory effects, in renewal-reward processes with heavy-tailed waiting time distributions.

In the first work, we study the large time asymptotic of renewal-reward processes with a heavy-tailed waiting time distribution. It is known that the heavy tail of the distribution produces extremely slow dynamics, resulting in a singular large deviation function. This amounts to a “flattened” bottom of the large deviation function, manifesting anomalous fluctuations of the renewal-reward processes.

In the second work, we re-visit the flat part in the cumulant generating function by using a variational principle and a numerical simulation technique developed in large deviation theory. These techniques have been applied to study a singularity appearing in the large deviation function in, among others, kinetically constrained models and active matters. These models are defined using Markov processes, because of which the large deviation function of time-averaged quantities does not have any singularity whenever the system size (not the averaging time) is finite. Our focus is on how the same methodology can be extended to our non-Markovian problem to derive the flat part.

In the third work, by using the renewal theory, we discuss anomalous scaling of the cumulants with memory effects in a renewal-reward process instead of focusing on the probability of rare events. In particular, we analyze the variance of heavy waiting time distributions.

Soutenances de thèse
Mercredi 22 juin 2022, 14 heures, Tour 15/25 salle 104 et par zoom
Joseph De Vilmarest Modèles espace-état pour la prévision de séries temporelles. Application aux marchés électriques

L'électricité étant difficile à stocker, prévoir la demande est un enjeu majeur pour maintenir l'équilibre entre la production et la consommation. L'évolution des usages de l'électricité, le déploiement des énergies renouvelables, et plus récemment la crise du coronavirus, motivent l'étude de modèles qui évoluent au cours du temps, pour tenir compte des changements de comportements. L'objectif de ce travail est de proposer des méthodes adaptatives de prévision, et nous nous sommes intéressés tout spécialement au cadre des modèles espace-état. Dans ce paradigme, on représente l'environnement (ou le contexte) par un état caché. À chaque instant, la demande dépend de cet état que nous cherchons donc à estimer grâce aux observations dont nous disposons, et selon les hypothèses que l'on effectue sur la dynamique du système. L'estimation de l'état nous permet ensuite de prévoir la demande.

Un premier objectif de la thèse est de contribuer au lien entre l'optimisation et l'estimation dans les modèles espace-état. Nous interprétons en effet les méthodes que nous utilisons comme diverses façons de paramétrer un algorithme de descente de gradient de second ordre, et nous avons détaillé ce lien dans un cas particulier. Une seconde contribution de la thèse est de proposer différentes méthodes d'estimation dans les modèles espace-état. Le principal enjeu nous semble être de définir la dynamique avec lequel évolue l'état, et nous proposons deux méthodes dans ce but. Le troisième apport de ce manuscrit est d'appliquer ces méthodes espace-état à la prévision de consommation d'électricité. Nos prévisions s'appuient sur des modèles de prévision existants, par exemple le modèle additif généralisé, que nous cherchons à adapter. Ainsi, nous tirons parti de certaines dépendances complexes capturées par les modèles existants, par exemple la sensibilité de la consommation d'électricité à la température, tout en profitant de la faculté d'adaptation des modèles espace-état.

Soutenances de thèse
Lundi 20 juin 2022, 15 heures 30, Bat Sophie Germain - salle 1003 et par zoom
Maximilien Germain Machine learning for stochastic control and partial differential equations in high dimension

This thesis studies several machine learning numerical schemes to solve nonlinear PDEs and mean-field control in moderate to high dimension and is divided in two parts.

The first part focuses on the resolution of parabolic nonlinear PDEs. We describe a multistep neural network scheme which improves existing methods from the literature. One of our contributions is the study of its approximation error together with the ones of existing methods in the semilinear case where the equation is linear with respect to the second order derivative. By using Lipschitz GroupSort neural networks, we are able to link the error to the number of layers and neurons of the approximating network. We also develop one-step and multistep schemes in the more challenging case of fully nonlinear PDEs, based on Malliavin weights and automatic differentiation. All the numerical schemes are tested on numerical examples to demonstrate their relevance.

The second part of this work is dedicated to mean-field control and McKean-Vlasov equations. We prove by probabilistic arguments a rate of convergence for the finite dimensional approximation of a PDE on the Wasserstein space. We then use symmetric DeepSet neural networks to solve symmetric PDEs in high dimension. Hence we are able to approximate numerically mean-field control problems by solving their optimality conditions in the form of a Master Bellman PDE in infinite dimension. We then consider mean-field control with probabilistic state constraints on the law of the controlled state. We represent the problem by an auxiliary unconstrained problem with exact penalisation which can be solved by the modification of an existing brute force deep learning scheme.

Soutenances de thèse
Mardi 31 mai 2022, 9 heures, Salle 15/25 104 et par Zoom
Gloria Buritica Borda Assessing the time dependence of multivariate extremes for heavy rainfall modeling

Nowadays, it is common in environmental sciences to use extreme value theory to assess the risk of natural hazards. In hydrology, rainfall amounts reach high-intensity levels frequently, which suggests modeling heavy rainfall from a heavy-tailed distribution. In this setting, risk management is crucial for preventing the outrageous economic and societal consequences of flooding or landsliding. Furthermore, climate dynamics can produce extreme weather lasting numerous days over the same region. However, even in the stationary setting, practitioners often disregard the temporal memories of multivariate extremes. This thesis is motivated by the case study of fall heavy rainfall amounts from a station’s network in France. Its main goal is twofold. First, it proposes a theoretical framework for modeling time dependencies of multivariate stationary regularly varying time series. Second, it presents new statistical methodologies to thoughtfully aggregate extreme recordings in space and time.

To achieve this plan, we consider consecutive observations, or blocks, and analyze their extreme behavior as their lp-norm reaches high levels, for p > 0. This consideration leads to the theory of p-clusters, which model extremal lp-blocks. In the case p = ∞, we recover the classical cluster (of exceedances). For p < ∞, we built on large deviations principles for heavy-tailed observations. Then, we study in depth two setups where p-cluster theory appears valuable. First, we design disjoint blocks estimators to infer statistics of p-clusters, e.g., the extremal index. Actually, p-clusters are linked through a change of norms functional. This relationship opens the road for improving cluster inference since we can now estimate the same quantity with different choices of p. We show cluster inference based on p < ∞ is advantageous compared to the classical p = ∞ strategy in terms of bias. Second, we propose the stable sums method for high return levels inference. This method enhances marginal inference by aggregating extremes in space and time using the lp-norm, where α > 0 is the (tail) index of the series. In simulation, it appears to be robust for dealing with temporal memories and it is justified by the α-cluster theory.

Soutenances de thèse
Mercredi 6 avril 2022, 9 heures 30, Par Zoom
Yiyang Yu Apprentissage profond en santé publique, et contributions en apprentissage statistique

Le développement d'algorithmes efficaces pour apprendre des représentations appropriées de données structurées, telles que des séquences d'événements datés provenant de la vie réelle, est un défi majeur et central de l’apprentissage automatique. Dans cette optique, l’apprentissage profond est devenu populaire pour modéliser des données structurées, parfois combiné avec des techniques de pré-entraînement. En même temps, d'autres méthodes d'apprentissage statistique plus “classiques”, comme les forêts aléatoires ou la régression, occupent toujours une place importante dans la pratique à cause de leur efficacité. Dans cette thèse, nous apportons quelques contributions à l'étude théorique et numérique de certains problèmes de l'apprentissage statistique, ainsi que l'application de l'apprentissage profond aux données de la santé publique.

La première contribution consiste à introduire un nouveau modèle appelé ZiMM (Zero-inflated Mixture of Multinomial distributions), et une architecture Encodeur-Décodeur (ED) de réseaux de neurones profonds entraînés de-bout-en-bout, modélisant les parcours de soins pour la prédiction des complications post-chirurgicales. ZiMM-ED est appliqué aux données de santé de remboursement de soins provenant du Système National des Données de Santé (SNDS) en France, qui est une base de données non-clinique, contenant seulement les codes de remboursement datés d'achats de médicaments et des diagnostics hospitaliers. En particulier, nous considérons les complications jusqu'au 18e mois après la chirurgie, ce qui correspond à des observations “floues” car seulement observées à partir des achats de médicaments d'une famille spécifique. Nos expériences montrent les améliorations en termes de performance prédictive de ZiMM-ED par rapport à plusieurs modèles de référence. ZiMM-ED ouvre la voie de l'exploitation d'un tel jeu de données avec peu de pré-traitement à grâce aux réseaux de neurones profonds. Cette base de données est jusque-là utilisée principalement pour des raisons administratives (remboursement des soins de santé), et nous montrons le pouvoir prédictif des réseaux de neurones profonds dessus sur une telle base de données avec un cas précis.

La deuxième contribution porte sur l'étude théorique de l'apprentissage contrastif de représentation, une technique récemment devenue populaire et expérimentalement efficace pour l'entraînement auto-supervisé. En se basant sur quelques résultats proposant des cadres d'étude théoriques, nous étendons la garantie pour la qualité des représentations apprises dans la phase pré-entrainement non-supervisé avec une perte contrastive et de multiples échantillons négatifs, la qualité étant mesurée en termes de performance prédictive pour les tâches supervisées en aval. En outre, nous fournissons une garantie de convergence quant à la minimisation de la perte contrastive avec la descente de gradient pour un encodeur de réseaux de neurones sur-paramétré. Ces résultats théoriques, combinant des expériences numériques, ouvrent des portes pour une meilleure compréhension des pratiques de pré-entrainement - affinement très utilisées aujourd'hui en apprentissage profond.

La troisième contribution consiste à introduire un nouvel algorithme de type forêt aléatoire, que nous nommons WildWood. Alors que l'algorithme standard de forêt aléatoire utilise des échantillons bootstrap out-of-bag seulement pour calculer des scores, WildWood utilise ces échantillons pour améliorer les prédictions en calculant l'agrégation de tous les sous-arbres possibles de chaque arbre dans la forêt : ce calcul est exact et efficace grâce à l'algorithme de context tree weighting. Nous montrons que théoriquement, la perte induite par une telle agrégation est comparable à celle du meilleur sous-arbre possible. Nous proposons une implémentation Python open-source de WildWood avec une stratégie d'histogramme qui permet d'accélérer la recherche des coupures impliquées dans la construction des arbres. Notre implémentation est rapide et compétitive en comparaison avec d'autres algorithmes ensemblistes bien connus, par exemple la forêt aléatoire standard et les algorithmes d'extrême gradient boosting.

Enfin, le dernier chapitre de cette thèse est consacré à la régression logistique en ligne et considère le regret par rapport à la boule l2 de rayon B. Alors qu'il est connu que les algorithmes propres avec regret logarithmique en le nombre d'itérations n subissent nécessairement un facteur exponentiel en B dans leur borne de regret, quelques algorithmes impropres, bayésiens et non-bayésiens, ont été introduits récemment avec des meilleures garanties. Dans le but d'obtenir une garantie de regret optimale, nous proposons deux algorithmes impropres et non-bayésiens, OSMP et AOSMP, reposant sur une stratégie “minmax à une étape”, avec la fonction de perte exacte pour OSMP, et une fonction de perte approchée pour AOSMP. Nos analyses de regret s'appuient entre autres sur la propriété de self-concordance généralisée de la fonction logistique. Pour OSMP, malgré une borne supérieure obtenue pour les regrets instantanés, nous expliquons en quoi l'amélioration des bornes de regret est une question difficile, à laquelle AOSMP apporte une réponse comparable à l'état de l'art de la garantie de regret.

Mots clefs : Apprentissage statistique, Apprentissage profond, Données de santé, Apprentissage contrastif, Forêts aléatoires, Régression logistique en ligne

Soutenances de thèse
Mardi 29 mars 2022, 10 heures 30, Salle 16/26 209 et par Zoom
William Da Silva Processus de croissance-fragmentation multitypes et excursions planaires.

This work is devoted to the study of growth-fragmentation processes, in connection with planar excursions and Liouville quantum gravity. In a seminal paper, Bertoin, Budd, Curien and Kortchemski study the branching structure of these particle systems, as well as a particular family obtained in the scaling limit from a Markov peeling process on large random planar maps. We first construct, on a half-planar excursion whose real part is a stable process, a signed version of the growth-fragmentation processes revealed by Bertoin, Budd, Curien and Kortchemski. We then establish the spinal decomposition of signed growth-fragmentation processes, and generalise this approach to processes with a finite number of types. We also focus on an extension to the spatial isotropic setting, where we see that a remarkable family of such processes appears in excursions away from the half-space. Finally, the last part of this thesis presents some advances towards understanding a certain space-filling SLE exploration of a quantum disc. These considerations are interpreted at the level of planar excursions through the Mating-of-trees. We characterise the growth-fragmentation process for a special parameter of the Liouville measure, called pure gravity.

Soutenances de thèse
Jeudi 24 mars 2022, 15 heures, Bat Sophie Germain - salle 1014 et par zoom
Junchao Chen Schémas d’approximation numérique probabiliste en finance: méthodes d’apprentissage pour les EDSRs de grande dimension et algorithmes de Monte Carlo sans biais pour des modèles à volatilité stochastique

Ce manuscrit étudie les solutions des équations différentielles stochastiques rétrogrades (EDSRs) et des applications numériques dans le domaine de la finance avec à la fois l'algorithme SGD traditionnel et la méthode d'apprentissage en profondeur. et la représentation probabiliste des modèles de volatilité stochastique avec dérive non bornée. Mots clé: EDSRs, EDPs semi-linéaires, Sparse grids, Algorithme SGD, Deep learning, Grande dimension, Schémas de Runge-Kutta, Représentation probabiliste, Modèle de volatilité stochastique, Méthode de Monte Carlo.

Soutenances de thèse
Lundi 17 janvier 2022, 14 heures, Salle 16/26 - 209 et par ZOOM
Alexandra Lefebvre Modèles graphiques probabilistes pour la génétique et l’analyse de survie. Application au syndrome de Lynch


Année 2021

Soutenances de thèse
Mercredi 15 décembre 2021, 17 heures 30, Bat Sophie Germain - salle 0013 et par zoom
Médéric Motte Les modèles de grande population contrôlée, les comportements économiques, et la publicité ciblée

Les problématiques sur internet donnent lieu à des mathématiques diverses et variées. Les utilisateurs sont constamment amenés à faire des choix sur Internet, et l’utilité associée à ces choix dépend souvent des choix des autres (théorie des jeu en grande population) où de l’aléa (modèles de choix risqué). De plus, la population sur Internet est contrôlées, du moins influencée, par l’action des agents publicitaires. La publicité digitale est en effet un outil stratégique pour les agents voulant diffuser une information, qui conduit naturellement à étudier des problèmes de contrôle en grande population, des algorithmes de prédiction de clic, et des problèmes d’enchère optimal pour la publicité digitale. La soutenance portera sur différents modèles mathématiques développés durant ma thèse pour chacune de ces applications

Soutenances de thèse
Lundi 6 décembre 2021, 9 heures 45, Couloir 15/25 salle 104 et par Zoom
Clément Bénard Forêts aléatoires et interprétabilité des algorithmes d’apprentissage

Cette thèse traite de l’interprétabilité des algorithmes d’apprentissage dans un contexte industriel. La production manufacturière et la conception de systèmes industriels sont deux exemples d’application où l’interprétabilité des méthodes d’apprentissage permet de comprendre comment les variables d’entrées influent sur la sortie d’un système et donc d’optimiser son efficacité. Malgré l’absence de consensus sur une définition précise de l’interprétabilité, il est possible d’identifier un certain nombre de notions fondamentales : “simplicité, stabilité, précision”, rarement vérifiées simultanément par les méthodes interprétables existantes. La structure et la stabilité des forêts aléatoires en font une approche particulièrement efficace pour améliorer les performances des algorithmes d’apprentissage interprétables. La première partie de cette thèse est consacrée aux méthodes post-hoc, et en particulier aux mesures d’importance de variables dans les forêts aléatoires. Le premier résultat de convergence du MDA de Breiman est établi, et met en évidence un biais important en s’appuyant sur l’analyse de sensibilité. L’algorithme Sobol-MDA est ensuite introduit pour remédier aux défauts du MDA d’origine, en remplaçant le mécanisme de permutation par des projections. Une extension aux indices de Shapley, une mesure d’importance efficace dans le cas d’entrées dépendantes, est proposée avec l’algorithme SHAFF. La deuxième partie de cette thèse est dédiée aux modèles de règles, des algorithmes simples et fortement prédictifs, très souvent instables vis-à-vis de petites perturbations des données d’apprentissage. L’algorithme SIRUS proposé est construit à partir de l’extraction d’un ensemble de règles d’une forêt aléatoire. SIRUS améliore considérablement la stabilité de la liste de règle par rapport aux méthodes concurrentes de l’état de l’art, tout en préservant leur simplicité et leur prédictivité.

Soutenances de thèse
Mardi 30 novembre 2021, 14 heures, Amphithéâtre 15
Pierre Bertrand Conditions de Monge, Transport Optimal et Pont Relationnel : propriétés, applications et extension du couplage d'indétermination

Le point de départ de cette thèse est la justification de la restriction à deux divergences canoniques dans un problème de projection d’une loi de probabilité sur un espace à marges fixées. La première mène au couplage d’indépendance, la seconde à celui dit d’indétermination. L’objet de la thèse est l’étude du second couplage. Le couplage d’indétermination est d’abord vu comme un équilibre grâce à son codage dit relationnel. En récrivant la propriété des matrices de Monge qu’il vérifie, une décomposition d’un tirage est proposée et mène à une propriété de réduction des collisions entre deux réalisations successives. Elle est appliquée à deux problèmes : celui de l’espion et du partitionnement de tâches. Dans le problème du clustering de graphe, la modularité classique est récrite comme un écart à l’indépendance et une modularité d’indétermination est construite. Les similitudes et différences des deux modularités sont étudiées sur les graphes de Gilbert. Une revue des critères de corrélation montre qu’ils s’écrivent comme un écart à l’un ou l’autre des équilibres canoniques. Une forme générale émerge et fait apparaitre un produit scalaire commun encodant la corrélation. Une distribution théorique de ce produit scalaire est établie. L’indétermination est étendue dans le cadre continu tout comme la notion de collision qui est transposée en vraisemblance moyenne. Il est montré qu’une copule associée ne peut être définie que localement. Enfin, un test statistique pour distinguer les deux équilibres est proposé et analysé.

Soutenances de thèse
Vendredi 15 octobre 2021, 9 heures, Tour 15/25 salle 104
Adeline Fermanian Learning time-dependent data with the signature transform

Les applications modernes de l’intelligence artificielle amènent à travailler avec des données temporelles multivariées de grande dimension qui posent de nombreux défis. Par une approche géométrique des flux de données, la notion de signature, représentation d’un processus en un vecteur infini de ses intégrales itérées, est un outil prometteur. Ses propriétés développées dans le cadre de la théorie des chemins rugueux en font en effet un bon candidat pour jouer le rôle de features, ensuite injectées dans des algorithmes d’apprentissage. Si la définition de la signature remonte aux travaux de Chen (1960), son utilisation en apprentissage est récente et de nombreuses questions théoriques et méthodologiques restent à explorer. Nous nous intéressons donc à l’utilisation de la signature pour développer des algorithmes génériques et performants pour les données temporelles de grande dimension, ainsi que de leur fournir des garanties théoriques. Ce but se déploie principalement dans deux directions : d’une part, développer de nouveaux algorithmes prenant en entrée la signature des données, d’autre part utiliser la signature comme un outil théorique pour étudier les algorithmes existants d’apprentissage profond, via la notion récente de neural ordinary differential equation qui fait le lien entre apprentissage profond et équations différentielles.

Soutenances de thèse
Lundi 27 septembre 2021, 9 heures 30, Paul Levy
Florian Bechtold Regularization phenomena for stochastic (partial) differential equations via Itô- and pathwise stochastic calculi

In this thesis, we study three instances of regularization phenomena for stochastic (partial) differential equations (SPDEs). We first study semilinear SPDEs with unbounded diffusion terms: By deriving a generalization to the maximal inequality for stochastic convolutions harnessing the regularizing effect of the appearing semigroup, we are able to establish existence of strong solutions in the subcritical regime. We moreover use the associated sequence of subcritical solutions to establish existence of a martingale solution in the critical case via the Flandoli-Gatarek compactness method.

Secondly, we establish a law of large numbers for interacting particle systems without imposing independence or finite moment assumptions on the initial conditions: Towards this end, we establish a non-closed equation satisfied by the associated empirical measure in a mild sense that differs from the expected limiting McKean-Vlasov PDE only by a certain noise term. In treating said noise term, we employ pathwise rough path bounds and arguments based on Itô-calculus in a complementary fashion that allow to establish the desired law of large numbers.

Finally we investigate regularization phenomena through averaging along curves. Based on recent space-time regularity estimates for local times of fractional Brownian motion in one dimension, we study averaged transport equations in passing by their associated regularized characteristics. By employing a fixed point argument on the level of transport equations, we are able to subsequently pass to a Burgers' type equation averaged along paths of fractional Brownian motion. The arguments at each step are conditional on the Hurst parameter satisfying explicitly established conditions.

Soutenances de thèse
Jeudi 16 septembre 2021, 14 heures, En visio
Alexandre Legrand “Perturbations de la transition d'adsorption dans des modèles de polymères”

Cette thèse étudie deux modèles de polymères, chacun présentant un phénomène de transition de phase d'adsorption. Le premier modèle concerne un polymère interagissant avec son solvant et avec un mur dur. Si l'affinité chimique du polymère avec le solvant est suffisamment faible, le polymère s'effondre sur lui-même pour former un globule compact. Dans ce régime, nous étudions l'interaction entre le globule et le mur, et explicitons un phénomène de transition de surface. Nous donnons également un équivalent asymptotique exact de la fonction de partition du polymère effondré dans le cas où il n'y a pas de mur. Le second est une modélisation du phénomène de dénaturation des brins d'ADN, ou plus généralement de deux polymères pouvant s'accrocher entre eux. Nous étudions l'effet que des inhomogénéités dans la composition des polymères ont sur la transition de dénaturation, en terme de (non)-pertinence d'un champ de désordre fortement corrélé. Nous étudions également la limite d'échelle de désordre intermédiaire de ce modèle.

Soutenances de thèse
Vendredi 15 janvier 2021, 10 heures 45, N/A
Félix Foutel-Rodier Scaling limits of branching and coalescing models arising in population biology