PHD
Next talk
PHD defences
Monday September 9, 2024, 2PM, Salle Paul Lévy, 16-26 209
Nikolai Kuchumov (LPSM) Limit shapes of the dimer model in multiply-connected domains
Previous talks
Year 2024
PHD defences
Friday July 12, 2024, 9AM, 15-25 102
Camila Fernandez (LPSM) Contributions and applications to survival analysis
—
Abstract: Survival analysis has attracted interest from a wide range of disciplines, spanning from medicine and predictive maintenance to various industrial applications. Its growing popularity can be attributed to significant advancements in computational power and the increased availability of data. Diverse approaches have been developed to address the challenge of censored data, from classical statistical tools to contemporary machine learning techniques. However, there is still considerable room for improvement. This thesis aims to introduce innovative approaches that provide deeper insights into survival distributions and to propose new methods with theoretical guarantees that enhance prediction accuracy. Notably, we notice the lack of models able to treat sequential data, a setting that is relevant due to its ability to adapt quickly to new information and its efficiency in handling large data streams without requiring significant memory resources. The first contribution of this thesis is to propose a theoretical framework for modeling online survival data. We model the hazard function as a parametric exponential that depends on the covariates, and we use online convex optimization algorithms to minimize the negative log-likelihood of our model, an approach that is novel in this field. We propose a new adaptive second-order algorithm, SurvONS, which ensures robustness in hyperparameter selection while maintaining fast regret bounds. Additionally, we introduce a stochastic approach that enhances the convexity properties to achieve faster convergence rates. The second contribution of this thesis is to provide a detailed comparison of diverse survival models, including semi-parametric, parametric, and machine learning models. We study the dataset characteristics that influence the methods performance, and we propose an aggregation procedure that enhances prediction accuracy and robustness. Finally, we apply the different approaches discussed throughout the thesis to an industrial case study: predicting employee attrition, a fundamental issue in modern business. Additionally, we study the impact of employee characteristics on attrition predictions using permutation feature importance and Shapley values.
PHD defences
Monday July 1, 2024, 2:30PM, Salle Paul Lévy, 16-26 209
Francesco Bonacina (LPSM) Advanced statistical approaches for the global analysis of influenza virus circulation
PHD defences
Monday May 13, 2024, 2PM, Salle Paul Lévy, 16-26 209 et Zoom
Lucas Ducrot (LPSM) Réseaux bayésiens et analyse de survie pour l’estimation de courbes de pénétrance du cancer broncho-pulmonaire lié à des prédispositions génétiques
Les consultations en génétique sont proposées aux patients ayant des antécédents familiaux sévères de maladies génétiques. Les médecins généticiens doivent sélectionner, parmi ces patients, lesquels se voient proposer un test génétique, ainsi qu’évaluer les risques de survenue de maladie pour ces patients et leurs familles. La progression des connaissances en génétique est rapide et le nombre de variants pathogènes identifiés pour différentes maladies augmentent chaque année. Cela entraîne un besoin d’outils de prédiction et d’évaluation de risque important, en particulier dans le cadre du cancer broncho-pulmonaire. En effet, les liens entre ce dernier et des variants pathogènes sur les gènes SFTPA1 /SFTPA2 , TP53 et EGFR sont connus mais encore peu décrits.
Les méthodes existantes pour évaluer le risque de survenue de maladies reposent sur les courbes de pénétrance, mais leur estimation présente des défis en raison du faible nombre de patients et du biais de sélection omniprésent dans les jeux de données collectés en génétique. Pour surmonter ces obstacles, la thèse explore l’utilisation de données familiales, en utilisant un ensemble d’outils statistiques dont les réseaux bayésiens, les modèles de mélange et l’analyse de survie, ainsi que des modèles existants, pour lesquels elle tente d’affaiblir certaines hypothèses.
Year 2023
PHD defences
Friday December 15, 2023, 2PM, Salle Paul Lévy, 16-26 209 et Zoom
Emilien Bodiot (LPSM) Conditions aux bords pour les champs gaussiens markoviens discrets : une approche opéradique
Dans un premier temps, nous nous intéressons au cas unidimensionnel des champs gaussiens markoviens sur Z. Nous décomposons les conditions aux bords invariantes dans une base non triviale issue de l'étude précise des singularités d'une fonction méromorphe \Psi à valeurs matricielles. Cet apport s'accompagne d'un algorithme simple permettant le calcul explicite des conditions aux bords invariantes. Nous en profitons pour montrer que, sous ces conditions aux bords, nous retrouvons les quantités d'intérêt habituellement calculées par transformée de Fourier (énergie libre, fonction de corrélation et autres). Par ailleurs, nous appliquons nos résultats pour obtenir une version “invariante” du théorème limite de Szegő dans le cas simple des polynômes trigonométriques à valeurs matricielles.
Dans un second travail, mené conjointement avec D. Simon, nous abordons le cas des champs gaussiens markoviens sur le réseau carré Z^2 et exhibons de nouveaux objets et structures de bord, qui constituent le premier exemple non trivial de la théorie développée par D. Simon. Pour ce faire, nous bâtissons des outils originaux, dont cette récente théorie est dépourvue. Ces approches sont basées sur des techniques classiques de mécanique statistique et de calcul gaussien mais aussi sur des méthodes nouvelles. En particulier, nous revisitons la très classique matrice de transfert, objet unidimensionnel, que nous adaptons pour produire tous les objets purement bidimensionnels introduits par D. Simon. Les constructions opéradiques de D. Simon sont ici réalisées sur des espaces de formes quadratiques par l'intermédiaire de compléments de Schur. Nous montrons que tous ces objets vérifient des équations de type “vecteurs propres” à des morphismes d'opérade près, assurant que, une fois recombinés, ces objets constituent bien le bord invariant recherché pour nos champs gaussiens.
—
Abstract: Markov chains reduce to linear algebra. Indeed, the laws of these one-dimensional fields are locally given by their transition matrices and their boundary conditions by vectors. In particular, one knows that the invariant measure associated to a Markov chain corresponds to the Perron-Frobenius eigenvector of its transition matrix. Such bridges between probability theory and algebra don't exist in the literature for higher dimensional Markov fields. The work of D. Simon fills this gap by proposing an algebraic description of invariant boundary conditions associated to discrete Markov fields defined on the square lattice Z^2. This theory comes with new algebraic objects which have not been constructed on any non trivial model yet. In the present manuscript, the main objective is to exhibit and understand these structures in the particular case of Gaussian Markov fields on the lattice Z^2. By doing so, we give an algebraic description of invariant boundary conditions for such fields. This thesis is naturally divided into two parts.
We start by focusing on one-dimensional Gaussian Markov fields on Z. We decompose invariant boundary conditions in a non trivial basis obtained from the precise study of a meromorphic and matrix-valued function \Psi. This brings a simple algorithm for computing explicitly the invariant boundary conditions. Moreover, under these boundary conditions, we show that we recover the values of classical quantities of interest, such as free energy or correlation function, generally computed using Fourier transform. As a little application, we give an “invariant” version of the Szegő's limit theorem in the simple case of matrix-valued trigonometric polynomials.
Secondly, in a joint work with D. Simon, we study the case of Gaussian Markov fields on the square lattice Z^2 and exhibit new objects and boundary structures for Gaussian fields. It is the very first non trivial example for the theory introduced by D. Simon. To do so, we give new tools, missing in the theory. These approaches are based on classical tools from statistical mechanics and Gaussian calculus but also from original methods. For instance, we adapt the so-called transfer matrix, a one-dimensional object, to produce all the two-dimensional objects introduced by D. Simon. In this context, operadic constructions of D. Simon are given by Schur complements on quadratic forms spaces. We show that these objects verify “eigenvector-type” equations up to an operadic morphism. This ensures that, once being combined, they produce the desired invariant boundary associated to our Gaussian fields.
PHD defences
Thursday December 14, 2023, 2:30PM, Salle Paul Lévy, 16-26 209
Benjamin Bonnefont (LPSM) Champs gaussiens hiérarchiques et mesures de Gibbs
Le premier chapitre est dédié à l’étude de l’overlap à deux températures lorsque les énergies sont données par les positions des particules d’un mouvement brownien branchant. On montre notamment que l’overlap à deux températures surcritiques diffère du cas indépendant (Random Energy Model) -différence que l’on n’observe pas à une seule température- en établissant une inégalité stricte entre leurs valeurs moyennes.
Le deuxième chapitre est issu d’un travail en commun avec Michel Pain et Olivier Zindy. Nous prolongeons l’analyse des effets des processus de décoration sur l’overlap à deux températures dans l’esprit de Derrida et Mottishaw [44] et sur la susceptibilité en température. Nous montrons qu’au voisinage de la température critique, l’overlap moyen a un comportement plus régulier que son homologue indépendant. Nous étab- lissons également des estimées fines concernant le comportement de la susceptibilité au voisinage de la température critique.
Enfin, le dernier chapitre est l’exposé d’un travail avec Vincent Vargas qui concerne la martingale dérivée sous-critique de la marche aléatoire branchante binaire gaussienne et dans lequel nous répondons à la conjecture [72, Conjecture 1] dans le cadre d’un champ gaussien hiérarchique. Nous obtenons des estimées précises sur le comportement de la queue à gauche de leur distribution dans la phase dite L4.
—
Abstract: This work is devoted to the study of Gaussian branching processes and their link with a class of models in statistical physics, called hierarchical Gaussian fields.
The first chapter is dedicated to the study of the overlap at two temperatures when the energies are given by the positions of the particles in a branching Brownian motion. In particular, it is shown that the over- lap at two supercritical temperatures differs from the independent case (Random Energy Model) - a difference not observed at a single temperature - by establishing a strict inequality between their mean values.
The second chapter is the result of a joint work with Michel Pain and Olivier Zindy. We extend our analysis of the repercussions of the dec- oration processes on two-temperature overlaps in the spirit of Derrida and Mottishaw [44] and temperature susceptibility. We show that in the vicinity of the critical temperature, the average overlap behaves more regularly than its independent counterpart. We also establish fine esti- mates on the behavior of the susceptibility in the vicinity of the critical temperature.
Finally, in the last chapter, we present a joint work with Vincent Vargas on the subcritical derivative martingale of the binary Gaussian branching random walk and in which we answer the conjecture [72, Conjecture 1] in the framework of a hierarchical Gaussian field. There, we obtain precise estimates of the behavior of the left tail of their distribution in the so-called L4 phase.
PHD defences
Tuesday December 12, 2023, 2PM, Visioconférence Zoom
Ibrahim Merad (LPSM) Algorithmes robustes et autres contributions à l'apprentissage statistique
—
Abstract: This thesis deals with theoretical and methodological aspects of machine learning. This discipline has found numerous applications thanks to the availability of vast amounts of data. However, empirical evidence suggests that heavy-tailed distributions and corruption can often emerge in training datasets and may compromise the performances of machine learning models. This has motivated the development of robust statistics which seek more dependable methods when data assumptions are weakened. In this thesis, we propose computationally efficient robust learning algorithms and back them up with theoretical analyses establishing their optimization convergence and the statistical properties of their estimates. In our first contribution, we propose to use coordinate gradient descent (CGD) with robust scalar estimators of the partial derivatives in order to perform robust learning. This allows to avoid the computational cost of robust vector mean estimation by using only scalar estimates. The resulting procedure is robust to heavy-tails and corruption as attested by the generalization error bounds we show for smooth convex objectives. Moreover, computational overhead is minimal since the complexity is the same as non robust methods. We efficiently implement this method in a Python library called linlearn and confirm the advantages of robust CGD through extensive numerical experiments. Our next contribution deals with robust learning in the high-dimensional setting where optimization is carried out using non-Euclidean methods. We develop a robust high-dimensional learning framework suitable for smooth and non-smooth objectives which uses robust gradient estimation methods tailored to problem-specific non-Euclidean metrics. For the particular case of Vanilla sparse estimation, we obtain an efficient solution algorithm with strong robustness properties. Besides the theoretical analysis establishing these properties, we implement this algorithm in the linlearn library and demonstrate its performance through experiments on real data. The third contribution brings a solution for the streaming data setting where samples are only seen once in a sequential fashion. We propose a clipped SGD algorithm for stochastic optimization using gradient norm quantiles as thresholds. Using Markov chain tools, we prove that the iteration is robust to heavy tails and corrupted data and converges to a limit distribution concentrated around an optimum. In another chapter, we leverage similar tools to study the convergence and concentration properties of standard SGD. In particular, we obtain a non asymptotic concentration bound for Polyak-Ruppert averaging of a tail SGD sequence. Our contributions also include a new random forest algorithm called WildWood. The latter adds an aggregation mechanism within each tree of a forest which uses out-of-bag samples to compute average predictions over all subtrees. This computation is precise and efficient thanks to the context tree weighting algorithm. As we show theoretically, this allows to nearly match the performance of the best subtree. We propose an efficient implementation in the Python library wildwood and experimentally demonstrate the algorithm’s competitiveness with popular ensemble methods such as classical random forests and boosting algorithms. Finally, we present an efficient non Bayesian algorithm for online logistic regression which may achieve optimal regret and provide a preliminary analysis for it.
PHD defences
Tuesday December 12, 2023, 2PM, 15-16-201 et Zoom
Bastien Chassagnol (LPSM) Application de modèles de convolution et de mélange gaussiens pour l'identification des biomarqueurs clés sous-jacents à la variabilité des profils transcriptomiques et à la diversité des réponses thérapeutiques
—
Abstract: The diversity of phenotypes and conditions observed across human organisms results from multiple interdependent biological processes. However, within the context of personalized medicine and the treatment of increasingly complex, and multi-faceted diseases, it is crucial to develop approaches that comprehensively capture the complexity of the biological mechanisms underlying variability in biological profiles. This extends from the individual to the cellular level, encompassing tissues and organs. Such precision and granularity are indeed essential for clinicians, and statisticians to understand the underlying causes of diverse responses to clinical treatments and to predict potential adverse effects. To comprehensively address the hierarchical and stratified complexity of biological systems, we considered two levels of resolution in this manuscript. At the lowest granularity level, we examine the processes leading to variations observed in transcriptomic expression profiles among individuals. To account for unexplained variability observed among patients affected by the same disease, we introduce a discrete latent variable, modelled by parametric mixture models. Specifically, we assume that each transcriptomic profile can be described using a multivariate Gaussian distribution, whose parameters cannot be directly estimated in the general population. Subsequently, we delve into a more detailed level of granularity by reviewing canonical methods for estimating the composition of heterogeneous tissues. We present an original, standalone method for cell deconvolution called 'DeCovarT', applied to bulk transcriptomic profiles. This method notably allows for a better characterization of strongly correlated cell populations by integrating co-expression networks specific to each purified cell type, modeled through sparse precision matrices.
PHD defences
Monday December 4, 2023, 2PM, 15-16 201 et visioconférence
Sébastien Farkas (LPSM) Mathématiques appliquées à l'assurance des risques numériques
PHD defences
Thursday November 30, 2023, 10AM, Salle Paul Lévy, 16-26 209 et Zoom
Iqraa Meah (LPSM) Controlling false discovery proportion in structured data sets
PHD defences
Monday November 20, 2023, 2PM, Amphithéâtre 55A, Campus Pierre et Marie Curie et Zoom
Antonio Ocello (LPSM) Dynamic optimisation of branching diffusion processes
C'est votre Antonio, sans complaisance.
Durant ces années, j'ai inondé vos boîtes mail,
Avec des spams, des histoires sans faille.
Si vous vous souvenez de mes randonnées passées,
Alors aujourd'hui, soyez préparés,
Car je viens en paix, sans aucun remords,
Pour révéler enfin la raison de mon effort.
Mon doctorat, il est temps de le partager,
Une invitation, je vous la fais parvenir.
Le 20 novembre à 14 heures , soyez au rendez-vous,
À l' amphi 55A , campus de Jussieu.
Ma thèse, un titre long mais plein de sens,
“ Dynamic optimisation of branching diffusion processes ,”
Le contrôle stochastique, la clé de l'énigme,
Sur les systèmes de particules, ma thèse déprime.
Je vous implore, soyez là pour moi ce jour-là,
Pour écouter mes mots, même avec mon accent étrange,
Promis, des récompenses vous attendent après,
Mais seulement si vous endurez mon italien qui dérange.
Alors réservez la date, n'ayez pas peur,
On parlera de population, de contrôle et de bonheur.
Une discussion captivante, je vous le garantis,
Et un pot convivial pour célébrer avec vos amis.
J'attends votre présence avec impatience,
Pour partager ce moment de science.
R.S.V.P. pour que je puisse vous compter,
À ma thèse, soyez prêts à assister !
—
Hey there, folks, it's your Antonio in your inbox once more,
Three years of Ph.D. spam, you could not ignore!
For my faithful readers, you maybe recall my past hikes,
But now, a chance for newbies, no need for dislikes.
Today, I'm breaking the norm, so let's be clear,
Revealing why I'm here, with no more spam to fear.
I'm thrilled to announce, it's a day of celebration,
On November 20th , in Amphi 55A , no hesitation!
Join me at 2 PM , Jussieu's campus is the place,
To discuss my thesis, let's embrace this space.
The title's a mouthful, but don't be perplexed,
“ Dynamic optimization of branching diffusion ,” I'm vexed!
Stochastic Control's lens on particle systems we'll explore,
And scaling limits, I promise, won't be a bore.
I hope to see you there, in the crowd so bright,
Sharing this cherished moment, feels just right!
Great rewards await, a potluck, you see,
But only for those who can endure listening to me.
Chatting 'bout optimal control, expanding populations,
In my typical Italian accent, no hesitations!
Mark the date, save the time, and RSVP,
Let's make this day unforgettable, just you and me.
For science, laughs, and a celebration so grand,
Together we'll conquer, hand in hand!
PHD defences
Monday November 20, 2023, 5:30PM, Salle Paul Lévy, 16-26 209 et Zoom
Pierre Marion (LPSM) Mathematics of deep learning: generalization, optimization, continuous-time models
PHD defences
Wednesday November 8, 2023, 2PM, Salle Paul Lévy, 16-26 209
Sara Rejeb (LPSM) Méthodes d’apprentissage statistique pour l’analyse de données de production et de performances des moteurs d’avion
PHD defences
Monday November 6, 2023, 2:30PM, Salle Paul Lévy, 16-26 209 et Zoom
Robin Khanfir (LPSM) Limites d’échelle de marches branchantes critiques à valeurs dans des arbres, et du nombre de Horton-Strahler d’arbres de Galton-Watson
Dans un premier temps, on se consacre à l’étude d’une marche aléatoire (dite biaisée critique) sur un arbre infini (appelé l’environnement) et indexée par un arbre de Galton-Watson critique conditionné à être grand (appelé la généalogie). On suppose que la loi de reproduction de la généalogie est dans le domaine d’attraction d’une loi stable d’indice α ∈ (1, 2]. On traite d’une part du cas où l’environnement est un arbre régulier enraciné, et d’autre part du cas où il s’agit d’un arbre de Galton-Watson sur-critique modifié de façon à être de profondeur infinie. Sous une certaine hypothèse de moments pour l’environnement, on montre que le nombre de points visités par la marche croît linéairement, et à vitesse déterministe, en fonction de la taille de la généalogie lorsque cette dernière tend vers l’infini. En outre, on prouve que le sous-arbre des points visités par la marche branchante admet une limite d’échelle. Auparavant introduit dans le contexte de l’étude des cartes planaires aléatoire, cet espace métrique limite est le cactus brownien (réfléchi) avec mécanisme de branchement α-stable. La comparaison de cette étude nouvelle avec les travaux antérieurs sur les marches aléatoires indexées par le temps ou à valeurs dans un réseau euclidien illustre l’influence des branchements de la généalogie et de l’environnement.
Dans un second temps, on s’intéresse à la complexité de branchement des arbres de Galton-Watson en étudiant leurs nombres de Horton-Strahler. Cet outil combinatoire, aussi appelé fonction de registre, a été originellement introduit en hydrogéologie mais a été redécouvert et appliqué par de nombreuses autres disciplines scientifiques par la suite. Ici, on donne un équivalent asymptotique déterministe du nombre de Horton-Strahler d’un arbre de Galton-Watson critique conditionné par la taille et dont la loi de reproduction est dans le domaine d’attraction d’une loi stable d’indice α ∈ [1, 2]. Cette estimation ne dépend que de α lorsque α ̸= 1, mais les cas α = 1 sont modèle-dépendants et sujets à des comportements plus complexes. On examine ensuite les fluctuations du nombre de Horton-Strahler chez la famille spécifique des arbres de Galton-Watson stables, qui contient l’arbre de Galton-Watson critique binaire. On est alors amené à introduire une variante continue du nombre de Horton-Strahler, et on montre que celle-ci converge après recentrage vers une caractéristique métrique de la limite d’échelle des arbres. On étudie les propriétés de cette quantité nouvelle qui joue le rôle d’un analogue du nombre de Horton-Strahler pour les arbres continus.
—
Abstract: In this thesis, we study discrete random branching phenomena and seek to relate them to continuum fractal metric structures. Galton-Watson trees, which describe the genealogical history of an asexual population whose individuals reproduce under the same law and independently of each other, are our main model.
In the first part, we focus on the study of a random walk (said critical biased) on an infinite tree (called the environment) and indexed by a critical Galton-Watson tree conditioned to be large (called the genealogy). The offspring distribution of the genealogy is assumed to be in the domain of attraction of a stable law of index α ∈ (1, 2]. We both consider the case where the environment is a regular rooted tree and the case where it is a supercritical Galton-Watson tree modified to have an infinite depth. Under some hypothesis of moments for the environment, we show that the number of points visited by the random walk grows linearly, and at a deterministic speed, with respect to the size of the genealogy when the latter tends to infinity. Furthermore, we prove that the subtree of points visited by the branching random walk admits a scaling limit. Previously introduced in the context of the study of random planar maps, this limit metric space is the (reflected) Brownian cactus with α-stable branching mechanism. Comparison of this new study with earlier work about random walks indexed by a linear time or taking values in a Euclidean lattice illustrates the influence of the branching nature of the genealogy and the environment.
In the second part, we study the branching complexity of Galton-Watson trees by considering their Horton-Strahler numbers. This combinatorial tool, also known as the register function, was originally introduced in hydrogeology but was subsequently rediscovered and applied by many other scientific disciplines. Here, we give a deterministic asymptotic equivalent of the Horton-Strahler number of a size-conditioned critical Galton-Watson tree whose offspring distribution is in the domain of attraction of a stable law of index α ∈ [1, 2]. This estimate depends only on α when α ̸= 1, but the α = 1 cases are model-dependent and subject to more complex behaviors. We then examine the fluctuations of the Horton-Strahler number for the specific family of stable Galton-Watson trees, which contains the binary critical Galton-Watson tree. To do so, we introduce a continuous variant of the Horton-Strahler number that converges after recentering towards a metric characteristic of the scaling limit of the trees. We study the properties of this new quantity, which acts as a continuum analog of the Horton-Strahler number.
PHD defences
Friday October 20, 2023, 3PM, 15-25 102 et Zoom
Ludovic Arnould (LPSM) When Random Forests Meet Neural Networks - A finite sample analysis
In a further development, we examine the behaviour of RF algorithms in the interpolation regime, thus extending the study of interpolating estimators (such as neural networks and kernel methods) to random forests. Rates of convergence are established for interpolating median RF, and the influence of interpolation on the prediction performances is also measured through the volume of the interpolation zone, characterized for interpolating Breiman forests (Chapter 4).
Finally, we present an ongoing implementation work consisting in training neural networks with different objectives inspired from the PAC-Bayes framework in order to reach faster optimisation and better generalisation performances.
PHD defences
Wednesday October 18, 2023, 2PM, Salle 15-25-104 et Zoom
Loïc Béthencourt (LPSM) Limite de diffusion fractionnaire et problème de persistance
Dans un premier temps, nous établissons un théorème central limite α-stable pour des fonctionnelles additives de diffusions unidimensionnelles. Le cas des fluctuations gaussiennes est un problème classique et de nombreux résultats existent à ce sujet. Mais de manière surprenante, très peu de résultats concernent les limites d’échelles α-stable, pour α ∈ (0, 2).
Dans un second travail en commun avec Quentin Berger et Camille Tardif, nous nous intéressons au problème de persistance pour des fonctionnelles additives de processus de Markov, i.e. nous caractérisons asymptotiquement la probabilité que cette fonctionnelle reste en dessous d’un certain niveau jusqu’au temps t. Divers résultats y sont établis. Lorsque le processus de Markov sous-jacent est récurrent positif, nous donnons une condition nécessaire et suffisante pour que la probabilité de persistance soit à variations régulières. Lorsque le processus est récurrent nul, il nous faut des hypothèses supplémentaires pour établir le comportement asymptotique. Ces hypothèses étant un peu abstraites, nous les simplifions ensuite pour une sous-classe de processus appelés diffusions généralisées . Ceci nous amène dans une dernière partie à établir l’asymptotique de la queue de probabilité du temps de retour en zéro de la fonctionnelle, ce qui nous permet de construire la fonctionnelle additive conditionnée à rester négative.
Dans un troisième temps, nous étudions la limite d’échelle d’un modèle cinétique de Fokker-Planck avec conditions de bord diffusives. Plus précisément, on considère une particule qui vit dans [0,\infty) dont la vitesse est une diffusion récurrente positive ayant une mesure invariante à queues lourdes lorsque la particule est strictement positive. Quand la particule touche la frontière x = 0, elle en ressort instantanément avec une vitesse strictement positive tirée aléatoirement selon une mesure de probabilité sur (0, \infty). Nous montrons que pour la particule réfléchie, la limite d’échelle est un processus α-stable réfléchi sur son infimum.
Dans un quatrième travail en commun avec Quentin Berger, nous revisitons le théorème de Sparre Andersen pour des variables aléatoires échangeables et invariantes par signe. Nous utilisons ensuite ce résultat pour obtenir des bornes sur des probabilités de persistance de certaines chaînes de Markov intégrées.
Enfin, dans une dernière partie, nous revisitons les résultats du Chapitre 1 concernant les limites d’échelles de fonctionnelles additives en utilisant les outils introduits dans les Chapitres 2 et 3.
PHD defences
Friday September 29, 2023, 2PM, Salle Paul Lévy, 16-26 209
Ariane Marandon (LPSM) Contributions to reliable machine learning via false discovery rate control
PHD defences
Thursday September 28, 2023, 3PM, Salle Paul Lévy, 16-26 209
Yazid Janati (LPSM) Monte Carlo methods for Machine Learning: practical and theoretical contributions for Importance Sampling and sequential methods
PHD defences
Friday September 22, 2023, 1:30PM, Salle 0010, Campus Paris Rive Gauche
Aaraona Rakotoarivony (LPSM) Quelques applications du contrôle stochastique au problème de financement des entreprises
—
Abstract: This thesis lies at the crossroads of real options theory, option pricing, and stochastic control. We focus on the extension of Modigliani Miller's theorem and its links with the cash management model whose study was initiated by Jeanblanc al. and Shreve al. In their seminal paper, Modigliani and Miller (MM) demonstrated that in a frictionless world, corporate decisions such as dividend policy (1961) or capital structure (1968) are irrelevant: they do not affect the value of shareholders' equity. We organize our work as follows: first, we consider the problem of capital structure from the manager's point of view. We consider a problem in which the manager chooses between issuing debt or equity to finance the firm. When the company is not in difficulty, the manager may issue dividends to reward shareholders, or reduce the amount of debt outstanding, thereby reducing the amount paid in interest on the debt. Care has been taken to distinguish between the company's assets: fixed assets and cash reserves, and its liabilities: debts, and shareholders' equity. In particular, the company's financial distress may be structural in nature or due to a lack of liquidity. In our model, equity maximization gives rise to a non-classical two-dimensional singular stochastic control problem. We approach the problem using viscosity theory and provide a numerical illustration of our results. Next, we focus on assessing the impact of the additional reprieve granted to distressed companies. Under the US Bankruptcy Code, a company filing for bankruptcy can file for liquidation under Section 7 or protect its assets from debtors under Section 11. Similar legislation is also common in the bankruptcy codes of other countries, such as France and the United Kingdom: France, United Kingdom. Under Article 11, the company is allowed to continue its activities for a certain period of time, determined by a referee, in order to reorganize and return to a stable financial situation. We present our problem as a singular control problem. We emphasize the similarity of the value function to Parisian options, among other things. This similarity enables us to derive an explicit formula for the case of Brownian motion with drift. Finally, we consider the problem of optimal dividend and investment policy in the presence of a Markov chain business cycle. The innovation here comes from the modeling of the investment process. We assume that investment opportunities are financed by issuing debt. However, these proposals are uncertain in the sense that they only occur at random times. The manager has the right but not the obligation to accept these investment opportunities, which have an impact on the company's risk profile and capital structure. This problem gives rise to a two-dimensional stochastic control of diffusion with jumps.
PHD defences
Monday September 11, 2023, 2PM, Salle 15-25 102 (campus Pierre et Marie Curie)
Pierre Bras (LPSM) Algorithmes adaptatifs de Langevin Monte Carlo pour l'optimisation stochastique et l'inférence Bayésienne
–
Abstract: This thesis focuses on adaptive Stochastic Gradient Langevin Dynamics (SGLD) algorithms to solve optimization and Bayesian inference problems. SGLD algorithms consist in a stochastic gradient descent with exogenous noise added in order to escape local minima and saddle points. Contrary to the classic Langevin Stochastic Differential Equation, we study the case where the exogenous noise is adaptive i.e. not constant but depends on the position of the procedure. In a first part we prove the convergence of SGLD algorithms for the $L^1$-Wasserstein distance and for the Total Variation distance. In a second part we apply SGLD algorithms to optimization and inference problems arising in Machine Learning and in Numerical Probability and we introduce the Layer Langevin algorithm. A last part is devoted to the numerical simulation of stochastic processes.
PHD defences
Thursday June 29, 2023, 2PM, Salle Paul Lévy, 16-26 209 et Zoom
Yoan Tardy (LPSM) Etude des modèles stochastique et déterministe de Keller-Segel
PHD defences
Friday March 10, 2023, 10AM, Salle Paul Lévy, 16-26 209
Jérémy Chichportich (LPSM) Some applications of Learning Algorithms in Quantitative Finance
PHD defences
Thursday January 5, 2023, 1:30PM, Salle Paul Lévy, 16-26 209
Jérôme Carrand Propriétés ergodiques des flots en basses dimensions incluant les billards dispersifs
Dans la deuxième partie, nous construisons des états d'équilibre pour l'application de collision d'un billard dispersif, associés à des potentiels Holder par morceaux. Cette construction repose sur l'étude d'un opérateur de transfert pondéré agissant sur des espaces de Banach anisotropes. Nous montrons que, lorsque le potentiel satisfait certaines conditions techniques, il existe un état d'équilibre, unique, Bernoulli, adapté et de support total. Nous explicitons un potentiel tel que l'ensemble de ses états d'équilibre est en bijection avec l'ensemble des mesures d'entropie maximale du flot billard. Enfin, nous montrons que ce potentiel satisfait les hypothèses dégagées. Par suite, nous obtenons une condition suffisante pour que le flot billard ait une unique mesure d'entropie maximale, et montrons qu'elle est Bernoulli et adaptée. Nous donnons des exemples de billards qui satisfont cette condition.
Abstract: This thesis is divided into two parts. In the first part, we give a short proof showing that the ergodic integrals of a uniquely ergodic flow on a torus in dimension two admitting a transverse section whose Poincaré map has a rotation number of constant type grow at most logarithmically. Thanks to the asymptotic expansion of these integrals for Giulietti-Liverani flows, we retrieve the absence of non-trivial Ruelle resonance of modulus strictly greater than one. We give an example of a flow on the torus renormalized by an Axiom diffeomorphism that satisfies these assumptions. In the second part, we construct equilibrium states for the collision map of a dispersive billiard, associated to piecewise Holder potentials. This construction is based on the study of a weighted transfer operator acting on anisotropic Banach spaces. We show that, when the potential satisfies certain technical conditions, there exists a unique, Bernoulli, adapted and has full support. We explicit a potential such that the set of its equilibrium states is in bijection with the set of measures of maximal entropy of the billiard flow. Finally, we show that this potential satisfies the assumptions identified. As a result, we obtain a sufficient condition for the billiard flow to have a unique measure of maximal entropy, and show that it is Bernoulli and adapted. We give examples of billiard tables satisfying this condition.
Year 2022
PHD defences
Friday December 16, 2022, 2PM, Salle Paul Lévy, 16-26 209 et Zoom
Sergi Burniol Clotet Propriétés ergodiques des horosphères sur les variétés sans points conjugués
Abstract: We study the ergodic properties of the horospheres on certain classes of manifolds without conjugate points. Our goal is to generalize several results already known for negatively curved manifolds. We prove that, for a large class of nonpositively curved rank 1 manifolds, certain horospheres are equidistributed under the action of the geodesic flow towards the Bowen-Margulis measure. In the case of nonflat nonpositively curved surfaces, we define a horocyclic flow on the set of horocycles containing a rank 1 vector that is recurrent under the action of the geodesic flow and we prove that this horocyclic flow has a unique invariant probability measure. Finally, we show that any horocyclic flow on a compact higher genus surface without conjugate points and with continuous Green bundles is uniquely ergodic. Our approach is based on methods specific to geodesic flows such as the boundary at infinity and the construction of the Bowen-Margulis measure via the Patterson-Sullivan theory. The main ingredient in the equidistribution theorem is the mixing of the Bowen-Margulis measure. Regarding the horocyclic flows, our results are obtained thanks to the definition of a uniformly expanding parametrization similar to the one used by B. Marcus in negative curvature.
PHD defences
Friday December 9, 2022, 9AM, Sophie Germain 0013
William Lefebvre Stochastic control methods applied to portfolio construction, control with delay and PDE solving
In the first part, we solve a mean variance portfolio selection problem where the portfolio is penalized by a distance between the wealth invested in each of its assets and the composition of a reference portfolio with fixed weights. The optimal control and value function are obtained in closed form and an analogue of the efficient frontier formula is obtained in the limit where the penalisation tends to zero. The robustness of this allocation is tested on simulated market prices with parameter misspecification.
The second part deals with the delayed control of stochastic differential equations. We solve a simple linear quadratic stochastic control problem where the control appears both in the drift and diffusion part of the state SDE and is affected by a delay. The expressions of the optimal control and value function are obtained in terms of the solution of a system of coupled Riccati PDEs for which the existence and uniqueness of a solution is proven, provided that a condition, combining the time horizon, the delay, the drift and the volatility of the state SDE is satisfied. A deep learning method is used to solve the system Riccati PDEs in the context of Markovitz portfolio selection with execution delay.
In the third part, three methods based on deep learning are defined in order to solve fully non linear PDEs with convex Hamiltonian. These methods use the stochastic representation form of the PDE, whose optimal control is approximated numerically, in order to obtain three different estimators of the PDE solution based on regression or pathwise versions of the martingale representation and its differential relation. The solution and its derivatives are then computed simultaneously. We further leverage our methods to design algorithms for solving families of PDEs with parametric terminal condition by means of DeepOnet neural networks.
PHD defences
Thursday December 8, 2022, 10AM, Visioconférence Zoom
Mohan Yang Méthodes numériques probabilistes pour la finance: valorisations des droits à polluer et approximation de couverture faible
Mots clé: EDSPRs, Algorithme SGD, Deep learning, Grande dimension, Schémas de Splitting, particules stochastiques, Transport optimal.
PHD defences
Thursday November 24, 2022, 10AM, Salle Paul Lévy, 16-26 209
Arthur Blanc-Renaudie Limites d'échelles d'arbres et de graphes inhomogènes
Pour les analyser, on utilise principalement deux méthodes. Tout d’abord, on modifie nos algorithmes pour étudier les tailles des premières branches et là où elles sont collées. Ensuite, pour prouver que nos modèles sont proches de leurs premières branches, on utilise la méthode de chainage. Plus précisément, on divise nos algorithmes en grandes étapes, et on prouve qu’entre deux grandes étapes les objets que l’on construit ne changent pas beaucoup.
Dans le chapitre 2 , on étudie les ICRT et notamment leur compacité et dimension fractales. Dans le chapitre 3 , on prouve des limites d’échelles des arbres à suite de degrés fixés, et on majore leur hauteur. Dans le chapitre 4 , on prouve des limites d’échelles pour les multigraphes à suites de degrés fixés et surplus fixés, et on précise des connexions entre le modèle de configuration et les graphes multiplicatifs. Dans le chapitre 5 , on invente une théorie d’ R -arbre plan ce qui nous permet de définir et d’étudier les ICRT plans, leurs “arbres-boucles”, et des champs sur ces objets. Ce chapitre a pour but d’être appliqué à l’étude des cartes aléatoires à suite de face-degrés fixés.
PHD defences
Friday October 21, 2022, 2:30PM, 16-26 219
Bouazza Saadeddine Learning From Simulated Data in Finance: XVAs, Risk Measures and Calibration
English abstract: The emergence of complex XVA frameworks and time-consuming pricing models has encouraged researchers and finance practitioners to look at statistical learning methods to accelerate their calculations. The present thesis aims to contribute new approaches based on neural networks. First, we propose a consistent XVA framework along with a practical implementation using neural networks least-squares and quantile/expected shortfall regressions and GPU computing. Our implementation avoids Nested Monte Carlo simulations and does not need the usual approximations used by practitioners. Then, we address the issue of learning conditional expectations or risk measures in the presence of default events in a general framework. For this, we propose a new simulation scheme and provide a statistical convergence analysis and numerical experiments demonstrating its effectiveness. We also study the statistical convergence of a two-step quantile and expected shortfall learning approach and provide learning schemes based on neural networks for the single and multiple quantile learning cases. We address the quantile crossing issue as well. Motivated by the fact that the fungibility of the risk capital with variation margin in XVA calculations gives rise to anticipated backward stochastic differential equations, we devise an explicit learning scheme for such equations. Finally, we provide a projection approach to approximate the price of vanilla options in the context of model calibration to accelerate the latter. Our method, based on complex-step differentiation, augments the learning by seeking to project stochastic directional derivatives.
PHD defences
Thursday October 13, 2022, 2PM, 15-16 201
Lucas Broux Sewing, Reconstruction and Schauder in rough analysis and regularity structures
D'abord, nous établissons un lemme de couture dans le régime 0 < gamma ⇐ 1, donnant une construction qui n'est pas unique ni canonique mais tout de même continue. En corollaire, nous exhibons une paramétrisation bicontinue de l'ensemble des chemins rugueux par un produit d'espaces de Hölder, généralisant à la fois le théorème d'extension de Lyons–Victoir et un résultat récent de Tapia–Zambotti.
Ensuite, nous proposons un théorème de reconstruction dans le contexte des espaces de Besov, généralisant des résultats de Hairer–Labbé et Caravenna–Zambotti. En corollaire, nous donnons une nouvelle preuve du théorème de multiplication dans les espaces de Besov, sans utiliser de paraproduits.
Enfin, nous étudions les propriétés régularisantes des noyaux singuliers contre les germes. Un premier résultat est la construction d'une application de convolution qui agit sur les germes cohérents et homogènes. Nous revisitons ensuite les estimées de Schauder multiniveaux de Hairer, donnant une présentation et une preuve qui font référence aussi peu que possible au formalisme des structures de régularité.
Abstract: In this thesis, we derive analytic results related to the theories of Rough Paths and Regularity Structures, with the point of view of germs, that is, families of local approximations of functions or distributions.
We first establish a Sewing Lemma in the regime 0 < gamma ⇐ 1, giving a construction which is non unique nor canonical but still continuous. As a corollary, we exhibit a bicontinuous parametrisation of the set of Rough Paths by a product of Hölder spaces, generalising both the Lyons–Victoir extension theorem and a recent result by Tapia–Zambotti.
Secondly, we propose a Reconstruction Theorem in the context of Besov spaces, generalising results of Hairer–Labbé and Caravenna–Zambotti. As a corollary, we provide a new proof of the multiplication theorem in Besov spaces without relying on paraproducts. Finally, we study the regularising properties of singular kernels against germs. A first result is the construction of a convolution map which acts on general coherent and homogeneous germs. We also revisit Hairer's multilevel Schauder estimates, providing a presentation and a proof which make only minimal references to the formalism of regularity structures.
PHD defences
Monday October 10, 2022, 2PM, À distance
David Lee Le théorème de reconstruction et la technique d’extension
Nous considérons d’abord la formulation alternative du théorème de reconstruction faite par Caravenna et Zambotti mais nous généralisons ce résultat dans le cadre de Besov.
Deuxiémement, nous développons un calcul fonctionnel en utilisant une généralisation de la technique d’extension grâce à Kwaśnicki et Mucha .
Enfin, nous nous concentrons sur une approche alternative de la technique d’extension de Kwaśnicki et Mucha utilisant la théorie des fonctionnelles additives continues. Profitant de cette approche, nous montrons comment nous pouvons obtenir des exemples explicites de techniques d’extension.
Abstract: In this thesis, we focus on two problems within analysis and probability. The first being a problem relating to the so-called reconstruction theorem due to Martin Hairer and the second relating to the extension technique due to Caffarelli and Silvestre.
We first consider the alternative formulation of the reconstruction theorem done by Caravenna and Zambotti but we generalize this result within the Besov framework.
Secondly, we develop a functional calculus using a generalization of the extension technique due to Kwaśnicki and Mucha.
Lastly, we focus on an alternative approach of the extension technique from Kwaśnicki and Mucha utilizing the theory of continuous additive functionals. Taking advantage of this approach we show how one can obtain explicit examples of extension techniques.
PHD defences
Thursday September 29, 2022, 2PM, Tour 16/26 Salle 113
Nicklas Hasseriis Werge Learning from time-dependent streaming data with online stochastic algorithms
PHD defences
Wednesday September 28, 2022, 2PM, Tour 16/26 Salle 209 et sur Google Meet
Thibault Randrianarisoa Contributions à l’analyse théorique de méthodes d’apprentissage statistique et de quantification de l’incertitude
La première classe d'algorithmes que nous considérons est celle des méthodes bayésiennes basée sur des structures d'arbres. Elles reposent sur le principe de 'diviser pour mieux régner', en partitionnant l'espace des données pour estimer le paramètre localement. En régression, ces méthodes incluent BCART et BART, cette dernière étant un ensemble d'arbres ou “forêt“. En estimation de densité, les arbres de Pólya sont un exemple de telles lois a priori et constituent la base d'une myriade de constructions connexes. Nous proposons une nouvelle extension, DPA, qui est une “forêt de Pólya” et permet d'atteindre des vitesses de contraction minimax, de manière adaptative, en distance de Hellinger pour des régularités de Hölder arbitraires. Des vitesses adaptatives dans la norme infinie sont également obtenues pour la loi a priori des arbres de Pólya optionnel (OPT), similaire à BCART en régression, pour des fonctions de régularité Lipschitz.
Les processus gaussiens (GP) sont une autre classe populaire de lois étudiées en statistique bayésienne nonparamétrique et en apprentissage automatique. Motivés par la taille toujours croissante des bases de données, nous proposons un nouveau processus gaussien 'horseshoe' avec une couche de sélection de variables 'soft' pour pouvoir tirer parti d'une dimension des données plus petite que celle de l'espace ambiant. Nous dérivons des vitesses de contraction optimales pour les loi a posteriori tempérées. Les processus gaussiens profonds sont les homologues bayésiens des célèbres réseaux neuronaux profonds. Nous prouvons que, en tant qu'élément de base dans une telle construction, les GP ‘horseshoe' donnent également des vitesses adaptatives sous des hypothèses de structure de composition du paramètre.
En ce qui concerne la quantification de l'incertitude (UQ), les méthodes bayésiennes sont souvent louées pour la solution qu'elles fournissent avec la définition des ensembles de crédibilité. Nous prouvons que ces ensembles construits sous OPT sont des ensembles de confiance avec un niveau de confiance exact et une taille optimale (ou quasi-optimale) en norme infinie sous des conditions qualitatives d'auto-similarité. De plus, nous menons une étude théorique de l'UQ pour les distances de Wasserstein Wp et mettons en lumière un nouveau phénomène. En dimensions inférieures à 4, il est toujours possible de construire des ensembles de confiance dont les rayons en distance Wp, p⇐2, s'adaptent à n'importe quelles régularités (sans hypothèses qualitatives). Cela contraste fortement avec la théorie habituelle en norme Lp, où des concessions doivent toujours être faites.
PHD defences
Monday July 11, 2022, 1:30PM, salle 1009 à Sophie Germain
Sothea Has Modèles prédictifs par agrégation consensuelle et applications
PHD defences
Thursday July 7, 2022, 9:30AM, Par Zoom
Hiroshi Horii Large-time asymptotics of anomalous fluctuations in heavy-tailed renewal-reward processes
This kind of random phenomenon can be explained using a renewal-reward process and by constructing the model, we can estimate the expected value and the fluctuations of the interested stochastic process. Also, this stochastic process becomes the generalization of Markov jump processes and it can contain memory effects. Thus, this is a useful model because the process can describe a broad spectrum of phenomena in physics and other fields, including a melt-up of the stock market and a super spreader in epidemics, where memory effects are known to be important.
In this thesis, our main motivation is to clarify the finite-time behavior of anomalous fluctuations. For studying the topic, we start by introducing the definition of a renewal-reward process and the large deviation theory. Afterward, we show the result of anomalous fluctuations behavior, especially the fluctuations of the renewal-reward process with memory effects, in renewal-reward processes with heavy-tailed waiting time distributions.
In the first work, we study the large time asymptotic of renewal-reward processes with a heavy-tailed waiting time distribution. It is known that the heavy tail of the distribution produces extremely slow dynamics, resulting in a singular large deviation function. This amounts to a “flattened” bottom of the large deviation function, manifesting anomalous fluctuations of the renewal-reward processes.
In the second work, we re-visit the flat part in the cumulant generating function by using a variational principle and a numerical simulation technique developed in large deviation theory. These techniques have been applied to study a singularity appearing in the large deviation function in, among others, kinetically constrained models and active matters. These models are defined using Markov processes, because of which the large deviation function of time-averaged quantities does not have any singularity whenever the system size (not the averaging time) is finite. Our focus is on how the same methodology can be extended to our non-Markovian problem to derive the flat part.
In the third work, by using the renewal theory, we discuss anomalous scaling of the cumulants with memory effects in a renewal-reward process instead of focusing on the probability of rare events. In particular, we analyze the variance of heavy waiting time distributions.
PHD defences
Wednesday June 22, 2022, 2PM, Tour 15/25 salle 104 et par zoom
Joseph De Vilmarest Modèles espace-état pour la prévision de séries temporelles. Application aux marchés électriques
Un premier objectif de la thèse est de contribuer au lien entre l'optimisation et l'estimation dans les modèles espace-état. Nous interprétons en effet les méthodes que nous utilisons comme diverses façons de paramétrer un algorithme de descente de gradient de second ordre, et nous avons détaillé ce lien dans un cas particulier. Une seconde contribution de la thèse est de proposer différentes méthodes d'estimation dans les modèles espace-état. Le principal enjeu nous semble être de définir la dynamique avec lequel évolue l'état, et nous proposons deux méthodes dans ce but. Le troisième apport de ce manuscrit est d'appliquer ces méthodes espace-état à la prévision de consommation d'électricité. Nos prévisions s'appuient sur des modèles de prévision existants, par exemple le modèle additif généralisé, que nous cherchons à adapter. Ainsi, nous tirons parti de certaines dépendances complexes capturées par les modèles existants, par exemple la sensibilité de la consommation d'électricité à la température, tout en profitant de la faculté d'adaptation des modèles espace-état.
PHD defences
Monday June 20, 2022, 3:30PM, Bat Sophie Germain - salle 1003 et par zoom
Maximilien Germain Machine learning for stochastic control and partial differential equations in high dimension
The first part focuses on the resolution of parabolic nonlinear PDEs. We describe a multistep neural network scheme which improves existing methods from the literature. One of our contributions is the study of its approximation error together with the ones of existing methods in the semilinear case where the equation is linear with respect to the second order derivative. By using Lipschitz GroupSort neural networks, we are able to link the error to the number of layers and neurons of the approximating network. We also develop one-step and multistep schemes in the more challenging case of fully nonlinear PDEs, based on Malliavin weights and automatic differentiation. All the numerical schemes are tested on numerical examples to demonstrate their relevance.
The second part of this work is dedicated to mean-field control and McKean-Vlasov equations. We prove by probabilistic arguments a rate of convergence for the finite dimensional approximation of a PDE on the Wasserstein space. We then use symmetric DeepSet neural networks to solve symmetric PDEs in high dimension. Hence we are able to approximate numerically mean-field control problems by solving their optimality conditions in the form of a Master Bellman PDE in infinite dimension. We then consider mean-field control with probabilistic state constraints on the law of the controlled state. We represent the problem by an auxiliary unconstrained problem with exact penalisation which can be solved by the modification of an existing brute force deep learning scheme.
PHD defences
Tuesday May 31, 2022, 9AM, Salle 15/25 104 et par Zoom
Gloria Buritica Borda Assessing the time dependence of multivariate extremes for heavy rainfall modeling
To achieve this plan, we consider consecutive observations, or blocks, and analyze their extreme behavior as their lp-norm reaches high levels, for p > 0. This consideration leads to the theory of p-clusters, which model extremal lp-blocks. In the case p = ∞, we recover the classical cluster (of exceedances). For p < ∞, we built on large deviations principles for heavy-tailed observations. Then, we study in depth two setups where p-cluster theory appears valuable. First, we design disjoint blocks estimators to infer statistics of p-clusters, e.g., the extremal index. Actually, p-clusters are linked through a change of norms functional. This relationship opens the road for improving cluster inference since we can now estimate the same quantity with different choices of p. We show cluster inference based on p < ∞ is advantageous compared to the classical p = ∞ strategy in terms of bias. Second, we propose the stable sums method for high return levels inference. This method enhances marginal inference by aggregating extremes in space and time using the lp-norm, where α > 0 is the (tail) index of the series. In simulation, it appears to be robust for dealing with temporal memories and it is justified by the α-cluster theory.
PHD defences
Wednesday April 6, 2022, 9:30AM, Par Zoom
Yiyang Yu Apprentissage profond en santé publique, et contributions en apprentissage statistique
La première contribution consiste à introduire un nouveau modèle appelé ZiMM (Zero-inflated Mixture of Multinomial distributions), et une architecture Encodeur-Décodeur (ED) de réseaux de neurones profonds entraînés de-bout-en-bout, modélisant les parcours de soins pour la prédiction des complications post-chirurgicales. ZiMM-ED est appliqué aux données de santé de remboursement de soins provenant du Système National des Données de Santé (SNDS) en France, qui est une base de données non-clinique, contenant seulement les codes de remboursement datés d'achats de médicaments et des diagnostics hospitaliers. En particulier, nous considérons les complications jusqu'au 18e mois après la chirurgie, ce qui correspond à des observations “floues” car seulement observées à partir des achats de médicaments d'une famille spécifique. Nos expériences montrent les améliorations en termes de performance prédictive de ZiMM-ED par rapport à plusieurs modèles de référence. ZiMM-ED ouvre la voie de l'exploitation d'un tel jeu de données avec peu de pré-traitement à grâce aux réseaux de neurones profonds. Cette base de données est jusque-là utilisée principalement pour des raisons administratives (remboursement des soins de santé), et nous montrons le pouvoir prédictif des réseaux de neurones profonds dessus sur une telle base de données avec un cas précis.
La deuxième contribution porte sur l'étude théorique de l'apprentissage contrastif de représentation, une technique récemment devenue populaire et expérimentalement efficace pour l'entraînement auto-supervisé. En se basant sur quelques résultats proposant des cadres d'étude théoriques, nous étendons la garantie pour la qualité des représentations apprises dans la phase pré-entrainement non-supervisé avec une perte contrastive et de multiples échantillons négatifs, la qualité étant mesurée en termes de performance prédictive pour les tâches supervisées en aval. En outre, nous fournissons une garantie de convergence quant à la minimisation de la perte contrastive avec la descente de gradient pour un encodeur de réseaux de neurones sur-paramétré. Ces résultats théoriques, combinant des expériences numériques, ouvrent des portes pour une meilleure compréhension des pratiques de pré-entrainement - affinement très utilisées aujourd'hui en apprentissage profond.
La troisième contribution consiste à introduire un nouvel algorithme de type forêt aléatoire, que nous nommons WildWood. Alors que l'algorithme standard de forêt aléatoire utilise des échantillons bootstrap out-of-bag seulement pour calculer des scores, WildWood utilise ces échantillons pour améliorer les prédictions en calculant l'agrégation de tous les sous-arbres possibles de chaque arbre dans la forêt : ce calcul est exact et efficace grâce à l'algorithme de context tree weighting. Nous montrons que théoriquement, la perte induite par une telle agrégation est comparable à celle du meilleur sous-arbre possible. Nous proposons une implémentation Python open-source de WildWood avec une stratégie d'histogramme qui permet d'accélérer la recherche des coupures impliquées dans la construction des arbres. Notre implémentation est rapide et compétitive en comparaison avec d'autres algorithmes ensemblistes bien connus, par exemple la forêt aléatoire standard et les algorithmes d'extrême gradient boosting.
Enfin, le dernier chapitre de cette thèse est consacré à la régression logistique en ligne et considère le regret par rapport à la boule l2 de rayon B. Alors qu'il est connu que les algorithmes propres avec regret logarithmique en le nombre d'itérations n subissent nécessairement un facteur exponentiel en B dans leur borne de regret, quelques algorithmes impropres, bayésiens et non-bayésiens, ont été introduits récemment avec des meilleures garanties. Dans le but d'obtenir une garantie de regret optimale, nous proposons deux algorithmes impropres et non-bayésiens, OSMP et AOSMP, reposant sur une stratégie “minmax à une étape”, avec la fonction de perte exacte pour OSMP, et une fonction de perte approchée pour AOSMP. Nos analyses de regret s'appuient entre autres sur la propriété de self-concordance généralisée de la fonction logistique. Pour OSMP, malgré une borne supérieure obtenue pour les regrets instantanés, nous expliquons en quoi l'amélioration des bornes de regret est une question difficile, à laquelle AOSMP apporte une réponse comparable à l'état de l'art de la garantie de regret.
Mots clefs : Apprentissage statistique, Apprentissage profond, Données de santé, Apprentissage contrastif, Forêts aléatoires, Régression logistique en ligne
PHD defences
Tuesday March 29, 2022, 10:30AM, Salle 16/26 209 et par Zoom
William Da Silva Processus de croissance-fragmentation multitypes et excursions planaires.
PHD defences
Thursday March 24, 2022, 3PM, Bat Sophie Germain - salle 1014 et par zoom
Junchao Chen Schémas d’approximation numérique probabiliste en finance: méthodes d’apprentissage pour les EDSRs de grande dimension et algorithmes de Monte Carlo sans biais pour des modèles à volatilité stochastique
PHD defences
Monday January 17, 2022, 2PM, Salle 16/26 - 209 et par ZOOM
Alexandra Lefebvre Modèles graphiques probabilistes pour la génétique et l’analyse de survie. Application au syndrome de Lynch
Year 2021
PHD defences
Wednesday December 15, 2021, 5:30PM, Bat Sophie Germain - salle 0013 et par zoom
Médéric Motte Les modèles de grande population contrôlée, les comportements économiques, et la publicité ciblée
PHD defences
Monday December 6, 2021, 9:45AM, Couloir 15/25 salle 104 et par Zoom
Clément Bénard Forêts aléatoires et interprétabilité des algorithmes d’apprentissage
PHD defences
Tuesday November 30, 2021, 2PM, Amphithéâtre 15
Pierre Bertrand Conditions de Monge, Transport Optimal et Pont Relationnel : propriétés, applications et extension du couplage d'indétermination
PHD defences
Friday October 15, 2021, 9AM, Tour 15/25 salle 104
Adeline Fermanian Learning time-dependent data with the signature transform
PHD defences
Monday September 27, 2021, 9:30AM, Paul Levy
Florian Bechtold Regularization phenomena for stochastic (partial) differential equations via Itô- and pathwise stochastic calculi
Secondly, we establish a law of large numbers for interacting particle systems without imposing independence or finite moment assumptions on the initial conditions: Towards this end, we establish a non-closed equation satisfied by the associated empirical measure in a mild sense that differs from the expected limiting McKean-Vlasov PDE only by a certain noise term. In treating said noise term, we employ pathwise rough path bounds and arguments based on Itô-calculus in a complementary fashion that allow to establish the desired law of large numbers.
Finally we investigate regularization phenomena through averaging along curves. Based on recent space-time regularity estimates for local times of fractional Brownian motion in one dimension, we study averaged transport equations in passing by their associated regularized characteristics. By employing a fixed point argument on the level of transport equations, we are able to subsequently pass to a Burgers' type equation averaged along paths of fractional Brownian motion. The arguments at each step are conditional on the Hurst parameter satisfying explicitly established conditions.
PHD defences
Thursday September 16, 2021, 2PM, En visio
Alexandre Legrand “Perturbations de la transition d'adsorption dans des modèles de polymères”
PHD defences
Tuesday June 29, 2021, 10AM, Salle Paul Lévy, 16-26 209
Aude Sportisse Handling heterogeneous and MNAR missing data in statistical learning frameworks: imputation based on low-rank models, online linear regression with SGD, and model-based clustering
PHD defences
Thursday June 24, 2021, 10AM, Salle Paul Lévy, 16-26 209
Guillaume Conchon-Kerjan Graphes aléatoires peu denses : de spécifications locales vers des phénomènes globaux
PHD defences
Tuesday March 30, 2021, 10AM, Salle Paul Lévy, 16-26 209
Houzhi Li Étude de méthodes numériques pour certaines équations différentielles stochastiques en finance et modélisation de la distribution du capital dans le marché financier
PHD defences
Friday March 12, 2021, 10AM, Salle Paul Lévy, 16-26 209
Othmane Safsafi Arbres couvrants minimums aléatoires inhomogènes, propriétés et limite
PHD defences
Friday January 15, 2021, 10:45AM, N/A
Félix Foutel-Rodier Scaling limits of branching and coalescing models arising in population biology
Year 2020
PHD defences
Friday December 18, 2020, 10AM, Salle Paul Lévy, 16-26 209
Rancy El Nmeir Quantification gloutonne: nouvelle approche et applications aux E.D.S. rétrogrades réfléchies
PHD defences
Friday December 18, 2020, 10AM, Salle Paul Lévy, 16-26 209
Armand Bernou Comportement en temps long d'équations cinétiques avec effets de bord
PHD defences
Wednesday December 9, 2020, 10AM, Salle Paul Lévy, 16-26 209
Malo Jezequel Théorie spectrale des dynamiques hyperboliques ultradifférentiables
PHD defences
Friday November 13, 2020, 10AM, Salle Paul Lévy, 16-26 209
Matthias Clery La théorie des probabilités et l’Institut Henri Poincaré (1918-1940) : construction d’un champ probabiliste et pratique d’un transfert culturel
PHD defences
Thursday October 29, 2020, 10AM, Salle Paul Lévy, 16-26 209
Thibaut Lemoine Théorie asymptotique des représentations et applications à la théorie de Yang-Mills
PHD defences
Wednesday October 14, 2020, 10AM, Salle Paul Lévy, 16-26 209
Fabio Coppini Weakly Interacting Diffusions on Graphs
PHD defences
Wednesday October 14, 2020, 10AM, Salle Paul Lévy, 16-26 209
Emilie Miranda Modélisation et caractérisation des risques extrêmes en fatigue des matériaux
PHD defences
Monday October 5, 2020, 10AM, Salle Paul Lévy, 16-26 209
Johann Nicolle Quelques contributions des méthodes d’apprentissage bayésien et algorithmique aux problèmes de sélection de portefeuilles
PHD defences
Friday October 2, 2020, 10AM, Salle Paul Lévy, 16-26 209
Vincent Margot Algorithmes interprétables pour la régression : Théorie et applications
PHD defences
Monday September 14, 2020, 10AM, Salle Paul Lévy, 16-26 209
Zhuchao Ji Fatou-Julia dichotomy and non-uniform hyperbolicity for holomorphic endomorphisms on P^2(C)
PHD defences
Wednesday July 8, 2020, 10AM, Salle Paul Lévy, 16-26 209
Barbara Dembin Percolation et percolation de premier passage : constante isopérimétrique, constante de temps, constante de flux
PHD defences
Wednesday July 8, 2020, 10AM, Salle Paul Lévy, 16-26 209
Nicolas Meyer High-dimensional Learning for Extremes
PHD defences
Thursday July 2, 2020, 10AM, Salle Paul Lévy, 16-26 209
Lea Longepierre Estimation par maximum de vraisemblance dans des modèles à blocs stochastiques dynamiques ou spatiaux
PHD defences
Wednesday June 24, 2020, 10AM, Salle Paul Lévy, 16-26 209
Thibaut Montes Numerical methods by optimal quantization in finance
PHD defences
Wednesday June 17, 2020, 10AM, Salle Paul Lévy, 16-26 209
Qiming Du Sequential Monte Carlo and Applications in Molecular Dynamics
PHD defences
Thursday February 27, 2020, 10AM, Salle Paul Lévy, 16-26 209
Marcel Brautigam Pro-cyclicality of Risk Measurements - Empirical Quantification and Theoretical Confirmation
Year 2019
PHD defences
Monday December 9, 2019, 10AM, Salle Paul Lévy, 16-26 209
Benjamin Havret On the Lyapunov exponent of random transfer matrices and on pinning models with constraints
PHD defences
Monday December 9, 2019, 10AM, Salle Paul Lévy, 16-26 209
Chnguang Liu Statistical inference for a partially observed interacting system of Hawkes processes
PHD defences
Monday December 9, 2019, 10AM, Salle Paul Lévy, 16-26 209
Babacar Diallo X-Valuation Adjustments Computations by Nested Simulation on Graphics Processing Units
PHD defences
Tuesday December 3, 2019, 10AM, Salle Paul Lévy, 16-26 209
Yating Liu Optimal quantization : Limit theorems, Clustering and Simulation of the McKean-Vlasov equation
PHD defences
Monday December 2, 2019, 10AM, Salle Paul Lévy, 16-26 209
Jean Jil Duchamps Phylogénies aléatoires structurées
PHD defences
Tuesday November 5, 2019, 10AM, Salle Paul Lévy, 16-26 209
Cyril Benezet Etude de méthodes numériques pour la couverture partielle et problème de switching avec incertitude sur les coûts
PHD defences
Tuesday October 22, 2019, 10AM, Salle Paul Lévy, 16-26 209
Yann Chiffaudel Etude de la diffusion des processus déterministes et faiblement aléatoires en environnement aléatoires
PHD defences
Friday October 4, 2019, 10AM, Salle Paul Lévy, 16-26 209
Yohann Le Faou Contributions à la modélisation des données de durée en présence de censure : application à l'étude des résiliations de contrats d'assurance santé
PHD defences
Monday September 30, 2019, 10AM, Salle Paul Lévy, 16-26 209
Simon Coste Grandes valeurs propres de graphes aléatoires dilués
PHD defences
Friday September 20, 2019, 10AM, Salle Paul Lévy, 16-26 209
Thomas Galtier Accelerated Monte-Carlo methods for Piecewise Deterministic Markov Processes
PHD defences
Friday September 13, 2019, 10AM, Salle Paul Lévy, 16-26 209
François Bienvenu Random graphs in evolution
PHD defences
Thursday September 5, 2019, 10AM, Salle Paul Lévy, 16-26 209
Laure Mareche Modèles avec contraintes cinétiques : convergence vers l'équilibre et résultats d'univrsalité
PHD defences
Friday July 12, 2019, 10AM, Salle Paul Lévy, 16-26 209
Carlo Bellingeri Formules d'Itô pour l'équation de la chaleur stochastique à travers les théories des chemins rugueux et des structures de régularité
PHD defences
Wednesday July 10, 2019, 10AM, Salle Paul Lévy, 16-26 209
Nicolas Gilliers Symétrie de jauge non-commutative et diffusions pseudo-unitaires
PHD defences
Wednesday July 10, 2019, 10AM, Salle Paul Lévy, 16-26 209
Nazih Benoumechiara Traitement de la dépendance en analyse de sensibilité pour la fiabilité industrielle
PHD defences
Friday June 28, 2019, 10AM, Salle Paul Lévy, 16-26 209
Clément Cosco Polymères dirigés et équation KPZ
PHD defences
Friday June 28, 2019, 10AM, Salle Paul Lévy, 16-26 209
Paul Melotti Modèles intégrables de mécanique statistique
PHD defences
Friday June 28, 2019, 10AM, Salle Paul Lévy, 16-26 209
Lucie Bernard Méthodes probabilistes pour l'estimation de probabilités de défaillance
PHD defences
Thursday June 27, 2019, 10AM, Salle Paul Lévy, 16-26 209
Assaf Shapira Percolation bootstrap et modèles aux contraintes cinétiques en environnements homogènes et aléatoires
PHD defences
Thursday June 27, 2019, 10AM, Salle Paul Lévy, 16-26 209
Come Hure Méthodes numériques pour le contrôle stochastique et les EDPs
PHD defences
Thursday June 20, 2019, 10AM, Salle Paul Lévy, 16-26 209
Lucas Benigni Dynamique de vecteurs propres de matrices aléatoires et valeurs propres de modèles non-linéaires de matrices
PHD defences
Thursday June 20, 2019, 10AM, Salle Paul Lévy, 16-26 209
Nicolas Thomas Stochastic numerical methods for Piecewise Deterministic Markov Processes. Applications in Neuroscience
PHD defences
Wednesday June 12, 2019, 10AM, Salle Paul Lévy, 16-26 209
Romain Mismer Convergence of Spike and Slad Bayesian posterior distributions in som high dimensional models
PHD defences
Wednesday June 5, 2019, 10AM, Salle Paul Lévy, 16-26 209
Michel Pain Mouvement brownien branchant et autres modèles hiérarchiques en physique statistique
PHD defences
Thursday April 18, 2019, 10AM, Salle Paul Lévy, 16-26 209
Henri Elad Altman Formules d'intégration par parties pour les lois des ponts de Bessel, et EDP stochastiques associées
PHD defences
Friday March 29, 2019, 10AM, Salle Paul Lévy, 16-26 209
Remi Degenne The Neighbourhood of Stochastic Multi-armed Bandits
PHD defences
Wednesday January 16, 2019, 10AM, Salle Paul Lévy, 16-26 209
Simon Bussy Introduction of high-dimensional interpretable machine learning models and their applications
Year 2018
PHD defences
Monday December 17, 2018, 10AM, Salle Paul Lévy, 16-26 209
Felix Balazard Contribution à la génétique et l'épidémiologie des maladies complexes pour une médecine personnalisée
PHD defences
Tuesday December 11, 2018, 10AM, Salle Paul Lévy, 16-26 209
Dimbihery Rabenoro Distribution asymptotique de vecteurs aléatoires indépendants conditionnés par leur somme
PHD defences
Tuesday November 27, 2018, 10AM, Salle Paul Lévy, 16-26 209
Xiaoli Wei Problème de contrôle de type McKean-Vlasov et apllications
PHD defences
Monday November 26, 2018, 10AM, Salle Paul Lévy, 16-26 209
Guillermo Durand Test multiples et bornes post hoc pour des données hétérogènes
PHD defences
Friday November 16, 2018, 10AM, Salle Paul Lévy, 16-26 209
Bastien Alonzo Seasonal Forecasting of Wind Energy Ressource and Production in France, and Associated Risk
PHD defences
Wednesday October 10, 2018, 10AM, Salle Paul Lévy, 16-26 209
Sophie Marque-Pucheu Gaussian process regression of two nested computer codes
PHD defences
Friday October 5, 2018, 10AM, Salle Paul Lévy, 16-26 209
Joseph Mure Bayesian analysis of Kriging models with anisotropic correlation kernel
PHD defences
Thursday September 27, 2018, 10AM, Salle Paul Lévy, 16-26 209
David Krief Méthodes Asymtotiques pour la Valorisation d'Options en Finance
PHD defences
Wednesday September 26, 2018, 10AM, Salle Paul Lévy, 16-26 209
Nikolas Tapia Directed Polymers and Rough Paths
PHD defences
Tuesday September 25, 2018, 10AM, Salle Paul Lévy, 16-26 209
Omar El Euch Quantitative Finance Under Rough Volatility
PHD defences
Friday September 21, 2018, 10AM, Salle Paul Lévy, 16-26 209
Adrien Genin Appoches Asymptotiques en Gestion des Risques Financiers
PHD defences
Friday September 7, 2018, 10AM, Salle Paul Lévy, 16-26 209
Veronica Miro Pina Equilibrium patterns of genetic diversity shuffled by migration and recombination
PHD defences
Tuesday July 3, 2018, 10AM, Salle Paul Lévy, 16-26 209
Mina Abdel-Sayed Représentation pour la détection d'anomalie, Application aux données vibratoires des moteurs d'avions
PHD defences
Tuesday March 27, 2018, 10AM, Salle Paul Lévy, 16-26 209
Franck Maunoury Conditions d'existence des processus déterminantaux et permanentaux
PHD defences
Thursday February 15, 2018, 10AM, Salle Paul Lévy, 16-26 209
Gilles Monneret Inférence de réseaux causaux à partir de données interventionnelles
PHD defences
Wednesday February 7, 2018, 10AM, Salle Paul Lévy, 16-26 209
Wangru Sun Modèle de forêts enracinées sur des cycles et modèle de perles via les dimères
PHD defences
Thursday January 18, 2018, 10AM, Salle Paul Lévy, 16-26 209
Olga Lopusanschi Chemins rugueux issus de processus discrets
Year 2017
PHD defences
Thursday December 21, 2017, 10AM, Salle Paul Lévy, 16-26 209
Guillaume Sall Quelques algorithmes rapides pour la finance quantitative
PHD defences
Friday December 15, 2017, 10AM, Salle Paul Lévy, 16-26 209
Ismail Amine Modélisation robuste de la volatilité : application à la valorisation de produits dérivés et à l’optimisation de portefeuille
PHD defences
Wednesday December 13, 2017, 10AM, Salle Paul Lévy, 16-26 209
Sarah Kaakai Nouveaux paradigmes en dynamique de populations hétérogènes : modélisation trajectorielle, agrégation, et données empiriques
PHD defences
Friday December 8, 2017, 10AM, Salle Paul Lévy, 16-26 209
Sandro Franceschi Approche analytique pour le mouvement brownien réfléchi dans des cônes
PHD defences
Wednesday December 6, 2017, 10AM, Salle Paul Lévy, 16-26 209
Saad Mouti Le management du risque pour les compagnies d'assurance : une approche marchés financiers
PHD defences
Wednesday December 6, 2017, 10AM, Salle Paul Lévy, 16-26 209
Yi Lu Calcul fonctionnel non-anticipatif et applications aux processus stochastiques
PHD defences
Wednesday November 29, 2017, 10AM, Salle Paul Lévy, 16-26 209
Pierre-Antoine Corre Processus de branchements et le graphe d'Erdös-Rényi
PHD defences
Tuesday July 11, 2017, 10AM, Salle Paul Lévy, 16-26 209
Clément Menasse Valorisation et stratégies optimales dans les marchés incomplets de l'énergie
PHD defences
Thursday June 29, 2017, 10AM, Salle Paul Lévy, 16-26 209
Liping Xu Contribution à l'étude de l'équation de Boltzmann homogène
PHD defences
Thursday June 8, 2017, 10AM, Salle Paul Lévy, 16-26 209
Florian Metzger Exposants de Lyapunov d'opérateurs de Schrödinger ergodiques
PHD defences
Friday June 2, 2017, 10AM, Salle Paul Lévy, 16-26 209
Daphné Giorgi Théorèmes limites pour estimateurs Multilevel avec et sans poids. Comparaisons et applications
PHD defences
Monday April 3, 2017, 10AM, Salle Paul Lévy, 16-26 209
Eric Adjakossa Analyse longitudinale mulivariée par modèles mixtes et application à l'épidémie de la malaria
PHD defences
Monday February 20, 2017, 10AM, Salle Paul Lévy, 16-26 209
Loïc De Raphelis Etude de marches aléatoires sur un arbre de Galton-Watson