~~NOCACHE~~ /* DO NOT EDIT THIS FILE */ /* THIS FILE WAS GENERATED */ /* EDIT THE FILE "indexheader" INSTEAD */ /* OR ACCESS THE DATABASE */ {{page>.:indexheader}} \\ ==== Prochaines séances ==== [[seminaires:StatP6P7:index|Séminaire de statistique]]\\ Mardi 1 octobre 2024, 9 heures 30, Jussieu en salle 15-16.201\\ **Marc Hoffmann** (CEREMADE) //Sur l'estimation d'une diffusion multidimensionnelle// \\ Alors que l'estimation des coefficients d'une diffusion scalaire semblait bien comprise (minimax, adaptatif, bayésien non-paramétrique) au début des années 2000, alors que la statistique des semi-martingales s'est résolument tournée vers la finance statistique, ces dernières années voient réapparaître le problème de l'estimation du champ de vecteur de dérive et de la matrice de diffusion pour un processus de diffusion multivarié, notamment sous l'influence de questions de ML et de problèmes inverses bayésiens. Dans cet exposé, issu de travaux en commun avec Chiara Amorino, Claudia Strauch et aussi Kolyan Ray, nous montrons que si l'on se contente d'un programme théorique non-paramétrique classique (perte L^2, minimax adaptatif à la Lepski, mais pas tellement plus), alors il est possible d'obtenir des résultats relativement généraux qui améliorent en dimension arbitraire ce que l'on connaît, et ceci dans plusieurs directions : pour (i) des observations en temps grand avec pas de discrétisation arbitrairement lent (ii) une réflexion du processus aux bords d'un domaine, mais pas forcément (iii) des situations où la diffusion peut dégénérer, ce qui permet d'inclure des modèles de type position-vitesse ; (iv) dans certains cas (conductivité, schémas rapides) des vitesses de contraction bayésiennes. L'approche est toujours un peu la même : pour les bornes supérieures, construire une équivalence de modèle par un schéma de régression martingale, découpler les propriétés de concentration du bruit martingale de la "vitesse de remplissage" de l'espace par le "design" (souvent mal connue, ou tout au moins difficile à estimer) ; pour les bornes inférieures, des méthodes perturbatives utilisant un peu de calcul de Malliavin et pour les résultats bayésiens, plus fins, des développements en temps petit du noyau de la chaleur pour une "bonne" géométrie. [[seminaires:StatP6P7:index|Séminaire de statistique]]\\ Mardi 15 octobre 2024, 9 heures 30, Sophie Germain en salle 1016\\ **Waiss Azizian** (LJK) //What is the long-run distribution of stochastic gradient descent? A large deviations analysis// \\ In this work, we examine the long-run distribution of stochastic gradient descent (SGD) in general, non-convex problems. Specifically, we seek to understand which regions of the problem's state space are more likely to be visited by SGD, and by how much. Using an approach based on the theory of large deviations and randomly perturbed dynamical systems, we show that the long-run distribution of SGD resembles the Boltzmann-Gibbs distribution of equilibrium thermodynamics with temperature equal to the method's step-size and energy levels determined by the problem's objective and the statistics of the noise. In particular, we show that, in the long run, (a) the problem's critical region is visited exponentially more often than any non-critical region; (b) the iterates of SGD are exponentially concentrated around the problem's minimum energy state (which does not always coincide with the global minimum of the objective); (c) all other connected components of critical points are visited with frequency that is exponentially proportional to their energy level; and, finally (d) any component of local maximizers or saddle points is "dominated" by a component of local minimizers which is visited exponentially more often. This is a joint work with Franck Iutzeler, Jérôme Malick, Panayotis Mertikopoulos {{page>.:info}} \\ ==== Séances passées ==== \\ === Année 2024 === {{page>.:statp6p72024}} \\ === Année 2023 === {{page>.:statp6p72023}} \\ === Année 2022 === {{page>.:statp6p72022}} \\ === Année 2021 === {{page>.:statp6p72021}}