Équipe thématique Statistique, données, algorithmes
Séminaire de Statistique
Jour, heure et lieu
Le Mardi à 10:45, Sophie Germain en salle 1016 / Jussieu en salle 15-16 201
Contact(s)
Prochaines séances
Séminaire de statistique
Mardi 12 novembre 2024, 9 heures 30, Jussieu en salle 15-16.201
Patrick Tardivel (Université de Bourguogne) Le chemin des solutions de l’estimateur SLOPE (« Sorted L One Penalized Estimation »)
Séminaire de statistique
Mardi 17 décembre 2024, 10 heures 45, Sophie Germain en salle 1016
Vincent Brault (LJK) Segmentation du “Parsimonious Oscillatory Model of Handwriting” et application à la détection d'enfants dysgraphiques
Pour contourner ce problème, l'une des pistes explorée dans le cadre du post-doc de Yunjiao Lu est de s'appuyer sur le Parsimonious Oscillatory Model of Handwriting (ou modèle POMH ; voir André et al. (2014)) qui part du principe que l'écriture est le résultat de deux oscillateurs orthogonaux composés de fonctions constantes par morceaux. En trouvant les instants où les fonctions changent de valeurs, les auteurs reconstruisent les traces faites par les enfants. Dans son post-doc, Yunjiao Lu montre que l'estimation du nombre et des emplacements des ruptures dans ces fonctions influent sur la reconstruction et semblent varier suivant la qualité de l'écriture (voir Lu et al. (2022)) ; elle essaie notamment d'estimer l'influence des paramètres de filtrage sur l'aide à la prédiction d'un diagnostic de dysgraphie.
Dans cet exposé, nous étudierons une autre piste pour estimer les emplacements de ruptures. Après avoir exposé la problématique, nous montrerons que le modèle POMH peut être vu comme un modèle de segmentation où la programmation dynamique permet d'estimer les emplacements de ruptures. Nous démontrerons également que la forme particulière du modèle permet au maximum de vraisemblance d'être un estimateur consistant de l'emplacement mais surtout du nombre de ruptures. Nous terminerons par une étude de cette modélisation sur la détection de la dysgraphie.
Pour ajouter le calendrier des séances à votre agenda favori, souscrire au calendrier en indiquant ce lien.
Séances passées
Année 2024
Séminaire de statistique
Mardi 15 octobre 2024, 9 heures 30, Sophie Germain en salle 1016
Waiss Azizian (LJK) What is the long-run distribution of stochastic gradient descent? A large deviations analysis
This is a joint work with Franck Iutzeler, Jérôme Malick, Panayotis Mertikopoulos
Séminaire de statistique
Mardi 1 octobre 2024, 9 heures 30, Jussieu en salle 15-16.201
Marc Hoffmann (CEREMADE) Sur l'estimation d'une diffusion multidimensionnelle
Dans cet exposé, issu de travaux en commun avec Chiara Amorino, Claudia Strauch et aussi Kolyan Ray, nous montrons que si l'on se contente d'un programme théorique non-paramétrique classique (perte L^2, minimax adaptatif à la Lepski, mais pas tellement plus), alors il est possible d'obtenir des résultats relativement généraux qui améliorent en dimension arbitraire ce que l'on connaît, et ceci dans plusieurs directions : pour (i) des observations en temps grand avec pas de discrétisation arbitrairement lent (ii) une réflexion du processus aux bords d'un domaine, mais pas forcément (iii) des situations où la diffusion peut dégénérer, ce qui permet d'inclure des modèles de type position-vitesse ; (iv) dans certains cas (conductivité, schémas rapides) des vitesses de contraction bayésiennes.
L'approche est toujours un peu la même : pour les bornes supérieures, construire une équivalence de modèle par un schéma de régression martingale, découpler les propriétés de concentration du bruit martingale de la “vitesse de remplissage” de l'espace par le “design” (souvent mal connue, ou tout au moins difficile à estimer) ; pour les bornes inférieures, des méthodes perturbatives utilisant un peu de calcul de Malliavin et pour les résultats bayésiens, plus fins, des développements en temps petit du noyau de la chaleur pour une “bonne” géométrie.
Séminaire de statistique
Mardi 18 juin 2024, 9 heures 30, Jussieu en salle 15-16.201
Olga Klopp (ESSEC) Denoising over network with application to partially observed epidemics
Séminaire de statistique
Mardi 4 juin 2024, 9 heures 30, Jussieu en salle 15-16.201
Rémi Boutin (LPSM) The Deep Latent Position Topic Model for network with text data analysis
Séminaire de statistique
Mardi 14 mai 2024, 9 heures 30, Jussieu en salle 15-16.201
Rafaël Pinot (LPSM Sorbonne Université) A Small Tutorial on Byzantine-Robustness
Séminaire de statistique
Mardi 30 avril 2024, 9 heures 30, Jussieu en salle 15-16.201
Spencer Frei (UC Davis) Learning linear models in-context with transformers
Bio: Spencer Frei is an Assistant Professor of Statistics at UC Davis. His research is on the foundations of deep learning, including topics related to large language models, benign overfitting, and implicit regularization. Prior to joining UC Davis he was a postdoctoral fellow at UC Berkeley hosted by Peter Bartlett and Bin Yu and received his Ph.D in Statistics at UCLA. He was a co-organizer of a tutorial at NeurIPS 2023 on benign overfitting and of the 2022 Deep Learning Theory Workshop and Summer School at the Simons Institute for the Theory of Computing.
Séminaire de statistique
Mardi 16 avril 2024, 9 heures 30, Jussieu en salle 15-16.201
Borjan Geshkovski (Inria) Une perspective mathématique sur les Transformers
Séminaire de statistique
Mardi 2 avril 2024, 9 heures 30, Jussieu en salle 15-16.201
Anne-Claire Haury (Google/LPSM Sorbonne Université) The Vehicle Routing Problem
Je vous ferai une introduction informelle des problèmes d'optimisation de tournées de véhicules (vehicle routing problems - VRP), leur modélisation et les manières de les résoudre, ainsi que des pistes de recherche pour répondre à de nouveaux défis apparaissant. Initialement le VRP est un problème de recherche opérationnelle mais en pratique il est très souvent stochastique, je tenterai de présenter quelques sujets sous un angle statistique.
Une définition sans doute pas du tout réglementaire du VRP : il s'agit de l'ensemble des problèmes qui comportent des véhicules (sur roues, sur pieds, à ski… peu importe du moment que ça se déplace) et des tâches à effectuer à des endroits prédéfinis (livraisons, enlèvements, interventions…). Ces problèmes peuvent être accompagnés d'un grand nombre de contraintes - de temps, de capacités, de précédences, de sécurité ou encore de contraintes légales, rendant le problème parfois plus simple, souvent plus dur mais en tout cas plus intéressant à résoudre.
On peut donc modéliser un grand nombre de problèmes de cette façon, dont les plus courants sont la livraison de colis à domicile, la livraison immédiate (livraison de repas par exemple), les enlèvements (poubelles, encombrants), les déplacements de matériels ou de biens entre entreprises, le partage de transports, la gestion des services de terrain (interventions techniques chez des particuliers)…
Certains de ces problèmes, dans leurs versions les plus simples et plus petites peuvent être résolus de manière exacte mais les applications réelles n'entrent pas dans cette catégorie et sont souvent résolues avec des heuristiques dont je vous parlerai. C'est également un problème qui pose perpétuellement de nouvelles questions, je vous en dirai plus sur les sujets non encore résolus.
A propos de moi: Nouvellement recrutée PAST au LPSM, je suis statisticienne de formation (thèse en 2012 avec JP Vert sur la sélection de variables) mais j'ai bifurqué et je travaille depuis 10 ans chez Google à Paris, dont 7 ans dans l'équipe de recherche opérationnelle (RO) en tant qu'ingénieure logiciel. Je vous raconterai comment je suis arrivée ici (et là-bas) et comment on résout des problèmes d'optimisation sous contraintes dans notre équipe de RO (souvent connue de celles et ceux qui utilisent notre librairie open-source OR-tools).
Séminaire de statistique
Mardi 12 mars 2024, 9 heures 30, Sophie Germain en salle 1013 / Jussieu en salle 15-16.201
Guillem Rigaill (INRAE) Online multivariate changepoint detection: leveraging links with computational geometry
The increasing volume of data streams poses significant computational challenges for detecting changepoints online. Likelihood-based methods are effective, but their straightforward implementation becomes impractical online. We develop two online algorithms that exactly calculate the likelihood ratio test for a single changepoint in p-dimensional data streams modeled with a distribution from the natural exponential family. These algorithms leverage connections with computational geometry. Our first algorithm is straightforward and empirically quasi-linear. The second is more complex but provably quasi-linear: $O(n(log(n))^{p+1})$ for n data points in dimension p. Through simulations, we illustrate, that they are fast and allow us to process millions of points within a matter of minutes up to p = 5.
In this presentation, I will first highlight how we establish the connection between changepoint models and geometry using a functionalization and relaxation argument. Then, I will explain how we derive our algorithms and theoretically bound their expected complexity.
This is joint work with Liudmila Pishchagina, Gaetano Romano, Paul Fearnhead and Vincent Runge https://arxiv.org/abs/2311.01174
Séminaire de statistique
Mardi 27 février 2024, 9 heures 30, Sophie Germain en salle 1013 / Jussieu en salle 15-16.201
Eugène Ndiaye (Apple) From Conformal Predictions to Confidence Regions
Séminaire de statistique
Mardi 30 janvier 2024, 9 heures 30, Jussieu en salle 15-16.201
Ester Mariucci (Université Versailles Saint Quentin) Nonparametric density estimation for the small jumps of Lévy processes
This is a joint work with Céline Duval and Taher Jalal.
Séminaire de statistique
Mardi 23 janvier 2024, 9 heures 30, Jussieu en salle 15-16.201
Chiara Amorino (University of Luxembourg) Locally differentially private drift parameter estimation for iid paths of diffusion processes
Séminaire de statistique
Mardi 16 janvier 2024, 9 heures 30, Jussieu en salle 15-16.201
Sayantan Banerjee (Indian Institute of Management Indore) Precision Matrix Estimation under the Horseshoe-like Prior–Penalty Dual
Computationally efficient EM and MCMC algorithms are developed respectively for the penalized likelihood and fully Bayesian estimation problems. In numerical experiments, the horseshoe-based approaches echo their superior theoretical properties by comprehensively outperforming the competing methods. A protein–protein interaction network estimation in B-cell lymphoma is considered to validate the proposed methodology.
Année 2023
Séminaire de statistique
Vendredi 8 décembre 2023, 9 heures 30, Jussieu en salle 16-26-209
Pierre Alquier (ESSEC) Robust estimation and regression with MMD
In the second part of this talk, I will discuss the extension of this method to the estimation of conditional distributions, which allows to use MMD-estimators in various regression models. On the contrary to mean embeddings, very technical conditions are required for the existence of a conditional mean embedding that allows defining an estimator. In most papers, these conditions are often assumed, but rarely checked. It turns out that, in most generalized linear regression models, we proved that these conditions can be met, at the cost of more restrictions on the kernel choice.
This is based on joint works with: Badr-Eddine Chérief-Abdellatif (CNRS, Paris), Mathieu Gerber (University of Bristol), Daniele Durante (Bocconi University), Sirio Legramanti (University of Bergamo), Jean-David Fermanian (ENSAE Paris), Alexis Derumigny (TU Delft), Geoffrey Wolfer (RIKEN-AIP, Tokyo).
Séminaire de statistique
Mardi 21 novembre 2023, 9 heures 30, Jussieu en salle 15-16.201
Deborah Sulem (Barcelona School of Economics / Universitat Pompeu Fabra) Bayesian inference for multivariate event data with dependence
Séminaire de statistique
Mardi 7 novembre 2023, 9 heures 30, Jussieu en salle 15-16.201
Alberto Suarez (Universidad Autónoma de Madrid) The arrow of time: at the intersection of thermodynamics, machine learning, and causality
Séminaire de statistique
Mardi 10 octobre 2023, 9 heures 30, Jussieu en salle 15-16.201
Paul Escande On the Concentration of the Minimizers of Empirical Risks
Instead of deriving guarantees on the usual estimation error, we will explore concentration inequalities on the distance between the sets of minimizers of the risks. We will argue that for a broad spectrum of estimation problems, there exists a regime where optimal concentration rates can be proven. The bounds will be showcased on a selection of estimation problems such as barycenters on metric space with positive or negative curvature, subspaces of covariance matrices, regression problems and entropic-Wasserstein barycenters.
Séminaire de statistique
Jeudi 28 septembre 2023, 9 heures 30, Jussieu en salle 15-25.102
Ruth Heller (Tel-Aviv University) Simultaneous Directional Inference
The relevant paper is arXiv:2301.01653 Joint work with Aldo Solari
Séminaire de statistique
Mardi 30 mai 2023, 9 heures 30, Jussieu en salle 15-16.201
Michael Arbel (INRIA) Non-Convex Bilevel Games with Critical Point Selection Maps
Séminaire de statistique
Jeudi 25 mai 2023, 9 heures 30, Jussieu en salle 15-16.201
Jeffrey Näf (INRIA Montpellier) Distributional Random Forest: Heterogeneity Adjustment and Multivariate Distributional Regression
Séminaire de statistique
Mardi 23 mai 2023, 9 heures 30, Jussieu en salle 15-16.201
Evguenii Chzhen (Orsay) Demographic parity constraint for algorithmic fairness : a statistical perspective
This talk is based on a sequence of joint works with Ch. Denis, S. Gaucher, M. Hebiri, L. Oneto, M. Pontil, and N. Schreuder.
Séminaire de statistique
Mardi 9 mai 2023, 9 heures 30, Jussieu en salle 15-16.201
Charlotte Dion-Blanc (Sorbonne Université) Classification multi-classes, pour des trajectoires issues de processus de diffusions
Séminaire de statistique
Mardi 11 avril 2023, 9 heures 30, Sophie Germain en salle 1013
Tabea Rebafka (Sorbonne Université) Model-based graph clustering with an application to ecological networks
Séminaire de statistique
Mardi 28 mars 2023, 9 heures 30, Jussieu en salle 15-16.201
David Rossell (Universitat Pompeu Fabra) Statistical inference with external information: high-dimensional data integration
Séminaire de statistique
Mardi 21 mars 2023, 9 heures 30, Sophie Germain en salle 1013
Cécile Durot (Université Paris Nanterre) Non encore annoncé.
Séminaire de statistique
Jeudi 9 mars 2023, 9 heures 30, Jussieu en salle 16-26.209
Pierre Wolinski (INRIA) Gaussian Pre-Activations in Neural Networks: Myth or Reality?
Séminaire de statistique
Jeudi 9 février 2023, 9 heures 30, Sophie Germain en salle 1016
Vincent Divol (CEREMADE) Estimation d'applications de transport optimal dans des espaces fonctionnels généraux
Séminaire de statistique
Mardi 24 janvier 2023, 9 heures 30, Jussieu en salle 15-16.201
Laure Sansonnet (INRAE MIA Paris-Saclay) Sélection de variables dans des modèles linéaires (généralisés) multivariés avec dépendance
La première partie est en collaboration avec Julien Chiquet, Céline Lévy-Leduc et Marie Perrot-Dockès et la deuxième partie est en collaboration avec Marina Gomtsyan, Céline Lévy-Leduc et Sarah Ouadah.
Année 2022
Séminaire de statistique
Mardi 6 décembre 2022, 9 heures 30, Jussieu en salle 15-16.201
Vianney Perchet (ENSAE) An algorithmic solution to the Blotto game using multi-marginal couplings
Séminaire de statistique
Mardi 22 novembre 2022, 9 heures 30, Sophie Germain en salle 1013 / Jussieu en salle 15-16.201
Morgane Austern (Harvard University) To split or not to split that is the question: From cross validation to debiased machine learning.
Séminaire de statistique
Mardi 8 novembre 2022, 9 heures 30, Jussieu en salle 15-16.201
Arshak Minasyan (CREST-ENSAE) All-In-One Robust Estimator of sub-Gaussian Mean
Séminaire de statistique
Jeudi 20 octobre 2022, 11 heures, Jussieu en salle 15-16.201
Misha Belkin (University of California) Neural networks, wide and deep, singular kernels and Bayes optimality
Séminaire de statistique
Mardi 11 octobre 2022, 9 heures 30, Jussieu en salle 15-16.201 et retransmission
Yifan Cui (Zhejiang University) Instrumental Variable Approaches To Individualized Treatment Regimes Under A Counterfactual World
Séminaire de statistique
Mardi 27 septembre 2022, 9 heures 30, Jussieu en salle 15-16.201
Emilie Kaufmann (CNRS) Exploration non paramétrique dans les modèles de bandits
Séminaire de statistique
Mardi 31 mai 2022, 9 heures 30, Sophie Germain en salle 1013 / Jussieu en salle 15-16.201
Elsa Cazelles (IRIT) A novel notion of barycenter for probability distributions based on optimal weak mass transport
Séminaire de statistique
Mardi 10 mai 2022, 9 heures 30, Sophie Germain en salle 1013 / Jussieu en salle 15-16.201
Guillaume Lecué (CREST) A geometrical viewpoint on the benign overfitting property of the minimum $\ell_2$-norm interpolant estimator.
[1] Mikhail Belkin, Daniel Hsu, Siyuan Ma, and Soumik Mandal. Reconciling modern machine-learning practice and the classical bias-variance trade-off. Proc. Natl. Acad. Sci. USA, 116(32):15849–15854, 2019.
[2] Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, and Oriol Vinyals. Understanding deep learning (still) requires rethinking generalization. Commun. ACM, 64(3):107–115, 2021.
[3] Peter L. Bartlett, Philip M. Long, Gabor Lugosi, and Alexander Tsigler. Benign overfitting in linear regression. Proc. Natl. Acad. Sci. USA, 117(48):30063–30070, 2020.
[4] Peter L. Bartlett, Andreas Montanari, and Alexander Rakhlin. Deep learning: a statistical viewpoint. To appear in Acta Numerica, 2021.
[5] Mikhail Belkin. Fit without fear: remarkable mathematical phenomena of deep learning through the prism of interpolation. To appear in Acta Numerica, 2021.
[6] Alexander Tsigler and Peter L. Bartlett. Benign overfitting in ridge regression. 2021.
Séminaire de statistique
Mardi 19 avril 2022, 9 heures 30, Sophie Germain en salle 1013 / Jussieu en salle 15-16.201
Clément Marteau (Université Lyon 1) Supermix : régularisation parcimonieuse pour des modèles de mélange
Séminaire de statistique
Mardi 5 avril 2022, 9 heures 30, Sophie Germain en salle 1013 / Jussieu en salle 15-16.201
Fabrice Grela (Université de Nantes) Minimax detection and localisation of an abrupt change in a Poisson process
Séminaire de statistique
Mardi 22 mars 2022, 9 heures 30, Sophie Germain en salle 1013 / Jussieu en salle 15-16.201
Aymeric Dieuleveut (Polytechnique) Federated Learning and optimization: from a gentle introduction to recent results
Refs:Mainly: Differentially Private Federated Learning on Heterogeneous Data, M Noble, A Bellet, A Dieuleveut, Aistats 2022, Link Preserved central model for faster bidirectional compression in distributed settings C Philippenko, A Dieuleveut, Neurips 2021 LinkIf time allows it (unlikely): Federated Expectation Maximization with heterogeneity mitigation and variance reduction, A Dieuleveut, G Fort, E Moulines, G Robin, Neurips 2021 Link
Séminaire de statistique
Mardi 8 mars 2022, 9 heures 30, Sophie Germain en salle 1013 / Jussieu en salle 15-16.201
Lihua Lei (Stanford University) Testing for outliers with conformal p-values
Séminaire de statistique
Mardi 8 février 2022, 9 heures 30, Sophie Germain en salle 1013 / Jussieu en salle 15-16.201
Élisabeth Gassiat Deconvolution with unknown noise distribution
Séminaire de statistique
Mardi 25 janvier 2022, 9 heures 30, Sophie Germain en salle 1013 / Jussieu en salle 15-16.201
Nicolas Verzelen (Université de Montpellier) Optimal ranking in crowd-sourcing problem
This talk is based on a joint ongoing work with Alexandra Carpentier and Emmanuel Pilliat.
Année 2021
Séminaire de statistique
Mardi 14 décembre 2021, 9 heures 30, Sophie Germain en salle 1013 / Jussieu en salle 15-16.201
Julie Delon (Université de Paris) Some perspectives on stochastic models for Bayesian image restoration
Séminaire de statistique
Mardi 30 novembre 2021, 9 heures 30, Sophie Germain en salle 1013 / Jussieu en salle 15-16.201
Frédéric Chazal (INRIA) A framework to differentiate persistent homology with applications in Machine Learning and Statistics
However, the approaches proposed in the literature are usually
anchored to a specific application and/or topological construction, and do not come with theoretical guarantees.
In this talk, we will study the differentiability of a general map associated with the most common topological construction, that is, the persistence map. Building on real analytic geometry arguments, we propose a general framework that allows to define and compute gradients for persistence-based functions in a very simple way. As an application, we also provide a simple, explicit and sufficient condition for convergence of stochastic subgradient methods for such functions. If time permits, as another application, we will also show how this framework combined with standard geometric measure theory arguments leads to results on the statistical behavior of persistence diagrams of filtrations built on top of random point clouds.
Séminaire de statistique
Mardi 23 novembre 2021, 9 heures 30, Sophie Germain en salle 1013 / Jussieu en salle 15-16.201
Yannick Baraud (Université de Luxembourg) Comment construire des lois a posteriori robustes à partir de tests ?
Séminaire de statistique
Mardi 9 novembre 2021, 9 heures 30, Sophie Germain en salle 1013 / Jussieu en salle 15-16.201
Alessandro Rudi (INRIA) PSD models for Non-convex optimization and beyond
Séminaire de statistique
Mardi 19 octobre 2021, 9 heures 30, Sophie Germain en salle 1013
Antoine Marchina (Université de Paris) Concentration inequalities for suprema of unbounded empirical processes
Séminaire de statistique
Mardi 5 octobre 2021, 9 heures 30, Jussieu en salle 15-16.201
Judith Rousseau (Oxford) Semiparametric and nonparametric Bayesian inference in hidden Markov models
Joint work with D. Moss (Oxford).