Gérer l'absence : thérapie par la nature et les forêts aléatoires

schedule le mardi 28 mai 2019 de 12h00 à 13h00

Organisé par : Castillo, Fischer, Giulini, Gribkova, Levrard, Roquain, Sangnier

Intervenant : Erwan Scornet (CMAP)
Lieu : Paris-Diderot, salle 2015

Sujet : Gérer l'absence : thérapie par la nature et les forêts aléatoires

Résumé :

La grande majorité des jeux de données réelles contient des valeurs manquantes. Elles peuvent provenir de champs non renseignés dans des questionnaires, de capteurs incapables de mesurer certaines valeurs extrêmes, ou encore résulter directement de l'agrégation de différentes sources. Une stratégie couramment utilisée en pratique consiste à imputer les valeurs manquantes par la moyenne de la variable considérée afin d'obtenir un jeu de données complet pour lequel la plupart des algorithmes de machine learning peut être employée. Outre le fait de distordre la distribution originelle des données, cette technique a la désagréable particularité de ne pouvoir différencier les données initiales des données imputées.

Dans cette présentation, nous reviendrons en détail sur certaines techniques permettant de traiter les jeux de données contenant des informations manquantes. Nous montrerons en particulier que dans un but de prédiction, l'imputation par la moyenne se révèle être une option tout à fait satisfaisante. Nous discuterons d'un formalisme permettant d'aborder les jeux de données manquantes et nous soulignerons l'intérêt des arbres de décision et des forêts aléatoires pour traiter ce type de données.