Gestion des Données Manquantes - Principes, Méthodes et Imputations Mise en application avec R

Référence : 2020-STAT-N2-DMIMR

La formation en quelques mots

Toute personne ayant pour but l’analyse de données est un jour ou l’autre confrontée aux problèmes de données manquantes. Que leur origine soit matérielle, informatique ou humaine, il est parfois très hasardeux de connaitre l’origine exacte de l’absence. En outre, en termes d’analyse statistique, on assiste rapidement à une perte rapide de puissance et donc de capacité à produire des résultats robustes et interprétables. Néanmoins des solutions sont disponibles pour limiter les effets des données manquantes.
Il s’agira donc au cours de cette formation de :

  • Reconnaitre la structure des données manquantes
  • Connaitre la typologie des données manquantes
  • Evaluer les effets de l’absence des données.
  • Choisir la bonne méthode d’imputation
  • Réaliser les imputations

En un mot, il s’agira de limiter au minimum l’effet de l’absence de données tout en permettant la réalisation d’analyses statistiques optimales.

Jeux de données

Afin de s'approcher au mieux des réalités quotidiennes des praticiens, nous suggérons de nous appuyer pour l'animation pratique de thématiques et surtout de jeux de données reflétant le quotidien des apprenants.
Cet élément est un facteur de réussite pour la formation. Elle permet aux apprenants de :

  • Se "reconnaitre" dans les thèmes abordés, 
  • Mieux percevoir l'intérêt des notions étudiées 
  • S'approprier le contenu de la formation

Il sera donc pertinent que les apprenants puissent réfléchir en amont de la formation à des problématiques, jeux de données ou documents susceptibles d’être utilisés en support lors de la formation.

Outil logiciel

Nous proposons une mise en oeuvre autour du langage R et de l'environnement R Studio. Peu d'autres logiciels statistiques permettent une gestion aussi approfondie.

Infos pratiques

  • Durée : 3 jours soit 21 heures
  • Population visée : Ingénieur.e.s – Technicien.n.e.s – Cadres – Chercheurs.e.s – Doctorant.e.s
  • Public concerné : Toute personne souhaitant exploiter des données incomplètes et difficiles à gérer.

Programme

Objectifs pédagogiques

A l’issue de cette formation, l’apprenant sera capable de :

  • Reconnaitre la structure des données manquantes
  • Connaitre la typologie des données manquantes
  • Evaluer les effets de l’absence des données.
  • Choisir la bonne méthode d’imputation
  • Réaliser les imputations
  • Réaliser des analyses sur données imputées
  • Comparer les résultats des imputations

Pré-requis

La connaissance de la manipulation de R est nécessaire. En termes de connaissances statistiques, les notions fondamentales (statistiques descriptives, intervalles de confiance, tests d’hypothèses, …) sont nécessaires.

Objectifs opérationnels et contenu de la formation

Revoir les fondamentaux sur le logiciel R

  • Lire efficacement l'aide en ligne des commandes
  • Rechercher les commandes
  • Affichage, sauvegarde, suppression et chargement des objets en mémoire
  • Trucs et astuces

Les conséquences des données manquantes 

  • Sources d’erreurs et d’absence
  • Conséquences techniques (données biologiques, épidémiologiques, de questionnaire)
  • Conséquences statistiques

Structure et typologies des données manquantes

  • Structures différentes
    • Cas univarié
    • Cas monotones
    • Cas multivariés
  • Typologie des données manquantes
    • Missing Completely At Random, manquantes totalement au hasard (MCAR)
    • Missing at Random, manquantes au hasard (MAR)
    • Not Missing At Random, non manquantes au hasard (NMAR)

Analyses envisageables en cas de données manquantes

  • Hypothèses à appliquer aux données
    • Analyses adaptées selon la typologie
    • Evaluation des effets
  • Analyses envisageables
    • Analyse de cas complet
    • Analyse avec indicatrices de manquantes
    • Pondération des données 
    • Imputation

Imputation simple et multiples, réalisation avec R

  • Principe de l’imputation
  • Imputations simples
    • Imputation à la moyenne
    • Last observation carried forward, répétition du dernier résultat disponible
    • Régression simple
    • Hot Deck/Cold Deck, individus semblables internes ou externes aux données de départ
  • Imputations multiples
    • Avantages
    • Inconvénients
    • Evaluation des effets

Mise en œuvre sous R

  • La librairie MICE
  • La librairie MI
  • La librairie VISDAT

Méthodes et moyens

  • Explications théoriques suivies de pratiques guidées puis mises en autonomie
  • 1 vidéoprojecteur par salle
  • 1 ordinateur par stagiaire

Méthodes d’évaluation des acquis

  • Exercices de synthèse et d’évaluation
  • Evaluation de fin de stage

Profil formateur

Nos formateurs sont certifiés à l’issue d’un parcours organisé par nos soins. Ils bénéficient d’un suivi de compétences aussi bien au niveau technique que pédagogique.

Support stagiaire

  • Support papier ou électronique (dématérialisé)
  • Les exercices d’accompagnement peuvent être récupérés sur clef USB