Analyses multivariées, classification (ACP, AFC, ACM, CAH, k-means, AFD)

Référence : STAT-N2-Amv

La formation en quelques mots

Cette formation s'adresse à des personnes souhaitant maîtriser les concepts et la mise en œuvre des analyses factorielles multivariées. Ces analyses ont pour objectif d’extraire des informations de données 

  • Volumineuses en nombre de variables,
  • Volumineuses en nombre d'individus,
  • Non structurées,
  • Comportant des variables redondantes (confusions entre variables), 

La formation conviendra tout à fait à un public venant chercher du savoir statistique sur :

  • Les concepts des différentes méthodes descriptives d'analyses factorielles multivariées et de classification
  • Les contextes d’application de chaque méthode
  • Les fondements mathématiques (méthodologiques) de ces analyses
  • La mise en œuvre et l’interprétation des résultats des différentes méthodes

Thèmes principaux

  • Analyse en composantes principales (ACP)
  • Analyse factorielle des correspondances simples (AFC)
  • Analyse factorielle des correspondances multiples (AFCM)
  • Classification ascendante hiérarchique (CAH)
  • k-means
  • Analyse factorielle discriminante (AFD)

Jeux de données

Afin de s'approcher au mieux des réalités quotidiennes des praticiens, nous suggérons de nous appuyer pour l'animation pratique de thématiques et surtout de jeux de données reflétant le quotidien des apprenants.
Cet élément est un facteur de réussite pour la formation. Elle permet aux apprenants de :

  • Se "reconnaitre" dans les thèmes abordés, 
  • Mieux percevoir l'intérêt des notions étudiées 
  • S'approprier le contenu de la formation

Il sera donc pertinent que les apprenants puissent réfléchir en amont de la formation à des problématiques, jeux de données ou documents susceptibles d’être utilisés en support lors de la formation.

Outil logiciel

Cette formation n’est pas strictement dédiée à un logiciel. Les exercices et les illustrations se feront à l'aide d'un logiciel "spécialisé" pour ce type d'analyses : XlStat, R, Jmp, ... Le logiciel retenu sera choisi en accord avec celui utilisé par le plus grand nombre des stagiaires.

Infos pratiques

  • Durée : 4 jours soit 28 heures
  • Tarif public intra : à partir de 1450 € / jour
  • Tarif public inter : 750 € / jour / personne
  • Population visée : Technicien – Employé – Cadre – Chercheur – Etudiant
  • Public concerné : Toute personne souhaitant comprendre et mettre en œuvre des méthodes d'analyses factorielles multivariées.

Programme

Objectifs pédagogiques

A l’issue de cette formation, l’apprenant sera capable de :

  • Identifier quelle méthode d’analyse multivariée ou de classification utiliser selon le contexte
  • Décrire les concepts mathématiques inhérents à ces méthodes
  • Mettre en œuvre les analyses factorielles multivariées suivantes : ACP, AFC, AFCM, AFD
  • Interpréter les résultats et les graphiques qui découlent des analyses ci-dessus
  • Maitriser les coefficients et les paramètres permettant d’estimer la qualité des analyses statistiques ci-dessus
  • Expliquer la différence entre les notions de contribution et de cosinus carré 
  • Expliquer les distances et les méthodes d'agrégation les plus adaptées à l'objectif de classification
  • Comprendre les différences entre la CAH et les k-means
  • Mettre en œuvre et interpréter les résultats d'une méthode de classification de type CAH et k-means

Pré-requis

Il est nécessaire que les participants aient de bonnes connaissances sur les outils statistiques de base : corrélation, écart-type, variance, intervalles de confiance, tests d'hypothèses.

Objectifs opérationnels et contenu de la formation

Généralités sur les différentes méthodes d'analyses multidimensionnelles

  • Limites des statistiques classiques
  • Champs d'application des différentes méthodes d'analyses multidimensionnelles
  • Introduction sur le data mining - Les objectifs
    • Objectifs de description
    • Objectifs de prédiction
  • Structure des jeux de données
  • Présentation de l'éventail des méthodes
    • Analyse en composantes principales
    • Analyse factorielle des correspondances simples et multiples
    • Analyse canonique des corrélations
    • Analyse factorielle discriminante
    • Méthodes de classification : classification ascendante hiérarchique, k-means
  • Principes généraux des différentes méthodes - Notions de : 
    • Distance, 
    • Inertie et variance 
    • Axes factoriels

Notion de corrélation

  • Définition du coefficient de corrélation
  • Interprétation de la valeur du coefficient de corrélation
  • Les confusions : corrélation, causalité, pente…
  • Les différents coefficients de corrélation
    • Coefficient de Pearson
    • Coefficient de Spearman

Mise en œuvre d'une analyse en composante principales (ACP) 

  • Structure du jeu de données et contexte d’application
  • Objectifs détaillés de l'ACP
  • Choix des axes de représentation (choix du nombre de composantes principales)
  • Interprétation des sorties graphiques : cercle factoriel et graphique des individus
  • Interprétation des axes factoriels
  • Contribution des individus et des variables aux axes
  • Qualité de représentation des individus et des variables sur les axes : les cosinus carrés
  • Les différentes ACP :
    • ACP normée et non normée
    • ACP non paramétrique
  • Positionnement d’une variable illustrative catégorielle
  • Les confusions et erreurs à ne pas commettre
  • Présentation rapide des Analyses des correspondances simple et multiple si souhaité
  • Différences entre ACP et AFC

Mise en œuvre d’une analyse factorielle des correspondances (AFC)

  • Structure du jeu de données : tableau de contingence, données individuelles (variables qualitatives)
  • Contexte d’application et objectifs détaillés de l'AFC
  • Différence entre ACP et AFC
  • Méthodologie de l'AFC 
    • Distance du Chi²
    • Profils lignes
    • Profils colonnes
  • Choix des axes de représentation (choix du nombre d'axes)
  • Interprétation des sorties graphiques : graphique des modalités
  • Contributions et cosinus carrés des modalités aux axes
  • Les confusions et erreurs à ne pas commettre

Mise en œuvre d’une analyse des correspondances multiples (ACM ou AFCM)

  • Structure du jeu de données
  • Contexte d’application et objectifs détaillés de l'AFCM
  • Différence entre AFC et AFCM
  • Méthodologie de l'AFCM
  • Choix des axes de représentation (choix du nombre d'axes)
  • Correction de Benzecri : valeurs propres et taux d'inertie expliquée corrigés
  • Interprétation des sorties graphiques : 
    • Graphique des modalités
    • Graphique des variables
  • Contributions et cosinus carrés des modalités aux axes
  • Les confusions et erreurs à ne pas commettre

Mise en œuvre d’une classification par une classification ascendante hiérarchique (CAH)

  • Structure du jeu de données
  • Contexte d’application et objectifs détaillés de la CAH
  • Lecture d’un dendrogramme
  • Choix du nombre de classes
  • Classification sur les individus
  • Classification sur les variables
  • Classification sur les modalités
  • Choix de la distance selon le contexte : classification sur les individus, les variables ou les modalités
  • Choix du linkage (saut, critère de « rapprochement » entre les classes) : méthode de Ward, lien simple, lien complet…
  • Interprétation des sorties logiciel

Mise en œuvre d’une classification par une k-means

  • Présentation des objectifs de la méthode des k-means
  • Avantages et inconvénients de la CAH et des k-means
  • Détermination des clusters
  • Présentation des différentes versions de l'algorithme
  • Utilisation de la k-means en complément de l’ACP
  • Classification sur grand jeu de données
  • Conseils de mise en œuvre 
  • Interprétation des sorties logiciel

Mise en œuvre d'une analyse factorielle discriminante (AFD)

  • Structure du jeu de données et contexte d’application
  • Objectifs détaillés de l'AFD
  • Notions de classement et de discrimination
  • Méthodologie de l’AFD
  • Comparaison avec l’ACP
  • Interprétation des sorties logiciel : cercle factoriels, corrélations variables x axes
  • Qualité de l'AFD (de la discrimination obtenue)
    • Tests univariés et multivariés (lambda de Wilks)
    • Graphique des individus
    • Matrice de confusion (et éventuellement courbe ROC)
  • Les confusions et erreurs à ne pas commettre

Méthodes et moyens

  • Explications théoriques suivies de pratiques guidées puis mises en autonomie
  • 1 vidéoprojecteur par salle
  • 1 ordinateur par stagiaire

Méthodes d’évaluation des acquis

  • Exercices de synthèse et d’évaluation
  • Evaluation de fin de stage

Profil formateur

Nos formateurs sont certifiés à l’issue d’un parcours organisé par nos soins. Ils bénéficient d’un suivi de compétences aussi bien au niveau technique que pédagogique.

Support stagiaire

  • Support papier ou électronique (dématérialisé)
  • Les exercices d’accompagnement peuvent être récupérés sur clef USB