Machine learning - Découverte : classification, k-means, analyse factorielle discriminante, arbres de décision et forêts aléatoires

Référence : 2020-STAT-N2-MachineLearningDcv

La formation en quelques mots

Cette formation s'adresse à des personnes souhaitant découvrir le contexte d’application et les concepts des méthodes de machine learning (classification, k-means, analyse factorielle discriminante, arbre de décision et forêt aléatoire). Ces méthodes ont pour principal objectif d’extraire des informations de données massives. Les méthodes de types classification, k-means sont utilisées dans un contexte d’analyse exploratoire. On entend par analyse exploratoire la « découverte » des données dont l’objectif est de se faire une première idée sur celles-ci : statistiques descriptives, recherche de tendances, de corrélations. Les méthodes d’arbres de décision et forêts aléatoires sont mises en pratique dans un objectif de prise de décision métier.
Ces types de méthodes s’appliquent en présence de données : 

  • Volumineuses en nombre de variables,
  • Volumineuses en nombre d'individus,
  • Non structurées,
  • Comportant des variables redondantes (confusions entre variables), 

Thèmes principaux

  • K-means
  • Classification ascendante hiérarchique (CAH)
  • Analyse factorielle discriminante (AFD)
  • Arbre de décision
  • Forêt aléatoire

Outil logiciel

Les mises en applications pourront se faire autour du logiciel R si les participants sont autonomes, sous XlStat ou sous JMP.

Infos pratiques

  • Durée : 1 jour soit 7 heures
  • Tarif public intra : à partir de 1450 € / jour
  • Tarif public inter : 750 € / jour / personne
  • Population visée : Statisticiens – Data scientists – Ingénieurs et chargés d’études/d’analyses – Chercheurs – Doctorants
  • Public concerné : Toute personne souhaitant découvrir le contexte et les concepts d’utilisation des méthodes de machine learning de type classification, k-means, analyse factorielle discriminante, arbres de décision et forêts aléatoires.

Programme

Objectifs pédagogiques

A l’issue de cette formation, l’apprenant sera capable de :

  • Connaître les objectifs et les différences entre les méthodes d’apprentissage supervisé et non supervisé
  • Maîtriser le vocabulaire spécifique aux méthodes d’apprentissage supervisé et non supervisé
  • Identifier le contexte et les conditions d’application des méthodes d’apprentissage supervisé et non supervisé 
  • Connaître les démarches des méthodes d’apprentissage supervisé et non supervisé

Pré-requis

  • Il est souhaitable d’avoir des connaissances de bases en statistiques.
  • Dans le cas où la formation serait effectuée avec le logiciel R, une connaissance de base de ce logiciel est préconisée.

Objectifs opérationnels et contenu de la formation

Généralités sur les différentes méthodes de machine learning

  • Limites des statistiques classiques
  • Champs d'application des différentes méthodes
  • Introduction sur le machine learning - Les objectifs et problématiques

Découverte de la méthode d’Analyse discriminante

  • Structure du jeu de données
  • Contexte d’application, objectifs et méthodologie de l’analyse discriminante
  • Notions de classement et de discrimination
  • Méthodologie de l’AFD
  • Interprétation des sorties logiciel : cercle factoriels, corrélations variables x axes
  • Qualité de l'AFD (de la discrimination obtenue)
    • Tests univariés et multivariés (lambda de Wilks)
    • Graphique des individus
    • Matrice de confusion (et éventuellement courbe ROC)
  • Les confusions et erreurs à ne pas commettre

Découverte des méthodes de classification : classification ascendante hiérarchique (CAH) et k-means

  • Structure du jeu de données
  • Contexte d’application, objectifs et méthodologie de la CAH et des k-means
  • Lecture d’un dendrogramme
  • Différents types de classification : sur les individus, sur les variables, sur les modalités
  • Avantages et inconvénients des méthodes de classification
  • Interprétation des sorties logiciel

Découverte des méthodes d’apprentissage supervisé

  • Champs d'application des différentes méthodes 
  • Objectifs de l’apprentissage supervisé
    • Objectifs de description
    • Objectifs de prédiction
  • Structure des jeux de données
  • Présentation générale de l'éventail des méthodes
    • Arbre de décision
    • Forêt aléatoire

Méthodes et moyens

  • Explications théoriques suivies de pratiques guidées puis mises en autonomie
  • 1 vidéoprojecteur par salle
  • 1 ordinateur par stagiaire

Méthodes d’évaluation des acquis

  • Exercices de synthèse et d’évaluation
  • Evaluation de fin de stage

Profil formateur

Nos formateurs sont certifiés à l’issue d’un parcours organisé par nos soins. Ils bénéficient d’un suivi de compétences aussi bien au niveau technique que pédagogique.

Support stagiaire

  • Support papier ou électronique (dématérialisé)
  • Les exercices d’accompagnement peuvent être récupérés sur clef USB