Méthodes d’apprentissage supervisé - Arbres de décision et forêts aléatoires

Référence : 2020-STAT-N2-ArbreRandomForest

La formation en quelques mots

Cette formation s'adresse à des personnes souhaitant découvrir le contexte d’utilisation des méthodes algorithmiques d’apprentissage supervisé de type arbres de décision et forêts aléatoires. Ces méthodes ont pour principal objectif d’extraire des informations de données massives. Les méthodes d’arbres de décision et forêts aléatoires sont mises en pratique dans un objectif de prise de décision métier.
Ces types de méthodes s’appliquent en présence de données : 

  • Volumineuses en nombre de variables,
  • Volumineuses en nombre d'individus,
  • Non structurées,
  • Comportant des variables redondantes (confusions entre variables), 

La formation conviendra tout à fait à un public venant chercher du savoir statistique sur :

  • Les concepts des différentes méthodes d’apprentissage supervisé d’arbre de décision et de forêt aléatoire
  • Les contextes d’application de chaque méthode
  • La méthodologie des méthodes d’apprentissage supervisé
  • La mise en œuvre et l’interprétation des résultat

Thèmes principaux

  • Arbre de décision
  • Forêt aléatoire

Jeux de données

Afin de s'approcher au mieux des réalités quotidiennes des praticiens, nous suggérons de nous appuyer pour l'animation pratique de thématiques et surtout de jeux de données reflétant le quotidien des apprenants.
Ce souhait est un facteur de réussite pour la formation. Elle permet aux apprenants de :

  • Se "reconnaitre" dans les thèmes abordés, 
  • Mieux percevoir l'intérêt des notions étudiées 
  • S'approprier le contenu de la formation

Outil logiciel

Les mises en applications pourront se faire autour du logiciel R si les apprenants sont autonomes, sous XlStat ou sous JMP.

Infos pratiques

  • Durée : 2 jours soit 14 heures
  • Tarif public intra : à partir de 1450 € / jour
  • Tarif public inter : 750 € / jour / personne
  • Population visée : Statisticiens – Data scientists – Ingénieurs et chargés d’études/d’analyses – Chercheurs – Doctorants
  • Public concerné : Toute personne souhaitant comprendre le contexte d’utilisation, les concepts, et la mise en œuvre des méthodes d'apprentissage supervisé de type arbres de décision et forêts aléatoires.

Programme

Objectifs pédagogiques

A l’issue de cette formation, l’apprenant sera capable de :

  • Maîtriser le vocabulaire spécifique aux méthodes d’apprentissage supervisé
  • Identifier le contexte et les conditions d’application des méthodes d’apprentissage supervisé
  • Connaître les objectifs et les différences entre les méthodes d’apprentissage supervisé
  • Décrire la méthodologie inhérente à ces méthodes
  • Mettre en œuvre et interpréter les résultats des méthodes d’apprentissage supervisé
  • Connaître les principaux indicateurs de cohérence liés aux méthodes d’apprentissage supervisé
  • Connaître les paramètres à ajuster lors de la mise en œuvre des méthodes d’arbre de décision et de forêt aléatoire
  • Maitriser les paramètres permettant d’estimer la qualité de ces analyses

Pré-requis

IL EST INDISPENSABLE que les participants aient de bonnes connaissances sur les outils statistiques de base : corrélation, écart-type, variance, intervalles de confiance, tests d'hypothèses.
Dans le cas où la formation serait effectuée avec le logiciel R, une connaissance de base de ce logiciel est préconisée.

Objectifs opérationnels et contenu de la formation

Généralités sur les différentes méthodes d’apprentissage supervisé

  • Champs d'application des différentes méthodes 
  • Objectifs de l’apprentissage supervisé
    • Objectifs de description
    • Objectifs de prédiction
  • Structure des jeux de données
  • Présentation générale de l'éventail des méthodes
    • Arbre de décision
    • Forêt aléatoire

Contexte d’application des méthodes d’arbre de décision

  • Structure du jeu de données
  • Principes, vocabulaire et objectifs 
  • Notion d’échantillon d’apprentissage, de validation et de test
  • Comparaison de méthodes de type régression linéaire / logistique aux arbres de décision
  • Principe de la segmentation selon le type de variable : Arbre de régression ou arbre de classification
  • Définir les conditions d’arrêt de construction d’un arbre : Notion de pré-élagage
  • Définition des groupes après construction de l’arbre
  • Indicateurs de qualité
  • Comparaison d’arbre de décision selon un certain type d’algorithme : CHAID vs CART
  • Avantages et inconvénients : limites des arbres de décision
  • Mise en œuvre et interprétation des résultats obtenus après application d’une analyse par arbre de décision

Contexte d’application des méthodes de forêt aléatoire

  • Pourquoi avoir recourt aux forêts aléatoires ? 
  • Principes et objectifs
    • Instabilité de l’arbre
    • Notion de Bagging
    • Les erreurs liées à l’échantillonnage (Out-Of-Bag)
    • Prédiction avec un algorithme de Forêt aléatoire : Les paramètres
  • Evaluer l’importance des variables
    • Notion d’importance
    • Comportement de l’importance 
    • Lien entre diversité des arbres et l’importance
    • Influence des paramètres
  • Sélection de variables
    • Généralités et principes de la sélection
    • Procédure de sélection
    • Les paramètres de sélection

Méthodes et moyens

  • Explications théoriques suivies de pratiques guidées puis mises en autonomie
  • 1 vidéoprojecteur par salle
  • 1 ordinateur par stagiaire

Méthodes d’évaluation des acquis

  • Exercices de synthèse et d’évaluation
  • Evaluation de fin de stage

Profil formateur

Nos formateurs sont certifiés à l’issue d’un parcours organisé par nos soins. Ils bénéficient d’un suivi de compétences aussi bien au niveau technique que pédagogique.

Support stagiaire

  • Support papier ou électronique (dématérialisé)
  • Les exercices d’accompagnement peuvent être récupérés sur clef USB