Machine Learning & Méthodes statistiques appliquées aux processus de classification (variable qualitative)

Référence : 2020-STAT-N2-MLMSTAT

La formation en quelques mots

Cette formation s'adresse à des personnes souhaitant appréhender les méthodes de classement. Les méthodes étudiées porteront sur le classement d’individus à attributs qualitatifs.
Même si l’essentiel des méthodes étudiées sont des méthodes supervisées, il pourra être évoqué des méthodes type classement k-means en complément.
Concernant la mise en œuvre des méthodes, deux approches seront traitées :

  • L’approche statistique classique basée sur les méthodes régression
  • L’approche Machine Learning basée sur les méthodes d’apprentissage type knn, svm, random forest, …

Deux compétences distinctes seront abordées lors de cette formation :

  • Passer en revue l’éventail des méthodes de classements disponibles (comment prédire)
  • Mettre en place une stratégie permettant de valider les classements effectués (comment vérifier qu’on prédit bien !)

La formation conviendra à un public venant chercher du savoir statistique sur :

  • Les concepts des différentes méthodes d’apprentissage supervisé d’arbre de décision et de forêt aléatoire
  • Les contextes d’application de chaque méthode
  • La méthodologie des méthodes d’apprentissage supervisé
  • La mise en œuvre et l’interprétation des résultats
  • La validation des méthodes de classement

Cette formation ne traite pas de l’usage des réseaux de neurones.
De même, elle n’est pas orientée spécifiquement vers les méthodes de type modèles prédictifs pour variables quantitatives.

Thèmes principaux

  • Régression logistique
  • Analyse factorielle discriminante
  • Knn
  • SVM
  • Random forest 
  • Forêt aléatoire
  • Méthodes de validation des prédictions


Jeux de données

Afin de s'approcher au mieux des réalités quotidiennes des praticiens, nous suggérons de nous appuyer pour l'animation pratique de thématiques et surtout de jeux de données reflétant le quotidien des apprenants.
Ce souhait est un facteur de réussite pour la formation. Elle permet aux apprenants de :

  • Se "reconnaitre" dans les thèmes abordés, 
  • Mieux percevoir l'intérêt des notions étudiées 
  • S'approprier le contenu de la formation

Outil logiciel

Les mises en applications pourront se faire autour du logiciel R si les apprenants sont autonomes, sous XlStat ou sous JMP.
 

Infos pratiques

  • Durée : 4 jours soit 28 heures
  • Tarif public intra : à partir de 1450 € / jour
  • Tarif public inter : 750 € / jour / personne
  • Population visée : Statisticiens – Data scientists – Ingénieurs et chargés d’études/d’analyses – Chercheurs – Doctorants
  • Public concerné : Toute personne souhaitant comprendre le contexte d’utilisation, les concepts, et la mise en œuvre des méthodes de classements et de prédiction d’une variable qualitative.

Programme

Objectifs pédagogiques

A l’issue de cette formation, l’apprenant sera capable de :

  • Maîtriser le vocabulaire spécifique aux méthodes d’apprentissage à finalité de classement
  • Identifier le contexte et les conditions d’application des méthodes d’apprentissage supervisé et non supervisé
  • Connaître les objectifs et les différences entre les méthodes de classement
  • Décrire la méthodologie inhérente à ces méthodes
  • Mettre en œuvre et interpréter les résultats des méthodes d’apprentissage supervisé
  • Connaître les principaux indicateurs de cohérence liés aux méthodes d’apprentissage 
  • Maitriser les paramètres permettant d’estimer la qualité de ces analyses

Pré-requis

Il est nécessaire que les participants aient des connaissances sur les outils statistiques de base : corrélation, écart-type, variance, intervalles de confiance, tests d'hypothèses.
Dans le cas où la formation serait effectuée avec le logiciel R, une connaissance de base de ce logiciel est préconisée.

Objectifs opérationnels et contenu de la formation

VOLET 1 :  LES ALGORITHMES

Généralités sur les différentes méthodes d’apprentissage supervisé

  • Différences entre méthodes supervisées et non supervisées 
  • Objectifs de l’apprentissage supervisé
    • Objectifs de description
    • Objectifs de prédiction
  • Structure des jeux de données
  • Présentation générale de l'éventail des méthodes

La méthode knn

  • Principe de la méthode des plus proches voisins
  • Algorithme de calcul
  • Distances entre individus
  • Choix des proximités
  • Définition du paramètre k

La régression logistique

  • Variable explicative et variable expliquée (continue / binaire)
  • Différences entre la régression linéaire classique et la régression logistique
  • Variables explicatives qualitatives, variables explicatives quantitatives
  • Objectifs de la régression logistique
  • Définition du modèle Logit (courbe sigmoïde)
  • Conditions d’utilisation à respecter
  • Estimation et interprétation des coefficients du modèle
  • Test de significativité du modèle (validation du modèle)
  • Tests d’apport d’une variable (test de Wald, tests sur les rapports de vraisemblance)
  • Interprétation du Khi² de Wald
  • Odds-ratios
  • Parallèle odds ratios et risques relatifs
  • Mise en œuvre et analyse des résultats d’un modèle de régression logistique multiple
  • Estimation et interprétation des coefficients du modèle multiple

L’analyse factorielle discriminante

  • Structure du jeu de données et contexte d’application
  • Objectifs détaillés de l'AFD
  • Notions de classement et de discrimination
  • Méthodologie de l’AFD
  • Comparaison avec l’ACP
  • Interprétation des sorties logiciel : cercle factoriels, corrélations variables x axes
  • Qualité de l'AFD (de la discrimination obtenue)
    • Tests univariés et multivariés (lambda de Wilks)
    • Graphique des individus
    • Matrice de confusion (et éventuellement courbe ROC)
  • Les confusions et erreurs à ne pas commettre

Les supports vecteurs machines (SVM)

  • Démarche des svm
  • Notions de marge
  • Séparation linéaire
  • Séparation non linéaire
  • Fonction noyau

Les arbres de décision

  • Structure du jeu de données
  • Principes, vocabulaire et objectifs 
  • Notion d’échantillon d’apprentissage, de validation et de test
  • Comparaison de méthodes de type régression linéaire / logistique aux arbres de décision
  • Principe de la segmentation selon le type de variable : Arbre de régression ou arbre de classification
  • Définir les conditions d’arrêt de construction d’un arbre : Notion de pré-élagage
  • Définition des groupes après construction de l’arbre
  • Indicateurs de qualité
  • Comparaison d’arbre de décision selon un certain type d’algorithme : CHAID vs CART
  • Avantages et inconvénients : limites des arbres de décision
  • Mise en œuvre et interprétation des résultats obtenus après application d’une analyse par arbre de décision

De l’arbre à la foret - Random Forest

  • Pourquoi avoir recourt aux forêts aléatoires ? 
  • Principes et objectifs
    • Instabilité de l’arbre
    • Notion de Bagging
    • Les erreurs liées à l’échantillonnage (Out-Of-Bag)
    • Prédiction avec un algorithme de Forêt aléatoire : Les paramètres
  • Evaluer l’importance des variables
    • Notion d’importance
    • Comportement de l’importance 
    • Lien entre diversité des arbres et l’importance
    • Influence des paramètres
  • Sélection de variables
    • Généralités et principes de la sélection
    • Procédure de sélection
    • Les paramètres de sélection
    • Validation 

VOLET 2 :  VALIDATIONS DES METHODES, MESURE DES PERFORMANCES

  • Partitionnement des données disponibles

    • Jeu d’entrainement
    • Jeu de validation
    • Tests sur le jeu d’entrainement
    • Tests sur le jeu de validation
  • La validation croisée
    • Leave one out
    • K fold
    • Leave v out
  • Compromise biais / variance
  • Mesures des performances des classifications
    • Matrices de confusions
    • Courbe Roc
    • Aire sous la courbe (AUC)
    • Sensibilité & spécificité

Méthodes et moyens

  • Explications théoriques suivies de pratiques guidées puis mises en autonomie
  • 1 vidéoprojecteur par salle
  • 1 ordinateur par stagiaire

Méthodes d’évaluation des acquis

  • Exercices de synthèse et d’évaluation
  • Evaluation de fin de stage

Profil formateur

Nos formateurs sont certifiés à l’issue d’un parcours organisé par nos soins. Ils bénéficient d’un suivi de compétences aussi bien au niveau technique que pédagogique.

Support stagiaire

  • Support papier ou électronique (dématérialisé)
  • Les exercices d’accompagnement peuvent être récupérés sur clef USB