Il y a forcément une formation faite pour vous

Participants suivant une formation en centre de formation Arkesys

Modèles prédictifs (Approche statistique classique et machine learning) Mixte : présentiel / à distance

Dernière mise à jour : 11/12/2025

M'inscrire à la formation

Cette session se passera en partie à distance et en partie en présentiel
Détail des créneaux de la session sélectionnée :
Ajouter au panier

Public visé

Toute personne souhaitant comprendre la démarche de mise en place d'un modèle prédictif.

Prérequis

Il est indispensable que les participants aient :

  • De bonnes connaissances sur les outils statistiques de base : statistiques descriptives, intervalles de confiance, p-value, risque alpha, tests d'hypothèses…
  • Une connaissance de base de la régression est un atout.

Objectifs de la formation

A l'issue de cette formation, l'apprenant sera capable de :

  • Définir le contexte et les objectifs des différentes méthodes de prédiction d'une variable quantitative
  • Mettre en œuvre et interpréter les résultats des méthodes suivantes
    • Régression linéaire simple et multiple
    • Régression de Poisson
    • Régression Zip
    • Approche prédictive via les outils de Machine Learning (knn, arbres de décisions)
  • Vérifier les conditions de mise en œuvre des différentes méthodes
  • Connaître les grandes lignes des concepts mathématiques inhérents à ces méthodes
  • Identifier et prendre en compte les problèmes de multi colinéarités sur les modèles linéaires
  • Mesurer la qualité d'ajustement et la qualité de prédiction (d'estimation des coefficients) des modèles.
  • Appliquer les notions de validations croisées aux modèles mis en œuvre
  • Détecter et analyser les points aberrants / les points influents susceptibles d'altérer les modèles
  • Utiliser les méthodes de type Machine Learning (knn, Svm, arbres de décisions) dans le contexte de prédictions
  • Connaître la démarche pour mesurer l'erreur d'un modèle (validation croisée, Loo, kfold,…)

Contenu de la formation

visuel

LA FORMATION EN QUELQUES MOTS

Cette formation s'adresse à des personnes souhaitant mettre en œuvre des modèles prédictifs.

La particularité de cette formation réside dans le fait qu'elle va mixer deux approches :

  • L'approche statistique classique basée sur les méthodes de régression type régression via les modèles linéaires généraux et généralisés.
  • L'approche Machine Learning basée sur les méthodes d'apprentissage type knn, Svm, Arbres de décisions, …

 

L'intérêt de cette double approche est de sensibiliser les apprenants aux problématiques liées aux surajustement ou sous ajustements inhérents à ces méthodes.

Il permet aussi d'effectuer parfois pour les apprenants une première approche dans le monde du machine Learning, une des composantes utilisées en IA.

 

La finalité des modèles prédictifs sera appliquée sur la prédiction de variables quantitatives mais aussi de variables qualitatives. Globalement, l'accent sera plutôt mis sur la prédiction de variables quantitatives.

 

L'idée est de passer en revue un certain nombre de méthodes permettant aux apprenants d'aller ensuite plus loin dans leur modélisation.

 

Deux compétences distinctes seront abordées lors de cette formation :

  • Comment fait-on pour prédire ?
    Un passage en revue de différentes méthodes de prédictions sera réalisé 'régression, régression logistique, régression de Poisson, knn, …)
  • Comment s'assurer que l'on prédit bien ?
    La mise en place d'une stratégie permettant de valider les prédictions effectués (que l'on prédise des variables quantitatives ou qualitatives).

 

 

Thèmes principaux

  • Contexte et objectifs des différentes méthodes
  • Qualité d'ajustement et qualité d'estimation des coefficients du modèle (qualité de prédictions)
  • Sous et sur ajustement
  • Régression linéaire
  • Régression de Poisson
  • Régression Zip
  • Régression logistique
  • Problématique des multi colinéarités
  • Conditions d'utilisation des différentes méthodes
  • Prédictions via les approches de machine Learning (Knn, Svm, Arbres de décisions, …)

 

 

Jeux de données

Afin de s'approcher au mieux des réalités quotidiennes des praticiens, nous suggérons de nous appuyer pour l'animation pratique de thématiques et surtout de jeux de données reflétant le quotidien des apprenants.

Cet élément est un facteur de réussite pour la formation. Elle permet aux apprenants de :

  • Se "reconnaitre" dans les thèmes abordés,
  • Mieux percevoir l'intérêt des notions étudiées
  • S'approprier le contenu de la formation

 

Il sera donc pertinent que les apprenants puissent réfléchir en amont de la formation à des problématiques, jeux de données ou documents susceptibles d'être utilisés en support lors de la formation.

 

 

Outil logiciel

Cette formation n'est pas dédiée à la pratique d'un logiciel particulier. Les exercices et les illustrations se feront autour de R.

Jamovi ou Jasp, produits libres fréquemment utilisés au sein de la communauté scientifique seront également sollicités pour les personnes peu à l'aise avec R.

Le logiciel retenu sera choisi en accord avec celui utilisé par le plus grand nombre des stagiaires.

 

PROGRAMME

Rappels sur les outils statistiques de base

  • Grandeurs de position
  • Grandeurs de dispersion
  • Grandeurs de corrélation
  • Intervalles de confiance
  • Tests d'hypothèses (H0, p value)

 

Modélisation de type régression linéaire simple

  • Principes et concepts mathématiques inhérents à la régression linéaire simple
  • Tests d'hypothèse de significativité du modèle
  • Utilisation du modèle
    • Prédiction de valeurs individuelles
    • Intervalles de confiance des prédictions
  • Traitement graphique des résultats
  • Principes et concepts mathématiques inhérents à la régression linéaire multiple
  • Inférence du modèle, inférence des variables (statistique de Fisher)
  • Analyse des résidus
    • Calculs des résidus
    • Sens physique et statistique
    • Homogénéité
    • Distribution, Normalité
    • Valeurs suspectes
    • Analyses graphiques
  • Valeurs suspectes et points influents
    • Résidus : résidus studentisés
    • Effet leviers
    • Distance de Cook

 

Validation d'un modèle

  • Qualité du modèle
    • Qualité d'ajustement, coefficient de détermination R², R² ajusté, R² prev
    • Qualité de prédiction, erreur d'estimation
  • Utilisation du modèle
    • Prédiction (prévision) de valeurs individuelles
    • Intervalles de confiance des prédictions (prévisions)
  • Illustration graphique des résultats
  • Appliquer la validation croisée à un modèle de régression croisée
    • Méthode du leave one out
    • Méthode du k fold
    • Méthode de la séparation entre data d'entrainement et data de test

 

Le modèle de régression multiple

  • De la régression simple à la régression multiple
  • Significativité des coefficients
  • Hiérarchie des coefficients
  • Problèmes liés à la multi-colinéarité
  • Mesures des colinéarités
    • Coefficient de corrélation
    • Vifs

 

Analyse des problèmes de multi colinéarités à travers la sélection des variables

  • Détection de la multi colinéarité
    • Effets nocifs de la colinéarité entre variables explicatives
    • Outils de détection : corrélation, VIF, cohérence des signes des coefficients
  • Traitement de la colinéarité
  • Les solutions proposées
    • Expérimentations structurée (type matrices plans d'expériences)
    • Sélection de variables

 

Régression de Poisson & Régression Zip

  • Le cadre des modèles linéaires Généralisés
  • Différences entre modèles linéaires généraux et généralisés
  • Identification d'une variable réponse Y à expliquer comme mesure de comptage
  • Estimations des effets
  • Lire et comprendre les coefficients
  • Choix des variables
  • Choix du modèle
  • Diagnostic
  • Problème de la surdispersion et des zéros
  • ZIP, Zero Inflated Poisson
    • Variable de réponse comme mesure de comptage avec présence de zéro importante
    • Modélisation différenciée : Y=0 et Y> 0
    • Lire et comprendre les coefficients
    • Choix des variables
    • Choix du modèle
    • Diagnostic
  • Régression sur Y en proportion

 

Approches prédictives par les méthodes type Machine Learning

  • Démarche des algorithmes de classifications :
  • La méthode des knn
  • Applications à la prédiction d'une variable quantitative

 

Modélisation de variables qualitatives par la régression logistique

  • Variable explicative et variable expliquée (continue / binaire)
  • Différences entre la régression linéaire classique et la régression logistique
  • Variables explicatives qualitatives, variables explicatives quantitatives
  • Objectifs de la régression logistique
  • Définition du modèle Logit (courbe sigmoïde)
  • Conditions d'utilisation à respecter
  • Estimation et interprétation des coefficients du modèle
  • Test de significativité du modèle (validation du modèle)
  • Tests d'apport d'une variable (test de Wald, tests sur les rapports de vraisemblance)
  • Interprétation du Khi² de Wald
  • Odds-ratios
  • Parallèle odds ratios et risques relatifs
  • Mise en œuvre et analyse des résultats d'un modèle de régression logistique multiple
  • Estimation et interprétation des coefficients du modèle multiple

 

Les approches Machine Learning pour les variables qualitatives

  • La méthode knn
    • Principe de la méthode des plus proches voisins
    • Algorithme de calcul
    • Distances entre individus
    • Choix des proximités
    • Définition du paramètre k
  • Ouverture sur les Svm
    • Démarche des svm
    • Notions de marge
    • Séparation linéaire
    • Séparation non linéaire
    • Fonction noyau
  • Autres approches…

Compétences acquises à l'issue de la formation

  • Définir le contexte et les objectifs des différentes méthodes de prédiction d’une variable quantitative
  • Mettre en œuvre et interpréter les résultats des méthodes suivantes o Régression linéaire simple et multiple o Régression de Poisson o Régression Zip o Approche prédictive via les outils de Machine Learning (knn, arbres de décisions)
  • Vérifier les conditions de mise en œuvre des différentes méthodes
  • Connaître les grandes lignes des concepts mathématiques inhérents à ces méthodes
  • Identifier et prendre en compte les problèmes de multi colinéarités sur les modèles linéaires
  • Mesurer la qualité d’ajustement et la qualité de prédiction (d’estimation des coefficients) des modèles.
  • Appliquer les notions de validations croisées aux modèles mis en œuvre
  • Détecter et analyser les points aberrants / les points influents susceptibles d'altérer les modèles
  • Utiliser les méthodes de type Machine Learning (knn, Svm, arbres de décisions) dans le contexte de prédictions
  • Connaître la démarche pour mesurer l’erreur d’un modèle (validation croisée, Loo, kfold,…)

Modalités pédagogiques

  • Explications théoriques suivies de pratiques guidées puis de mises en autonomie.
  • Exercices autonomes et réguliers pour assurer l'assimilation

Moyens et supports pédagogiques

Votre formation se déroule à distance avec :

  • 1 ordinateur
  • 1 vidéoprojecteur

 

Votre formation se déroule à distance avec :

  • 1 ordinateur
  • 1 connexion Internet
  • 1 adresse e-mail valide
  • 1 équipement audio (micro et enceintes ou casque)
  • 1 Webcam (facultatif – dans l'idéal)
  • 1 deuxième écran (facultatif – dans l'idéal)

Modalités d'évaluation et de suivi

Les objectifs pédagogiques sont évalués et suivis grâce à différentes méthodes adaptées aux acquisitions de compétences visées. Nos formateurs réalisent ces évaluations tout au long de la formation, que ce soit pendant les séances synchrones ou asynchrones. Voici une liste non exhaustive des méthodes d'évaluation pouvant être utilisées en formation :

  • Questionnaire de vérification de connaissances (Quiz)
  • Réalisation de Travaux Pratiques : production ou amélioration d'un fichier
  • Mises en situation et grilles d'analyse
  • Serious Game : jeu de rôles et analyse
  • Activités interactives à travers l'utilisation d'une plate-forme connectée

 

Toutes nos formations intègrent une auto-évaluation via notre Extranet Stagiaire au début et à la fin de chaque action de formation. Cet outil offre à chacun la possibilité de mesurer sa progression par rapport aux objectifs pédagogiques visés et leurs atteintes.

Profil du formateur

[u][b]Profil formateur :[/b][/u] Nos formateurs sont certifiés à l'issue d'un parcours organisé par nos soins. Ils bénéficient d'un suivi de maintien et d'évolution de leurs compétences aussi bien au niveau technique que pédagogique. Chacun de nos formateurs a bénéficié d'une formation spécifique à l'animation de classe virtuelle et à l'utilisation des solutions de formation à distance du Groupe ARKESYS.

Informations sur l'accessibilité

Cette formation est accessible à toute personne en situation de handicap. Notre référent handicap prendra contact avec les stagiaires concernés pour adapter l'animation à leurs besoins et rendre l'apprentissage accessible à tous. Enfin, nos centres de formation sont accessibles aux personnes à mobilité réduite.

Prochaines Sessions

  • 12/01/26 → 26/01/26 Présentiel / à distance 10 places restantes

Partager cette formation

Notre nouveau catalogue est en cours de déploiement. Aussi, pour connaître tous nos indicateurs, veuillez nous contacter directement.

 

Catalogue de formation propulsé par Dendreo,
logiciel de gestion pour les OF

Accessibilité

Sélectionnez le niveau de contraste souhaité
Adaptez la taille de la police