Il y a forcément une formation faite pour vous
- Catalogue
- MÉTHODES / LOGICIELS STATISTIQUES & DATA ANALYSE
- Data Mining - Analyses multivariées - Machine Learning
- Modèles prédictifs (Approche statistique classique et machine learning)
Modèles prédictifs (Approche statistique classique et machine learning) Mixte : présentiel / à distance
Dernière mise à jour : 11/12/2025
- Inscription
- Public visé
- Prérequis
- Objectifs de la formation
- Contenu de la formation
- Compétences acquises à l'issue de la formation
- Modalités pédagogiques
- Moyens et supports pédagogiques
- Modalités d'évaluation et de suivi
- Profil du formateur
- Informations sur l'accessibilité
M'inscrire à la formation
Public visé
Prérequis
Il est indispensable que les participants aient :
- De bonnes connaissances sur les outils statistiques de base : statistiques descriptives, intervalles de confiance, p-value, risque alpha, tests d'hypothèses…
- Une connaissance de base de la régression est un atout.
Objectifs de la formation
A l'issue de cette formation, l'apprenant sera capable de :
- Définir le contexte et les objectifs des différentes méthodes de prédiction d'une variable quantitative
- Mettre en œuvre et interpréter les résultats des méthodes suivantes
- Régression linéaire simple et multiple
- Régression de Poisson
- Régression Zip
- Approche prédictive via les outils de Machine Learning (knn, arbres de décisions)
- Vérifier les conditions de mise en œuvre des différentes méthodes
- Connaître les grandes lignes des concepts mathématiques inhérents à ces méthodes
- Identifier et prendre en compte les problèmes de multi colinéarités sur les modèles linéaires
- Mesurer la qualité d'ajustement et la qualité de prédiction (d'estimation des coefficients) des modèles.
- Appliquer les notions de validations croisées aux modèles mis en œuvre
- Détecter et analyser les points aberrants / les points influents susceptibles d'altérer les modèles
- Utiliser les méthodes de type Machine Learning (knn, Svm, arbres de décisions) dans le contexte de prédictions
- Connaître la démarche pour mesurer l'erreur d'un modèle (validation croisée, Loo, kfold,…)
Contenu de la formation
LA FORMATION EN QUELQUES MOTS
Cette formation s'adresse à des personnes souhaitant mettre en œuvre des modèles prédictifs.
La particularité de cette formation réside dans le fait qu'elle va mixer deux approches :
- L'approche statistique classique basée sur les méthodes de régression type régression via les modèles linéaires généraux et généralisés.
- L'approche Machine Learning basée sur les méthodes d'apprentissage type knn, Svm, Arbres de décisions, …
L'intérêt de cette double approche est de sensibiliser les apprenants aux problématiques liées aux surajustement ou sous ajustements inhérents à ces méthodes.
Il permet aussi d'effectuer parfois pour les apprenants une première approche dans le monde du machine Learning, une des composantes utilisées en IA.
La finalité des modèles prédictifs sera appliquée sur la prédiction de variables quantitatives mais aussi de variables qualitatives. Globalement, l'accent sera plutôt mis sur la prédiction de variables quantitatives.
L'idée est de passer en revue un certain nombre de méthodes permettant aux apprenants d'aller ensuite plus loin dans leur modélisation.
Deux compétences distinctes seront abordées lors de cette formation :
- Comment fait-on pour prédire ?
Un passage en revue de différentes méthodes de prédictions sera réalisé 'régression, régression logistique, régression de Poisson, knn, …) - Comment s'assurer que l'on prédit bien ?
La mise en place d'une stratégie permettant de valider les prédictions effectués (que l'on prédise des variables quantitatives ou qualitatives).
Thèmes principaux
- Contexte et objectifs des différentes méthodes
- Qualité d'ajustement et qualité d'estimation des coefficients du modèle (qualité de prédictions)
- Sous et sur ajustement
- Régression linéaire
- Régression de Poisson
- Régression Zip
- Régression logistique
- Problématique des multi colinéarités
- Conditions d'utilisation des différentes méthodes
- Prédictions via les approches de machine Learning (Knn, Svm, Arbres de décisions, …)
- …
Jeux de données
Afin de s'approcher au mieux des réalités quotidiennes des praticiens, nous suggérons de nous appuyer pour l'animation pratique de thématiques et surtout de jeux de données reflétant le quotidien des apprenants.
Cet élément est un facteur de réussite pour la formation. Elle permet aux apprenants de :
- Se "reconnaitre" dans les thèmes abordés,
- Mieux percevoir l'intérêt des notions étudiées
- S'approprier le contenu de la formation
Il sera donc pertinent que les apprenants puissent réfléchir en amont de la formation à des problématiques, jeux de données ou documents susceptibles d'être utilisés en support lors de la formation.
Outil logiciel
Cette formation n'est pas dédiée à la pratique d'un logiciel particulier. Les exercices et les illustrations se feront autour de R.
Jamovi ou Jasp, produits libres fréquemment utilisés au sein de la communauté scientifique seront également sollicités pour les personnes peu à l'aise avec R.
Le logiciel retenu sera choisi en accord avec celui utilisé par le plus grand nombre des stagiaires.
PROGRAMME
Rappels sur les outils statistiques de base
- Grandeurs de position
- Grandeurs de dispersion
- Grandeurs de corrélation
- Intervalles de confiance
- Tests d'hypothèses (H0, p value)
- …
Modélisation de type régression linéaire simple
- Principes et concepts mathématiques inhérents à la régression linéaire simple
- Tests d'hypothèse de significativité du modèle
- Utilisation du modèle
- Prédiction de valeurs individuelles
- Intervalles de confiance des prédictions
- Traitement graphique des résultats
- Principes et concepts mathématiques inhérents à la régression linéaire multiple
- Inférence du modèle, inférence des variables (statistique de Fisher)
- Analyse des résidus
- Calculs des résidus
- Sens physique et statistique
- Homogénéité
- Distribution, Normalité
- Valeurs suspectes
- Analyses graphiques
- Valeurs suspectes et points influents
- Résidus : résidus studentisés
- Effet leviers
- Distance de Cook
Validation d'un modèle
- Qualité du modèle
- Qualité d'ajustement, coefficient de détermination R², R² ajusté, R² prev
- Qualité de prédiction, erreur d'estimation
- Utilisation du modèle
- Prédiction (prévision) de valeurs individuelles
- Intervalles de confiance des prédictions (prévisions)
- Illustration graphique des résultats
- Appliquer la validation croisée à un modèle de régression croisée
- Méthode du leave one out
- Méthode du k fold
- Méthode de la séparation entre data d'entrainement et data de test
Le modèle de régression multiple
- De la régression simple à la régression multiple
- Significativité des coefficients
- Hiérarchie des coefficients
- Problèmes liés à la multi-colinéarité
- Mesures des colinéarités
- Coefficient de corrélation
- Vifs
Analyse des problèmes de multi colinéarités à travers la sélection des variables
- Détection de la multi colinéarité
- Effets nocifs de la colinéarité entre variables explicatives
- Outils de détection : corrélation, VIF, cohérence des signes des coefficients
- Traitement de la colinéarité
- Les solutions proposées
- Expérimentations structurée (type matrices plans d'expériences)
- Sélection de variables
Régression de Poisson & Régression Zip
- Le cadre des modèles linéaires Généralisés
- Différences entre modèles linéaires généraux et généralisés
- Identification d'une variable réponse Y à expliquer comme mesure de comptage
- Estimations des effets
- Lire et comprendre les coefficients
- Choix des variables
- Choix du modèle
- Diagnostic
- Problème de la surdispersion et des zéros
- ZIP, Zero Inflated Poisson
- Variable de réponse comme mesure de comptage avec présence de zéro importante
- Modélisation différenciée : Y=0 et Y> 0
- Lire et comprendre les coefficients
- Choix des variables
- Choix du modèle
- Diagnostic
- Régression sur Y en proportion
Approches prédictives par les méthodes type Machine Learning
- Démarche des algorithmes de classifications :
- La méthode des knn
- Applications à la prédiction d'une variable quantitative
Modélisation de variables qualitatives par la régression logistique
- Variable explicative et variable expliquée (continue / binaire)
- Différences entre la régression linéaire classique et la régression logistique
- Variables explicatives qualitatives, variables explicatives quantitatives
- Objectifs de la régression logistique
- Définition du modèle Logit (courbe sigmoïde)
- Conditions d'utilisation à respecter
- Estimation et interprétation des coefficients du modèle
- Test de significativité du modèle (validation du modèle)
- Tests d'apport d'une variable (test de Wald, tests sur les rapports de vraisemblance)
- Interprétation du Khi² de Wald
- Odds-ratios
- Parallèle odds ratios et risques relatifs
- Mise en œuvre et analyse des résultats d'un modèle de régression logistique multiple
- Estimation et interprétation des coefficients du modèle multiple
Les approches Machine Learning pour les variables qualitatives
- La méthode knn
- Principe de la méthode des plus proches voisins
- Algorithme de calcul
- Distances entre individus
- Choix des proximités
- Définition du paramètre k
- Ouverture sur les Svm
- Démarche des svm
- Notions de marge
- Séparation linéaire
- Séparation non linéaire
- Fonction noyau
- Autres approches…
Compétences acquises à l'issue de la formation
- Définir le contexte et les objectifs des différentes méthodes de prédiction d’une variable quantitative
- Mettre en œuvre et interpréter les résultats des méthodes suivantes o Régression linéaire simple et multiple o Régression de Poisson o Régression Zip o Approche prédictive via les outils de Machine Learning (knn, arbres de décisions)
- Vérifier les conditions de mise en œuvre des différentes méthodes
- Connaître les grandes lignes des concepts mathématiques inhérents à ces méthodes
- Identifier et prendre en compte les problèmes de multi colinéarités sur les modèles linéaires
- Mesurer la qualité d’ajustement et la qualité de prédiction (d’estimation des coefficients) des modèles.
- Appliquer les notions de validations croisées aux modèles mis en œuvre
- Détecter et analyser les points aberrants / les points influents susceptibles d'altérer les modèles
- Utiliser les méthodes de type Machine Learning (knn, Svm, arbres de décisions) dans le contexte de prédictions
- Connaître la démarche pour mesurer l’erreur d’un modèle (validation croisée, Loo, kfold,…)
Modalités pédagogiques
- Explications théoriques suivies de pratiques guidées puis de mises en autonomie.
- Exercices autonomes et réguliers pour assurer l'assimilation
Moyens et supports pédagogiques
Votre formation se déroule à distance avec :
- 1 ordinateur
- 1 vidéoprojecteur
Votre formation se déroule à distance avec :
- 1 ordinateur
- 1 connexion Internet
- 1 adresse e-mail valide
- 1 équipement audio (micro et enceintes ou casque)
- 1 Webcam (facultatif – dans l'idéal)
- 1 deuxième écran (facultatif – dans l'idéal)
Modalités d'évaluation et de suivi
Les objectifs pédagogiques sont évalués et suivis grâce à différentes méthodes adaptées aux acquisitions de compétences visées. Nos formateurs réalisent ces évaluations tout au long de la formation, que ce soit pendant les séances synchrones ou asynchrones. Voici une liste non exhaustive des méthodes d'évaluation pouvant être utilisées en formation :
- Questionnaire de vérification de connaissances (Quiz)
- Réalisation de Travaux Pratiques : production ou amélioration d'un fichier
- Mises en situation et grilles d'analyse
- Serious Game : jeu de rôles et analyse
- Activités interactives à travers l'utilisation d'une plate-forme connectée
Toutes nos formations intègrent une auto-évaluation via notre Extranet Stagiaire au début et à la fin de chaque action de formation. Cet outil offre à chacun la possibilité de mesurer sa progression par rapport aux objectifs pédagogiques visés et leurs atteintes.
Profil du formateur
Informations sur l'accessibilité
-
Catégorie :
MÉTHODES / LOGICIELS STATISTIQUES & DATA ANALYSE
Sous-Catégorie : Data Mining - Analyses multivariées - Machine Learning - Durée : 28h
-
Prix : 546 € Net de taxePrix INTRA : 6 200 € Net de taxe
-
Satisfaction :
★★★★★★★★★★
- Taux de réussite : - %
- Télécharger le programme
Session sélectionnée
- 12/01/26 → 26/01/26 10 places restantes
-
Détails :
12/01/26 : 9:00 → 12:30 13:30 → 17:00 13/01/26 : 9:00 → 12:30 13:30 → 17:00 14/01/26 : 9:00 → 12:30 13:30 → 17:00 26/01/26 : 9:00 → 12:30 13:30 → 17:00
Prochaines Sessions
- Aucune formation INTER-ENTREPRISE n'est programmée pour le moment. Contactez-nous via le formulaire ou par téléphone au 04 28 95 15 82 afin de connaitre les dates possibles ou les autres modalités d'inscription.
Dans la même catégorie
- Analyses multivariées, classification (ACP, AFC, ACM, CAH, k-means, AFD) Présentiel / à distance
- IA Comprendre un algorithme utilisé en IA type reconnaissance d'image avec Excel Présentiel / à distance
- Initiation au Text Mining Présentiel / à distance
- Machine Learning & Méthodes statistiques appliquées aux processus de classification Présentiel / à distance
- MACHINE LEARNING & STATISTIQUES Erreur des modèles - Sous et sur ajustement Présentiel / à distance
Notre nouveau catalogue est en cours de déploiement. Aussi, pour connaître tous nos indicateurs, veuillez nous contacter directement.
Catalogue de formation propulsé par Dendreo,
logiciel de gestion pour les OF