Python - Méthodes de Machine Learning

Référence : 2020-STA-N2-PythonML

La formation en quelques mots

Python est un langage devenu populaire en raison de la simplicité d’écriture et de mise en œuvre des analyses et des programmes, de son accessibilité (environnement open-source), et de son champ d’application complet grâce aux nombreuses librairies qui disposent de fonctions relatives à plusieurs domaines comme la Data Science, la Data Visualisation, le calcul scientifique. Ce langage permet de développer des applications variées.
La formation a pour objectif de permettre aux personnes ayant des bases en programmation Python de se familiariser avec les outils de Machine Learning référencés dans la bibliothèque Scikit-learn. Notamment, elle permettra aux participant.e.s de comprendre comment créer un modèle de données, de l’évaluer et de l’optimiser dans un objectif de prédiction. 

Thèmes principaux

  • Python
  • Machine Learning
  • Scikit-learn
  • Modèles de prédiction

Infos pratiques

  • Durée : 3 jours soit 21 heures
  • Population visée : Data scientists – Analystes – Développeurs – Informaticiens
  • Public concerné : Personnes souhaitant maîtriser et se perfectionner en Python sur le volet Machine Learning : Modéliser, explorer et classifier ses données.

Programme

Objectifs pédagogiques

A l’issue de cette formation, l’apprenant sera capable de :

  • Utiliser les différents composants de l’interface Python
  • Connaître les avantages et inconvénients du Machine Learning
  • Mettre en place les méthodes de Machine Learning avec les outils de Scikit-learn dans un objectif de prédiction
  • Construire un modèle prédictif
  • Evaluer la performance d’un modèle et ses erreurs
  • Optimiser un modèle

Pré-requis

Cette formation nécessite de posséder des bases de programmation en Python : Importation et manipulation de données (des rappels seront effectués). Il est également nécessaire que les participant.e.s aient des connaissances de base en statistique.

Objectifs opérationnels et contenu de la formation

Introduction

  • Présentation de Python : Historique
  • Pourquoi utiliser Python ?
  • Le langage de programmation
  • Installation de Python
  • Description de l’environnement et de l’interface de Python

Présentation du Machine Learning

  • Qu’appelle-t-on Machine Learning ?
  • Pourquoi faire du Machine Learning, dans quel contexte ?
  • Définition des problèmes d’apprentissage : classification et régression
  • Exemples de projets/problématiques de Machine Learning
  • Quelles sont les méthodes de Machine Learning ?

Syntaxe du langage Python

  • Conventions et règles 
  • Définition des blocs et des commentaires
  • Les différents types de données
  • Les variables
  • Les différentes manipulations des types de données de base : numérique et chaîne de caractères
  • Les structures conditionnelles
  • Les opérateurs de comparaisons
  • Les fonctions

Définition des données en Python

  • Notion de variable
  • Création de variables
  • Les différents types de données en Python
    • Qu’est-ce qu’un « type » de données ?
    • Définition des types de données
  • Quels sont les différents types de manipulation de données en Python ?

La bibliothèque Scikit-learn

  • Présentation et outils de la bibliothèque
  • Importation de la bibliothèque

Création de modèles prédictifs

  • Différentes techniques d’apprentissage : Méthode des K-NN (K plus proches voisins) et arbre de décision
  • Création d’un modèle d’apprentissage avec les outils de Scikit-learn

Analyse de modèles prédictifs

  • Evaluation de la performance d’un modèle 
    • Critères de performance 
    • Procédure d’évaluation
  • Les différents critères d’évaluation de performance d’un modèle
    • Accuracy
    • Matrice de confusion et de coût (classification)
    • Indicateurs d’écarts : Analyse des résidus
      • MSE (Erreur quadratique moyenne)
      • MAPE
  • Analyse des erreurs individuelles

Optimisation de modèles prédictifs

  • Définition des potentiels risques liés aux modèles prédictifs : Risques de sous-apprentissage et de sur-apprentissage
  • Ajustement / calibration du modèle pour éviter les risques de sous-apprentissage et de sur-apprentissage
  • Amélioration de la capacité de prédiction d’un modèle : Réalisation d’un ensemble de modèles. Cas des arbres de décisions - Forêts aléatoires (Random Forest)
  • Optimisation de la classification
  • Procédure de validation croisée
  • Evaluation et recherche des meilleurs paramètres d’un modèle

Méthodes et moyens

  • Explications théoriques suivies de pratiques guidées puis mises en autonomie
  • 1 vidéoprojecteur par salle
  • 1 ordinateur par stagiaire

Méthodes d’évaluation des acquis

  • Exercices de synthèse et d’évaluation
  • Evaluation de fin de stage

Profil formateur

Nos formateurs sont certifiés à l’issue d’un parcours organisé par nos soins. Ils bénéficient d’un suivi de compétences aussi bien au niveau technique que pédagogique.

Support stagiaire

  • Support papier ou électronique (dématérialisé)
  • Les exercices d’accompagnement peuvent être récupérés sur clef USB