Python - Analyses statistiques

Référence : 2020-STA-N2-PythonStat

La formation en quelques mots

Python est un langage devenu populaire en raison de la simplicité d’écriture et de mise en œuvre des analyses et des programmes, de son accessibilité (environnement open-source), et de son champ d’application complet grâce aux nombreuses librairies qui disposent de fonctions relatives à plusieurs domaines comme la Data Science, la Data Visualisation, le calcul scientifique. Ce langage permet de développer des applications variées.
La formation a pour objectif de permettre aux personnes ayant des bases en programmation Python de se familiariser avec les outils d’analyses statistiques référencés dans les bibliothèques Pandas, NumPy, Statsmodels et SciPy de traitement de données de Python.

Thèmes principaux

  • Python
  • Analyses statistiques
  • Pandas
  • Statsmodels
  • NumPy
  • SciPy

Infos pratiques

  • Durée : 3 jours soit 21 heures
  • Population visée : Data scientists - Analystes - Développeurs
  • Public concerné : Personnes souhaitant maîtriser et se perfectionner en Python sur le volet « analyses statistiques » : Mise en place des analyses statistiques, et interprétation des résultats obtenus.

Programme

Objectifs pédagogiques

A l’issue de cette formation, l’apprenant sera capable de :

  • Utiliser les différents composants de l’interface Python
  • Manipuler et nettoyer les données
  • Réaliser des analyses statistiques de base (statistiques descriptives, tests d’hypothèses), de modélisation et de classification
  • Être capable de récupérer et d’interpréter les résultats issus des fonctions d’analyses statistiques de Python

Pré-requis

Cette formation nécessite de posséder des bases de programmation en Python : Importation et manipulation de données (des rappels seront effectués). Il est également nécessaire que les participant.e.s aient des connaissances de base en statistique.

Objectifs opérationnels et contenu de la formation

Introduction

  • Présentation de Python : Historique
  • Pourquoi utiliser Python ?
  • Le langage de programmation
  • Installation de Python
  • Description de l’environnement et de l’interface de Python

Syntaxe du langage Python

  • Conventions et règles 
  • Définition des blocs et des commentaires
  • Les différents types de données
  • Les variables
  • Les différentes manipulations des types de données de base : numérique et chaîne de caractères
  • Les structures conditionnelles
  • Les opérateurs de comparaisons
  • Les boucles : While et For
  • Les fonctions

Importation de données

  • Chemin d’accès
  • Copier-coller
  • Fichiers Excel

Définition des données en Python

  • Notion de variable
  • Création de variables
  • Les différents types de données en Python
    • Qu’est-ce qu’un « type » de données ?
    • Définition des types de données
  • Quels sont les différents types de manipulation de données en Python ?

La bibliothèque Pandas

  • Présentation et outils de la bibliothèque
  • Importation de la bibliothèque
  • Les différentes structures d’objet

La bibliothèque Statsmodels

  • Présentation et outils de la bibliothèque
  • Importation de la bibliothèque

La bibliothèque NumPy

  • Présentation et outils de la bibliothèque
  • Importation de la bibliothèque

Les DataFrame

  • Définition d’un DataFrame
  • Construction et déclaration d’un DataFrame
  • Caractéristiques d’un DataFrame
    • Type
    • Structure
  • Manipulation des variables
  • Accès et extraction des données
    • Par nom de variable
    • Par les indices
  • Opérations sur les variables

Gestion de données manquantes

  • Recherche des données manquantes
  • Suppression des données manquantes
  • Imputation de données manquantes
  • Remplacement des données manquantes

Analyses statistiques

  • Echantillonnage
  • Statistiques descriptives
  • Tests d’hypothèses
    • Vérification des conditions de validité des tests : Tests d’adéquation
    • Comparaison de deux groupes (tests paramétriques et non-paramétriques)
      • Echantillons indépendants
      • Echantillons appariés
    • Comparaisons multiples (tests paramétriques et non-paramétriques)
      • ANOVA
      • Tests d’hypothèses Post-Hoc
  • Modélisation statistique
    • Analyse de données quantitatives : Régression linéaire simple et multiple
      • Définition du modèle
      • Interprétation des résultats
      • Diagnostic du modèle de régression
      • Détection de colinéarités
      • Prédiction
    • Analyse de données qualitatives : Comparaison de deux et plusieurs groupes de modalités
  • Technique de clustering
    • Classification automatique
      • K-means
      • Classification ascendante hiérarchique 

Méthodes et moyens

  • Explications théoriques suivies de pratiques guidées puis mises en autonomie
  • 1 vidéoprojecteur par salle
  • 1 ordinateur par stagiaire

Méthodes d’évaluation des acquis

  • Exercices de synthèse et d’évaluation
  • Evaluation de fin de stage

Profil formateur

Nos formateurs sont certifiés à l’issue d’un parcours organisé par nos soins. Ils bénéficient d’un suivi de compétences aussi bien au niveau technique que pédagogique.

Support stagiaire

  • Support papier ou électronique (dématérialisé)
  • Les exercices d’accompagnement peuvent être récupérés sur clef USB