Big Data - Méthodes statistiques pour les données massives

Référence : STAT-N2-BigData

La formation en quelques mots

Cette formation s'adresse à des personnes souhaitant découvrir les nouvelles méthodes statistiques pour l’analyse des données massives (big data). Les deux principaux aspects des big data qui seront abordés sont le volume des données ainsi que leur variété. En particulier, nous nous intéresserons aux problèmes de grande dimension où le nombre de variables est grand devant le nombre d’observations. Les méthodes de régression, classification et clustering spécifiques à la grande dimension seront abordées. 
Concernant la variété des données, nous verrons comment prendre en charge dans une tâche d’apprentissage des données de natures différentes.
La mise en application sera réalisée sous le logiciel R.

Thèmes principaux

  • Données en grande dimension
  • Données de nature hétérogènes
  • Classification
  • Régression
  • Clustering

Jeux de données

Afin de s'approcher au mieux des réalités quotidiennes des praticiens, nous suggérons de nous appuyer pour l'animation pratique de thématiques et surtout de jeux de données reflétant le quotidien des apprenants.
Ce souhait est un facteur de réussite pour la formation. Elle permet aux apprenants de :

  • Se "reconnaitre" dans les thèmes abordés, 
  • Mieux percevoir l'intérêt des notions étudiées 
  • S'approprier le contenu de la formation

Il sera donc pertinent que les apprenants puissent réfléchir en amont de la formation à des problématiques, jeux de données ou documents susceptibles d’être utilisés en support lors de la formation.

Outil logiciel

Cette formation n’est pas dédiée à la pratique d’un logiciel particulier mais nous proposons de nous appuyer sur le logiciel R pour les exercices et les illustrations. 

Infos pratiques

  • Durée : 3 jours soit 21 heures
  • Tarif public intra : à partir de 1450 € / jour
  • Tarif public inter : 750 € / jour / personne
  • Population visée : Cadre – Chercheur – Etudiant
  • Public concerné : Statisticiens et data miner souhaitant se mettre à jour sur les dernières méthodes statistiques pour les données massives (Big Data).

Programme

Objectifs pédagogiques

A l’issue de cette formation, l’apprenant sera capable de :

  • Réaliser une analyse de régression lorsque les données sont en grande dimension
  • Réaliser un clustering en utilisant des modèles parcimonieux spécifiques à la grande dimension
  • Réaliser une étude de classification sur des données de grande dimension
  • Effectuer une sélection des variables pertinentes
  • Effectuer ces analyses sous le logiciel R
  • Extraire de l’information sur la problématique métier à partir des résultats de l’analyse

Pré-requis

L’apprenant devra avoir des notions avancées en statistique (inférence, clustering, régression, classification), ainsi que des notions de R.

Objectifs opérationnels et contenu de la formation

Introduction au Big Data

  • Les grandes évolutions de la statistique 
  • Les 3 V : Volume, Variété, Vélocité
  • Les problèmes que cela engendre pour les techniques classiques

Big Data et Régressions

  • Illustration de la problématique de la grande dimension
  • Méthode de sélection de variables
  • Méthodes de projection
  • Méthodes de régularisation
  • Comparaison de méthodes
  • Régression sur données non quantitatives

Apprentissage non supervisé (clustering)

  • Illustration de la problématique de la grande dimension
  • Modèle de mélange parcimonieux
  • Algorithme EM
  • Sélection de modèles 
  • Sélection de variables
  • Prise en compte de données hétérogènes

Apprentissage supervisé

  • Illustration de la problématique de la grande dimension 
  • Sélection de variables
  • Méthodes de projection
  • Méthodes de régularisation
  • Comparaison de méthodes
  • Prise en compte de données hétérogènes

Méthodes et moyens

  • Explications théoriques suivies de pratiques guidées puis mises en autonomie
  • 1 vidéoprojecteur par salle
  • 1 ordinateur par stagiaire

Méthodes d’évaluation des acquis

  • Exercices de synthèse et d’évaluation
  • Evaluation de fin de stage

Profil formateur

Nos formateurs sont certifiés à l’issue d’un parcours organisé par nos soins. Ils bénéficient d’un suivi de compétences aussi bien au niveau technique que pédagogique.

Support stagiaire

  • Support papier ou électronique (dématérialisé)
  • Les exercices d’accompagnement peuvent être récupérés sur clef USB