Text Mining - Initiation

Référence : STAT-N2-TextMining

La formation en quelques mots

Cette formation s'adresse à des personnes souhaitant extraire de l’information de grandes bases de données textuelles. Elle a pour objectif de faire découvrir le Text Mining, en adoptant une approche essentiellement statistique. Pour cela, après avoir présenté les spécificités des données textuelles, les principales méthodes de représentation ainsi que les pré-traitements indispensables seront présentés. Ensuite, les principales applications du Data Mining seront abordées : visualisation, apprentissage supervisé (classification de documents) et non supervisé (extraction de thématiques). 
Les différentes notions seront illustrées à l’aide d’applications sur données réelles sous le logiciel R.

Thèmes principaux

  • Spécificité des données textuelles
  • Principales applications du Text Mining
  • Représentation des données textuelles
  • Pré-traitements
  • Recherche d’informations
  • Apprentissage supervisé et non supervisé sur données textuelles

Outil logiciel

Cette formation n’est pas dédiée à la pratique d’un logiciel particulier mais nous proposons de nous appuyer sur le logiciel R pour les exercices et les illustrations. 
 

Infos pratiques

  • Durée : 2 jours soit 14 heures
  • Tarif public intra : à partir de 1450 € / jour
  • Tarif public inter : 750 € / jour / personne
  • Population visée : Technicien – Employé – Cadre – Chercheur – Etudiant
  • Public concerné : Toute personne souhaitant découvrir le Text mining et sa mise en application sous R.

Programme

Objectifs pédagogiques

A l’issue de cette formation, l’apprenant sera capable de :

  • Importer une base de données textuelles sous R
  • Représenter les données textuelles sous un format approprié
  • Préparer les données en effectuant les principaux pré-traitements spécifiques aux données textuelles
  • Visualiser les données textuelles
  • Effectuer une recherche d’informations
  • Effectuer une classification de documents (apprentissage supervisé)
  • Extraire des thématiques d’une base de données textuelles (apprentissage non supervisé)

Pré-requis

L’apprenant devra avoir des notions de bases en statistique (statistique descriptive, estimation), en Data Mining (apprentissage supervisé, non supervisé, ACP) ainsi que des notions de R.

Objectifs opérationnels et contenu de la formation

Introduction au Text Mining

  • Contexte
  • Exemple de données
  • Application du Text Mining

Particularité des données textuelles

  • Multiplicité des représentations
  • Fléau de la dimension
  • Subjectivité des données

Représentations des données textuelles

  • Sac de mots
  • Vectorisation

Pré-traitements

  • Tokenization
  • Nettoyage (majuscule, nombre, ponctuations…)
  • Stopwords
  • Stemming

Visualisation

  • Histogramme
  • Nuage de mots

Recherche d’informations

  • Comparaison de textes
  • Pondération des termes (TF-IDF…)
  • Text ranking

Application du text mining

  • Recherche d’information
  • Classification de documents
  • Analyse de sentiments
  • Classification de documents
  • Extraction de thématiques avec le modèle LDA

Méthodes et moyens

  • Explications théoriques suivies de pratiques guidées puis mises en autonomie
  • 1 vidéoprojecteur par salle
  • 1 ordinateur par stagiaire

Méthodes d’évaluation des acquis

  • Exercices de synthèse et d’évaluation
  • Evaluation de fin de stage

Profil formateur

Nos formateurs sont certifiés à l’issue d’un parcours organisé par nos soins. Ils bénéficient d’un suivi de compétences aussi bien au niveau technique que pédagogique.

Support stagiaire

  • Support papier ou électronique (dématérialisé)
  • Les exercices d’accompagnement peuvent être récupérés sur clef USB