Text Mining : Le machine learning sur les données textuelles

Article écrit par Anthony DEMOGUE, Leonor DIAZ DE ENTRESOTOS MARI et Julien MILON, membres de la BCOM Data chez Beijaflore Digital.

1. Le Text Mining, késako ?

Le Text Mining fait partie intégrante des sciences regroupées dans la data science, et donc dans l’IA.
C’est un ensemble de méthodes, techniques d’analyse linguistique et outils utilisés pour manipuler et traiter de la donnée textuelle. Il s’agit surtout de données non structurées, non référencées dans une base de données. Ces données ne sont donc pas interprétables par des machines. Il existe différents types de données textuelles : textes écrits, Word, emails, Powerpoint, etc…
On appelle également cette technologie l’analyse textuelle. Toutefois certaines personnes établissent une distinction entre les deux termes. En effet, l’analyse textuelle fait référence à l’application utilisant des techniques de Text Mining pour trier les ensembles de données.
Le développement de plateformes Big Data et du Deep Learning permet maintenant d’analyser des ensembles massifs de données non structurées. Cela a rendu le Text Mining plus pratique pour les Data Scientists et autres utilisateurs.

 

Une technologie qui ne date pas d’hier

L’utilisation de l’informatique pour appliquer des techniques d’analyse textuelle n’est pas récente. En 1957 existait déjà l’automatisation de résumé de texte pour un article ! Avant même la naissance du terme Business Intelligence ! (« The Automatic Creation of Literature Abstracts » par Hans Peter Luhn). Cet article décrit comment un ordinateur IBM704 (sorti en 1954) part d’un article pour constituer un résumé. A l’époque certaines des méthodes mathématiques encore utilisées aujourd’hui (ex : fréquence des mots) avaient été utilisées.

Conjointement, le Text Mining et l’analyse textuelle aident les organisations à trouver des informations commerciales potentiellement précieuses dans les documents d’entreprise, les e-mails des clients, les journaux des centres d’appels, les commentaires des enquêtes textuelles, les publications sur les réseaux sociaux, les dossiers médicaux et d’autres sources de données textuelles. Par ailleurs, il est de plus en plus fréquent d’utiliser des capacités de Text Mining dans les chatbots IA et les agents virtuels. Les entreprises utilisent ces outils pour fournir des réponses automatisées aux clients dans le cadre de leurs opérations de marketing, de vente et de service client.

 

2. Le Text Mining, comment ça marche ?

Le Text Mining est de nature similaire au Data Mining (notion qui revient souvent lorsqu’on parle Big data). La différence est qu’il met l’accent sur le texte plutôt que sur des formes de données plus structurées. Cependant, l’une des premières étapes du processus de Text Mining consiste à organiser et structurer les données afin de pouvoir les soumettre à une analyse à la fois qualitative et quantitative.

Cela implique généralement l’utilisation des algorithmes NLP (natural language processing), qui appliquent les principes de la linguistique informatique pour analyser et interpréter les ensembles de données.

Le travail initial comprend la catégorisation, le regroupement et le marquage du texte, résumer les ensembles de données, créer des taxonomies et extraire des informations sur des éléments tel que la fréquence des mots et les relations entre les entités de données. Des modèles analytiques sont ensuite exécutés pour générer des résultats pouvant aider à conduire des stratégies commerciales et actions opérationnelles.

Par le passé, les algorithmes de NLP étaient basés sur des modèles statistiques ou des règles indiquant ce qu’il fallait rechercher dans les ensembles de données. Au milieu des années 2010, cependant, des modèles de Deep Learning fonctionnant de manière moins supervisée sont apparus. Ils proposent une approche alternative pour l’analyse de texte et d’autres applications d’analyse avancées impliquant de grands ensembles de données. Le Deep Learning utilise des réseaux de neurones pour analyser les données à l’aide d’une méthode itérative plus flexible et intuitive que l’apprentissage automatique conventionnel.
Les outils d’exploration de texte sont désormais mieux équipés pour découvrir les similitudes et associations sous-jacentes dans les données textuelles. Par exemple, un modèle non supervisé pourrait organiser les données de documents texte ou d’e-mails dans un groupe de sujets sans aucune aide d’un analyste.

 

3. Cas d’application du Text Mining

L’analyse de sentiment ou recherche d’opinion est l’une des applications la plus utilisée du Text Mining. Elle peut suivre l’opinion des clients à propos d’une entreprise. Elle extrait le texte des critiques en ligne, des réseaux sociaux, des e-mails et d’autres sources de données pour identifier les points communs qui indiquent si des sentiments sont positifs ou négatifs de la part des clients. Ces informations peuvent être utiles pour résoudre les problèmes liés aux produits, améliorer le service client ou planifier de nouvelles campagnes marketing.

IL existe d’autres utilisations courantes de l’exploration de texte :

  • la sélection des candidats à l’emploi en fonction du libellé de leur curriculum vitae,
  • le blocage des courriers indésirables,
  • la classification du contenu du site Web,
  • le signalement des réclamations d’assurance pouvant être frauduleuses,
  • l’analyse des descriptions des symptômes médicaux pour faciliter les diagnostics
  • l’examen des documents d’entreprise dans le cadre de processus de découverte électronique.

Les logiciels d’extraction de texte offrent également des capacités de récupération d’informations similaires à celles des moteurs de recherche et des plates-formes de recherche d’entreprise. Toutefois ce n’est généralement qu’un élément des applications du Text Mining de plus haut niveau, et non une utilisation en soi.

Les chatbots répondent aux questions sur les produits et gèrent les tâches de base du service client. Ils le font en utilisant le Natural Language Understanding (NLU). Cette sous-catégorie du NLP aide les robots à comprendre la parole humaine afin qu’ils puissent répondre de manière appropriée.
Le Natural Language Generation (NLG), autre technologie connexe, extrait des documents, images et autres données puis crée du texte brut. Par exemple, ces algorithmes sont utilisés pour rédiger des descriptions de quartiers pour les annonces immobilières. On peut également obtenir des explications d’indicateurs de performance clés suivis par les systèmes de veille économique.

 

4. Avantages

La recherche d’opinion via Text Mining peut aider les entreprises à détecter les problèmes liés aux produits et aux affaires. Cela permet de les résoudre avant qu’ils ne deviennent de gros problèmes et affectent les ventes. Faire du Text Mining dans les avis clients et les communications peut également identifier les nouvelles fonctionnalités souhaitées pour renforcer les offres de produits. L’expérience client globale en est améliorée ce qui, espérons-le, entraînera une augmentation des revenus et des bénéfices.

Cette science peut également aider à prédire le taux de désabonnement des clients. Les entreprises peuvent alors prendre des mesures pour éviter les résiliations potentielles de contrats vers des concurrents commerciaux. La détection de fraude, la gestion des risques, la publicité en ligne et la gestion de contenu Web sont d’autres fonctions qui peuvent bénéficier de l’utilisation d’outils de Text Mining.
Dans le domaine de la santé, cela peut aider à diagnostiquer les pathologies des patients en fonction des symptômes signalés.

 

5. Encore un gros challenge

Le Text Mining peut être compliqué car les données sont souvent vagues, incohérentes et contradictoires. Les différences de syntaxe et de sémantique, ainsi que de l’utilisation de l’argot, du sarcasme, des dialectes régionaux et du langage technique spécifique aux industries verticales individuelles compliquent les analyses. Par conséquent, les algorithmes de text mining sont en constante évolution pour faire face à ces ambiguïtés et incohérences lors de l’analyse.

Grâce à son expertise sur les méthodes de Data Science, Beijaflore est capable d’accompagner ses clients dans leurs projets liés à la donnée textuelle et à l’Intelligence Artificielle à chaque niveau d’expertise métier et technique.

 

Sources