Text Mining : le résumé automatique de contenus

Article écrit par Leonor DIAZ DE ENTRESOTOS MARI, Associate Consultant, membre de la BCOM Data chez Beijaflore Digital

 

Le résumé automatique de contenus fait référence à la technique de raccourcissement de longues portions de texte.

L’intention est de créer un résumé cohérent et fluide ne contenant que les principaux points exposés dans le document. La synthèse automatique de texte est donc un problème courant dans l’apprentissage automatique et le traitement du langage naturel (NLP).

Le but est de remplacer le texte original afin d’inciter le lecteur à lire le contenu, en en ayant une idée claire.

 

Contexte

Qu’est-ce qu’un résumé ?

On peut distinguer en deux types de résumés :

  • le résumé informatif, qui a pour but de remplacer le texte d’origine ;
  • le résumé indicatif, qui sert de support, par exemple un en-tête ou l’abstract d’un article.

Pourquoi automatiser le résumé ?

Selon de nombreuses analyses menées sur des articles (Reuters par exemple), la fréquence de lecture est étroitement liée à la taille du texte. Souvent, le résumé est le seul élément à être lu. De plus, la rédaction de résumé représente un travail humain assez important et engendre un coût.

 

Cas d’utilisation du résumé automatique de contenus

Il existe de nombreux cas d’usage pour le résumé automatique, dont voici quelques exemples. Le plus général est tout simplement la simplification de la lecture.

Dans le domaine scolaire, cette technique peut promouvoir le e-learning. Par exemple, un cas courant est d’utiliser cette méthode comme aide aux enseignants pour la conception de nouveaux sujets.

Dans le contexte éditorial, on peut retrouver la rédaction du résumé de livres, romans ou autres. Cette tâche est encore manuelle et difficile à réaliser. En automatisant le résumé et le rendant encore plus qualitatif, on poussera le consommateur à acheter plus rapidement car il en saura davantage sur le sujet, à l’avance.

Dans le domaine scientifique, on retrouve beaucoup d’usages spécifiques. Un usage très pertinent serait le ciblage d’informations clés dans des rapports pour une rapide prise de connaissance des idées d’un texte (médical, patients, marché financier, etc…). Par exemple : recenser tout l’historique médical d’un patient à destination d’un médecin. Le praticien pourra prendre en charge le patient avec une vision globale de son dossier.

Si l’on se réfère à un sujet d’actualité, on retrouve l’automatisation des Bots. L’automatisation de texte est souvent une étape clé dans le processus d’optimisation des Chatbots (réponses, recherches, etc…).

Un autre domaine où cette technique n’est pas encore très utilisée est l’optimisation de code informatique, en tant qu’aide aux développeurs à simplifier ou optimiser leur code afin d’augmenter la performance de leur application.

Enfin, pour le Marketing, on peut retrouver les cas d’usages les plus courants : résumé d’articles, contenu ou blogs résumés pour faciliter le partage sur les réseaux sociaux et ainsi stimuler les campagnes de communication.

 

Méthodologies

Actuellement, il existe deux méthodes de Text mining principales pour faire de l’automatisation de résumé :

  • Les méthodes de résumé de texte extractif fonctionnent en identifiant les phrases ou extraits importants du texte et en les reproduisant textuellement dans le cadre du résumé. Ainsi, aucun nouveau texte n’est généré : seul le texte existant est utilisé dans le processus de synthèse.
  • Les méthodes de résumé de texte abstrait utilisent des techniques de traitement du langage naturel plus puissantes pour interpréter le texte et générer un nouveau texte de résumé, au lieu de sélectionner les extraits existants les plus représentatifs pour effectuer la synthèse.

Méthodes du résumé automatique de texte (Source : Matthew Mayo, KDnuggets)

Les méthodes abstraites ont une meilleure performance, mais sont bien plus complexes à concevoir.

 

Comment fonctionne un algorithme de résumé automatique de contenus ?

Habituellement, l’automatisation de résumé NLP est traitée comme un problème d’apprentissage automatique supervisé, c’est-à-dire que les résultats futurs sont prédits en fonction des données fournies.

Voici un exemple d’algorithme basé sur l’extraction pour résumer un texte :

  1. Utiliser une méthode pour extraire les phrases clés d’un document source. Par exemple, utiliser le taggage d’une partie du discours, des séquences de mots ou d’autres modèles linguistiques pour identifier les phrases clés.
  2. Rassembler des documents texte avec des phrases clés étiquetées positivement. Les phrases clés doivent être compatibles avec la technique d’extraction choisie. Pour augmenter la précision, on peut par ailleurs créer des phrases clés étiquetées négativement.
  3. Former un classificateur binaire d’apprentissage automatique pour réaliser la synthèse de texte. Les fonctionnalités peuvent inclure :
    • Longueur de la phrase clé ;
    • Fréquence de la phrase clé ;
    • Mot le plus récurrent de la phrase clé ;
    • Nombre de caractères dans la phrase clé.
  4. Enfin, dans la phrase de test, créer tous les mots et toutes les phrases de la phrase-clé et procéder à leur classification.

 

Exemple de fonctionnement d’un algorithme de Text Mining – TextRank (Source : Chuanrong Li, Licor’s Space)

 

Conclusion

L’automatisation de résumé de texte reste encore peu utilisée. Pourtant, cette technique présente de nombreux avantages pour différents utilisateurs, quelle que soit leur discipline, et peut permettre de gagner un temps précieux par rapport à un traitement manuel.

Grâce à son expertise en Text mining, Beijaflore est capable d’accompagner ses clients dans leurs projets liés à la donnée textuelle et à l’Intelligence Artificielle. Cette méthode est fréquemment utilisée dans la conception de Chatbots, dans laquelle le cabinet a une forte expertise. Cela nous permet donc de répondre aux besoins de nos clients, tant au niveau métier que technique.

 

 

Sources