Text Mining : l’analyse de sentiments

Article écrit par Anthony DEMOGUE, Consultant, membre de la BCOM Data chez Beijaflore Digital

 

Définition de l’analyse de sentiments

L’analyse de sentiments (Sentiment Analysis ou Opinion Mining) est l’interprétation et la classification des émotions (positives, négatives et neutres) dans les données textuelles à l’aide de techniques d’analyse de texte. L’analyse de sentiments permet aux entreprises d’identifier l’opinion des clients à l’égard des produits, des marques ou des services dans les conversations et les commentaires en ligne.

 

Contexte

L’analyse de sentiment se concentre sur la polarité (positive, négative, neutre), les sentiments et émotions (colère, joie, tristesse, etc.), et même sur les intentions (par exemple, intéressé contre non intéressé). Cela permet donc différents types d’utilisation de cette méthode d’analyse.

  • Exemple d’analyse sur la polarité :
    Le système de notation d’un site de critique de cinéma (Allociné, IMDB, Rotten Tomatoes…)
  • Exemple d’analyse sur les émotions :
    Les retours clients sur le support d’un site internet
  • Exemple d’analyse basée sur l’aspect ou les caractéristiques :
    Une entreprise de construction de vélos peut chercher à connaître les composants du vélo faisant l’objet de critiques (positives ou négatives)

 

Cas d’utilisation de l’analyse de sentiments

Supervision des réseaux sociaux

En tant qu’entreprise, il est essentiel de connaître la façon dont l’extérieur nous perçoit. Utiliser le Sentiment Analysis pour obtenir ces informations peut vous amener à communiquer différemment ou à changer de ligne de conduite. Il peut être tout aussi intéressant d’effectuer ces analyses sans déclencheur particulier – pour connaître l’opinion « en temps normal » – ou encore quand l’entreprise fait une annonce.

Analyse des commentaires clients

Prenons l’exemple d’une entreprise de prêt-à-porter qui vend ses vêtements en ligne par livraison. Lorsqu’un client effectue une commande sur son site internet , il est intéressant d’obtenir son feedback. Cela peut se faire via un questionnaire, ou tout simplement par un texte libre. Utiliser le Sentiment Analysis dans ce cas-là permettra de connaître quel article plaît ou non. En poussant l’analyse, on pourrait même en connaître les raisons.

 

Méthodologies

L’analyse de sentiment utilise plusieurs algorithmes et méthodes de NLP (Natural Language Processing).

Nous pouvons regrouper ces méthodes en trois catégories de systèmes, pouvant être basés sur :

  • un ensemble de règles élaborées manuellement ;
  • des techniques d’apprentissage automatique (Machine Learning) à partir de données ;
  • les deux systèmes précédents (hybride).

 

Système basé sur des règles

On utilise ici un ensemble de règles élaborées par l’Homme pour aider à identifier la subjectivité, la polarité ou le sujet d’un avis.

Il existe de nombreuses techniques développées en text mining :

  • Racinisation d’un mot, étiquette d’un mot, analyse syntaxique
  • Lexique de mots (i.e. liste de mots et d’expressions)

Voici un exemple sur le fonctionnement de ce système en trois étapes :

  1. Définir deux listes de mots polarisés (exemple : des mots négatifs comme « moche », « mauvais », « le pire », et des mots positifs comme « beau », « bien », « le meilleur », etc)
  2. Compter le nombre de mots positifs et négatifs dans un texte donné
  3. S’il y a davantage de mots positifs que négatifs, le texte est considéré positif et inversement. En cas d’égalité, le texte est considéré neutre.

Le principal défaut de ce système est qu’il prend les mots un par un et non par séquence de mots, ce qui n’en fait pas un système fiable. Il faut alors ajouter de nombreuses règles afin d’obtenir un résultat satisfaisant, mais en rendant le système d’autant plus complexe.

 

Système basé sur des techniques d’apprentissage automatique

Dans ce cas, nous ne nous reposons plus sur des règles élaborées mais sur des techniques de Machine Learning.

L’analyse de sentiment peut-être modélisée comme un problème de classification où l’on donne au modèle un texte et où il nous retourne une catégorie (e.g. positif, négatif, neutre).

Tout d’abord, nous allons entraîner notre modèle pour qu’il apprenne à associer une entrée (exemple : un texte) à un résultat (exemple : positif, négatif, neutre). Pour l’entraîner, nous apprenons à notre modèle à prendre un texte le transformer en un vecteur de mots. Ces vecteurs sont ensuite associés à des résultats (catégories) et injectés dans notre modèle.

Nous pouvons ainsi étoffer le modèle et l’utiliser dans des cas pratiques. Dans un exercice de prédiction, où notre modèle ne connaît pas le texte en entrée, notre modèle transforme le texte en un vecteur de mots. Une fois injecté dans notre modèle, il générera un résultat prédit.

 

Système hybride

Les systèmes hybrides combinent les éléments des méthodes basées sur des règles et des techniques automatiques en un seul système. L’un des grands avantages est une plus grande précision des résultats.

 

Les challenges de l’analyse de sentiments

Malgré l’utilisation de systèmes de plus en plus développés, ils restent limités face à la complexité des mots et du cerveau humain. Les scientifiques tentent de développer des classificateurs de sentiments de plus en plus précis, afin de dépasser les limites actuelles.

 

Subjectivité et Ton

Il est tout aussi important d’analyser la subjectivité ou l’objectivité d’un texte que le ton employé. Si l’on regarde ces deux exemples :

Ex 1 : Le papier peint est beau

Ex 2 : Le papier peint est blanc

On peut estimer que le sentiment est positif pour la première phrase et neutre pour la deuxième. Tous les prédicats (adjectifs, verbes, noms…) ne doivent pas être traités de la même façon quand on analyse le sentiment d’une phrase. Ici, le terme “beau” est bien plus subjectif que le terme “blanc”.

 

Contexte et Polarité

Tout propos est tenu dans un certain contexte. Ainsi, analyser le sentiment d’une phrase sans son contexte est une tâche difficile. Or, les machines ne peuvent pas apprendre des contextes s’il ne sont pas mentionnés explicitement. Si l’on prend ces deux phrases :

Ex 1 : Tout !

Ex 2 :  Rien !

Si la question est “Qu’avez-vous aimé ?”, la première réponse sera positive et la deuxième négative. Mais si la question est “Qu’est-ce que vous n’avez pas aimé ?”, le sens des deux réponses change complètement. Le pré-traitement ou le post-traitement seront donc importants afin que la machine comprenne le contexte ayant pu causer certaines réponses. Néanmoins, cela reste une tâche difficile.

 

Ironie et Sarcasme

Analyse de sentiments : ironie

Source : gunshowcoming.com/648

Dans le cas de l’ironie et du sarcasme, les gens expriment leurs sentiments négatifs en utilisant des mots positifs, ce qui peut être difficile à détecter par les machines sans avoir une compréhension approfondie du contexte dans lequel un sentiment a été exprimé.

Par exemple, si l’on prend la réponse à la question :

“Avez-vous apprécié votre expérience sur notre site ?”

“Oui, bien sûr ! Il n’y a aucun bug !”

Ici, aux premier abord, il semblerait que la réponse soit positive. Cependant, on pourrait très bien y voir de l’ironie et comprendre le contraire. Le problème est que l’on ne possède aucun indice textuel pouvant aider la machine à apprendre ou, au moins, se questionner sur le véritable sentiment derrière cette phrase.

 

Conclusion

Le Machine Learning, nouvel outil pour utiliser de la donnée, n’est pas encore déployé à son plein potentiel. Néanmoins, l’avancée technologique de cette méthode permet de découvrir de nouveaux cas d’études et de nouvelles opportunités. Une fois comprise par le plus grand nombre d’entreprises, l’analyse de sentiments permettra de mieux comprendre les clients, et donner de nouvelles perspectives aux équipes afin d’obtenir un travail de meilleure qualité et plus productif.

Aujourd’hui, l’image qu’a une entreprise est très importante. Les répercussions d’une mauvaise image peuvent se manifester très rapidement, notamment avec les réseaux sociaux. Les consultants Data de Beijaflore sont spécialisés dans ces nouvelles technologies utilisant l’intelligence artificielle et la data science. Utiliser l’analyse de sentiments peut aider à surveiller et contrôler l’image d’un client ou d’une entité.

 

 

Sources