Nous nous appuyons sur du text mining pour analyser vos commentaires

A la fin de chaque café numérique, nous avons beaucoup de commentaires à analyser, entre 400 et 1000 disons, cela varie selon le nombre de participants et la durée de chaque café. Nous avons décidé de nous appuyer sur des compétences en text-mining. Nous avons trouvé il y a maintenant six ans une solution qui nous a séduits parce qu'elle propose une démarche qui nous permette de laisser parler les mots sans codification a priori, découvrir, objectivement, des enseignements dans un corpus. Le corpus d'un café c'est l’ensemble de vos commentaires.

Pratiquement, nous travaillons avec un text-miner. Son prénom est Yves. Il est le créateur de la solution que nous utilisons qui s'appelle Eaagle. 

Comment ça marche

Voici comment ça se passe. A la fin de chaque café, nous téléchargeons un fichier de tous les commentaires au format excel. Après un travail de préparation du fichier (suppression des posts des animateurs, formes conjugées rapportées sur la forme infinitive pour les verbes, pluriels rapportés au singulier pour les noms et les adjectifs, découpage en phrases verbatims, création de fichiers textes de mots : ceux que nous décidons d'ôter, ceux que nous décidons de synonymiser, ceux que nous décidons d'ajouter, souvent là des pairs de mots comme "big data" par exemple, ceux que nous décidons de fixer comme invariants, le mot "donnée" par exemple, fichers que nous appliquons au corpus), nous injectons le fichier préparé et anonymisé dans notre outil logiciel.

Ce logiciel restitue la liste des mots et thèmes fabriqués à partir de repérage de pairs de mots dans les phrases les plus fréquents et une liste de verbatims associés. On obtient environ 50 paires de mots ou thèmes. A partir de là, nous affinons les résultats en regroupant des paires de mots pour donner naissance à des énoncés nommés enseignements. Ce travail-là est manuel au sens où ce n'est pas la machine logicielle qui le fait mais une personne.

Lecture critique et martelage des enseignements

Rendu à cette étape, nous générons deux fichiers excel : un premier qui est le top 10 (disons top entre 8 et 12) des enseignements et le second qui est le top 200 des mots (les 200 premiers mots du café). Nous procédons alors, nous qui avons été aux commandes du café, à un repêchage de mots qui nous semblent être porteurs de sens et que nous ne voyons pas apparaître dans les pairs de mots. En parallèle, nous associons à des enseignements certains de vos commentaires que nous avons relevés au fil de l'animation car ils nous plaisent tout particulièrement. Certains sont si bien écrits et d'autres si amusants ou encore si pertinents que nous nous assurons de leur valorisation. Vous savez, quand nous animons un café, nous tenons un journal dudit café, c'est très important pour bien animer et écrire les textes d'accroches des ateliers à venir.  Un journal ou bien tout simplement l'étoilement des posts au fil de leur lecture. Ce journal ou cet étoilement sont précieux quand vient le moment de l'analyse des contenus. A cette étape, nous échangeons beaucoup ceux qui nous animions le café.

Un souci d’objectivité 

Dans un souci d'objectivité, chaque enseignement est présenté avec un indicateur qui est sa « force du signal ». Une force de signal forte, c'est quand 1. des mots sont présents dans beaucoup de commentaires, 2. des paires de mots sont présentes dans de nombreux commentaires et 3. dans les commentaires où sont présentes les paires de mots, peu ou pas d’autres paires y figurent. Une force de signal faible, c’est quand le signal est plus diffus dans le corpus d’ensemble et dans les commentaires. Il y a un algorythme assez complexe là. Par analogie, si on regarde la mer vers le large, des vagues sont plus grosses que d'autres et certaines sont petites mais claquent. Chaque signal, c'est un peu comme une vague. Une force de signal faible nous intéresse autant qu’une forte parce qu’elle marque une vérité nouvelle qui émerge. Et c’est l’ensemble des enseignements qui fait sens pour agir.

Une volonté de mémoire et de partage

Quand nous sommes satisfaits des énoncés des enseignements et des verbatims associés, bref que nous sommes prêtes à restituer nos résultats, nous les téléchargeons sur une interface web qui nous permet de présenter les enseignements de chaque café. Chaque enseignement, nous avons décidé de le rapporter aussi à un sujet transverse à plusieurs cafés. Ainsi, au fil des cafés, les contenus des sujets s'étoffent. Les posts que nous conservons sont anonymisés. Parmi les sujets il y a par exemple, par ordre alphabétique, applications, … design d'interface, enfants, … mode avion, naviguer sur le web, … smartphone, tablette, vidéo à la lettre V.

Cette démarche nous est bien utile pour discuter avec nos différents interlocuteurs techniques, marketing, vente, concepteurs de service, etc., sur la base de données brutes - ceci vous rappellera nos débats sur l'open data - et pour créer des contenus sur les usages et les innovations.

Un gain de temps

Outre l’efficacité d’analyse et le partage, depuis que nous avons mis en place cette démarche avec Eaagle, nous pouvons aussi dire que nous gagnons du temps.

Voilà, vous savez tout des arcanes de l’analyse de vos commentaires et de la base de connaissance de dream Orange que nous avons mise en place.


Illustration réalisée par André, quand il était collégien et quand nous cherchions une solution de text-mining satisfaisante pour nos usages au Dream Café.