Pour lire plus d’un million de messages par jour, je pioche dans ma boîte à outils mathématiques. C’est un Lego qui permet de répondre à de nombreuses questions !

Les chercheurs

Guillaume GADEK

CCSTI 'Science Action Normandie'
Informatique

Apprendre à lire un million de tweets chaque jour

 

Guillaume GADEK est jeune chercheur en informatique au laboratoire LITIS*. Il s'intéresse aux réseaux sociaux, tels que Facebook ou Twitter. Il essaie de créer des méthodes pour comprendre les interactions qui y ont lieu entre individus. Plus précisément, Guillaume travaille sur des tweets (les messages du réseau Twitter). Il construit un programme informatique qui « comprend » le message : de quoi ça parle ? Est-ce en bien ou en mal ? Cela permettra d'avoir une vue d’ensemble de toutes les personnes du réseau et de trouver les messages et les individus les plus intéressants.

* Laboratoire d'Informatique, du Traitement de l'Information et des Systèmes

Les réseaux sociaux sont devenus incontournables. Fondé en 2006, Twitter voit passer près de 500 millions de nouveaux messages publics chaque jour ! Impossible de tout lire : il faut utiliser un ordinateur pour faire ce travail.

 De nombreuses entreprises utilisent Twitter tous les jours, notamment pour faire de la publicité. Ces informations pourront être relayées par des clients qui parleront de la marque, en bien ou en mal. Combien de clients parlent de la marque ? Qui sont les concurrents ? Comment lire et comprendre chacun de ces messages automatiquement ? Ces personnes qui « tweetent » sont-elles influentes ?

Guillaume crée un outil informatique appelé « algorithme » pour que les entreprises obtiennent des réponses à ces questions. Pour cela, la première mission de son programme informatique est de trouver automatiquement le sujet d’un message et son opinion. La difficulté principale est qu’un ordinateur ne comprend pas le texte : il ne voit qu’une suite de lettres, sans signification. Une solution consiste à repérer certains mots. Par exemple, “formidable” est souvent présent quand les clients sont satisfaits des produits, alors que “déçu” est nettement négatif. Pour cela, on peut prendre en compte tous les mots du dictionnaire. Mais Guillaume préfère construire son propre dictionnaire, automatiquement !

 Le programme de Guillaume se trompe parfois, et même souvent. Pour l’améliorer, Guillaume « l’entraîne » à lire de nombreux messages et se corriger tout seul pour faire moins d’erreurs : on parle d’apprentissage automatique. Avec cet outil, Guillaume espère identifier les individus les plus intéressants sur le réseau.

 

Objectifs
  • Comprendre l’opinion des messages sur Twitter.
  • Trouver les personnes les plus intéressantes ou influentes sur un thème précis.
  • Étudier les interactions entre individus sur Twitter.