Twitter : collecte de données, analyse de réseau à propos de la loi foncière

Lecube a réalisé pour Adrien Baysse-Lainé, chercheur en géographie du laboratoire PACTE, un travail de collecte de données et d’analyse réseau twitter. Le sujet porte sur l’activité twitter autour du projet de loi foncière en France entre 2017 et 2021.

La collecte des données

Pour réaliser cette collecte, nous avons utilisé le langage de programmation R et la bibliothèque « rtweet » pour effectuer les différentes requêtes twitter.

L’extraction de données twitter a demandé plusieurs opérations afin d’écarter les discussions sur des lois foncières d’autres pays francophones, notamment africains. Nous les avons pour cela traités de manière semi-automatisée à partir de mots-clés, que nous avons complété par une liste noire d’utilisateurs twitter.

Le jeu de données final contient 2 415 tweets, sur 3 349 à l’origine. Chaque tweet est accompagné de nombreuses informations comme leur auteur, nature (retweet, citation, réponse) ou date.

Jeu de données issue de la collecte twitter
Jeu de données issue de la collecte twitter

L’analyse réseau

A partir de ces données collectées et nettoyées, nous avons réalisé un graphe. A l’aide d’un logiciel comme Gephi, il est facile d’explorer et d’analyser le réseau.

réseau représentant l'activité autour du projet de loi foncière sur twitter
réseau représentant l’activité autour du projet de loi foncière sur twitter

Pour construire ce réseau, nous avons transposé les données collectées en deux tables. Les nœuds représentent les acteurs, et les liens expriment les interactions entre lesdits acteurs. Pour chaque retweet, citation ou réponse, nous disposons de deux acteurs et d’une relation. Cette structure réseau fait seulement apparaître (en tant qu’interaction) les tweets connectés à d’autres tweets.  Dans cette configuration, plus d’une centaine de tweets « isolés » seraient invisibilisés dans l’analyse réseau, fautes de connexion avec d’autres acteurs.

réseau représentant uniquement les interactions classiques entre utilisateurs twitters
Ce réseau est constitué autour des interactions twitters (retweet, citation, réponse).

Dans cette première version, le réseau s’appuie sur un seul type de nœuds : les utilisateurs twitter. Nous avons ajouté un type supplémentaire de nœuds, représentant les mots-clés utilisés pour collecter les données (« loi foncière » et « #loifonciere »). Il devient possible de visualiser dans le réseau l’ensemble de l’activité twitter autour du sujet.

réseau représentant la totalité de la discussion twitter
Ajout des liens connectés au sujet.

Pour être exhaustif, nous avons complété les types de nœud en intégrant les citations d’URL externes afin d’englober les articles de presse dans le réseau.

exemple de l'ajout des acteurs externes et de leurs interactions avec les acteurs internes au réseau.
Le noeud orange est un média. Les noeuds violets sont les acteurs citant un article de ce média.

A l’aide des dates disponibles dans les données twitter il est possible de lire et manipuler, chronologiquement le réseau.

chronologie, cumulative, année par année de la discussion twitter autour de la loi foncière.
Evolution année par année de la discussion twitter sur la loi foncière (2017-2021)

Pour plus de flexibilité, nous avons produit et fourni un script, dans le langage R. Il offre différents paramètres permettant d’adapter le réseau (types de nœuds, liens, date) à l’échelle d’analyse souhaitée. Nous avons accompagné ce travail d’une documentation détaillée, sur la méthodologie et sur le fonctionnement de notre script.