Twitter : collecte de données, analyse de réseau à propos de la loi foncière
Lecube a réalisé pour Adrien Baysse-Lainé, chercheur en géographie du laboratoire PACTE, un travail de collecte de données et d’analyse réseau twitter. Le sujet porte sur l’activité twitter autour du projet de loi foncière en France entre 2017 et 2021.
La collecte des données
Pour réaliser cette collecte, nous avons utilisé le langage de programmation R et la bibliothèque « rtweet » pour effectuer les différentes requêtes twitter.
L’extraction de données twitter a demandé plusieurs opérations afin d’écarter les discussions sur des lois foncières d’autres pays francophones, notamment africains. Nous les avons pour cela traités de manière semi-automatisée à partir de mots-clés, que nous avons complété par une liste noire d’utilisateurs twitter.
Le jeu de données final contient 2 415 tweets, sur 3 349 à l’origine. Chaque tweet est accompagné de nombreuses informations comme leur auteur, nature (retweet, citation, réponse) ou date.
L’analyse réseau
A partir de ces données collectées et nettoyées, nous avons réalisé un graphe. A l’aide d’un logiciel comme Gephi, il est facile d’explorer et d’analyser le réseau.
Pour construire ce réseau, nous avons transposé les données collectées en deux tables. Les nœuds représentent les acteurs, et les liens expriment les interactions entre lesdits acteurs. Pour chaque retweet, citation ou réponse, nous disposons de deux acteurs et d’une relation. Cette structure réseau fait seulement apparaître (en tant qu’interaction) les tweets connectés à d’autres tweets. Dans cette configuration, plus d’une centaine de tweets « isolés » seraient invisibilisés dans l’analyse réseau, fautes de connexion avec d’autres acteurs.
Dans cette première version, le réseau s’appuie sur un seul type de nœuds : les utilisateurs twitter. Nous avons ajouté un type supplémentaire de nœuds, représentant les mots-clés utilisés pour collecter les données (« loi foncière » et « #loifonciere »). Il devient possible de visualiser dans le réseau l’ensemble de l’activité twitter autour du sujet.
Pour être exhaustif, nous avons complété les types de nœud en intégrant les citations d’URL externes afin d’englober les articles de presse dans le réseau.
A l’aide des dates disponibles dans les données twitter il est possible de lire et manipuler, chronologiquement le réseau.
Pour plus de flexibilité, nous avons produit et fourni un script, dans le langage R. Il offre différents paramètres permettant d’adapter le réseau (types de nœuds, liens, date) à l’échelle d’analyse souhaitée. Nous avons accompagné ce travail d’une documentation détaillée, sur la méthodologie et sur le fonctionnement de notre script.