Cartographie des controverses : Parcoursup
Constitution du corpus
La méthodologie pour constituer un corpus de tweets exploitables à été collecter les tweets identifiés par le mot-dièse #Parcoursup à partir du 14 mai jusqu’en septembre en utilisant Twarc (une librairie Python dédiée à l'interaction avec Twitter) et l’API Search de Twittter qui permet d’accéder aux tweets et aux métadonnées liées sur la plateforme (l’API ne fournit pas l’intégralité des tweets publiés, elle est régie par des critères propres à Twitter et non connus).
pip install twarc
from twarc import Twarc
t = Twarc (consumer_key, consumer_secret, access_token, access_token_secret)
twarc filter #Parcoursup AND #Parcoursup > stream. jsonl
% utils/network.py --users tweets. jsonl tweets.gexf
Les tweets (mais aussi les retweets, réponses mentions) ainsi récoltés au format. json (Javascript Object Notation) peuvent être également exportés au format .csv (comma-separated values texte séparé par des virgules) pour plus de lisibilité et facilité de réutilisation avec :
--output=csv
Le fichier obtenu est structuré sous la forme :
id_str | l’identifiant du tweet |
from_user | nom de l’utilisateur |
text | le contenu du tweet |
created_at/time | la date de création du Tweet |
geo coordinates | les coordonnées GPS si renseigné |
user_lang | la langue du client Twitter de l’auteur du tweet |
in_reply_to_user_id_str | L’identifiant de l’utilisateur auquel est adressé le tweet |
in_reply_to_screen | nom de l’utilisateur auquel est adressé le tweet |
name from_user_id_str | identifiant de l’utilisateur auquel est adressé le tweet |
in_reply_to_status_id_str | identifiant du tweet cité |
source | adresse de l’image de profil de l’utilisateur |
profile_image_url | adresse de l’image de profil de l’utilisateur |
user_followers_count | Nombre d’abonnés de l’utilisateur |
user_friends_count | nombre de comptes suivis par l’utilisateur |
user_location | localisation du profil de l’utilisateur |
status_url | adresse du tweet |
Le fichier csv récolté du mai à juin 2018 comporte 385386 enregistrements uniques (tweets, retweets réponses et mentions).