Cartographie des controverses : Parcoursup

Constitution du corpus


La méthodologie pour constituer un corpus de tweets exploitables à été collecter les tweets identifiés par le mot-dièse #Parcoursup à partir du 14 mai jusqu’en septembre en utilisant Twarc (une librairie Python dédiée à l'interaction avec Twitter) et l’API Search de Twittter qui permet d’accéder aux tweets et aux métadonnées liées sur la plateforme (l’API ne fournit pas l’intégralité des tweets publiés, elle est régie par des critères propres à Twitter et non connus).

pip install twarc
from twarc import Twarc
t = Twarc (consumer_key, consumer_secret, access_token, access_token_secret)
twarc filter #Parcoursup AND #Parcoursup > stream. jsonl
% utils/network.py --users tweets. jsonl tweets.gexf

Les tweets (mais aussi les retweets, réponses mentions) ainsi récoltés au format. json (Javascript Object Notation) peuvent être également exportés au format .csv (comma-separated values texte séparé par des virgules) pour plus de lisibilité et facilité de réutilisation avec : 

--output=csv

Le fichier obtenu est structuré sous la forme :

id_strl’identifiant du tweet
from_user nom de l’utilisateur
text le contenu du tweet
created_at/time la date de création du Tweet 
geo coordinates les coordonnées GPS si renseigné 
user_lang la langue du client Twitter de l’auteur du tweet
in_reply_to_user_id_str L’identifiant de l’utilisateur auquel est adressé le tweet
in_reply_to_screennom de l’utilisateur auquel est adressé le tweet
name  from_user_id_str identifiant de l’utilisateur auquel est adressé le tweet
in_reply_to_status_id_str identifiant du tweet cité
source 

adresse de l’image de profil de l’utilisateur

profile_image_url adresse de l’image de profil de l’utilisateur
user_followers_count Nombre d’abonnés de l’utilisateur
user_friends_count nombre de comptes suivis par l’utilisateur 
user_location localisation du profil de l’utilisateur
status_url adresse du tweet       

 Le fichier csv récolté du mai à juin 2018 comporte 385386 enregistrements uniques (tweets, retweets réponses et mentions).